【開源算法】RapidOCRPDF:依托于RapidOCR倉庫,快速提取PDF中文字,包括掃描版PDF、加密版PDF
當(dāng)前位置:點晴教程→知識管理交流
→『 技術(shù)文檔交流 』
https://github.com/RapidAI/RapidOCRPDF
1、安裝rapidocr_pdf庫 # 基于rapidocr_onnxruntimepip # 基于rapidocr_openvinopip
2、使用
from rapidocr_pdf import PDFExtracter pdf_extracter = PDFExtracter() pdf_path = 'tests/test_files/direct_and_image.pdf' texts = pdf_extracter(pdf_path) print(texts)
$ rapidocr_pdf -h usage: rapidocr_pdf [-h] [-path FILE_PATH] options: -h, --help show this help message and exit -path FILE_PATH, --file_path FILE_PATH File path, PDF or images $ rapidocr_pdf -path tests/test_files/direct_and_image.pdf 3、輸入輸出說明
[ ['0', '人之初,性本善。性相近,習(xí)相遠。', '0.8969868'], ['1', 'Men at their birth, are naturally good.', '0.8969868'], ] 04 更新日志
該文章在 2023/12/7 12:29:51 編輯過 |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |