高質(zhì)量PDF內(nèi)容提取工具PDF-Extract-Kit
當(dāng)前位置:點(diǎn)晴教程→知識管理交流
→『 技術(shù)文檔交流 』
項(xiàng)目簡介PDF-Extract-Kit通過集成多個模型實(shí)現(xiàn)了PDF高質(zhì)量提取,適用于學(xué)術(shù)論文、教科書、研究報(bào)告和財(cái)務(wù)報(bào)表等多種文檔類型,在掃描模糊或有水印的情況下也能保持高魯棒性 1、布局檢測采用LayoutLMv3模型進(jìn)行區(qū)域檢測,包括圖像、表格、標(biāo)題、文本等 2、公式檢測上采用YOLOv8,包含行內(nèi)公式和行間公式 3、公式識別上采用UniMERNet識別 4、光學(xué)字符識別使用PaddleOCR進(jìn)行文本識別 對于公式識別,UniMERNet可以媲美商業(yè)軟件;OCR上使用PaddleOCR,對中英文OCR效果不錯,之前分享過 PDF內(nèi)容提取框架如下圖所示 結(jié)合多樣性PDF文檔標(biāo)注,我們訓(xùn)練了魯棒的布局檢測和公式檢測模型。在論文、教材、研報(bào)、財(cái)報(bào)等多樣性的PDF文檔上,我們的pipeline都能得到準(zhǔn)確的提取結(jié)果,對于掃描模糊、水印等情況也有較高魯棒性。評測指標(biāo)現(xiàn)有開源模型多基于Arxiv論文類型數(shù)據(jù)進(jìn)行訓(xùn)練,面對多樣性的PDF文檔,提前質(zhì)量遠(yuǎn)不能達(dá)到實(shí)用需求。相比之下,我們的模型經(jīng)過多樣化數(shù)據(jù)訓(xùn)練,可以適應(yīng)各種類型文檔提取。 布局檢測我們與現(xiàn)有的開源Layout檢測模型做了對比,包括DocXchain、Surya、360LayoutAnalysis的兩個模型。而LayoutLMv3-SFT指的是我們在LayoutLMv3-base-chinese預(yù)訓(xùn)練權(quán)重的基礎(chǔ)上進(jìn)一步做了SFT訓(xùn)練后的模型。論文驗(yàn)證集由402張論文頁面構(gòu)成,教材驗(yàn)證集由587張不同來源的教材頁面構(gòu)成。
公式檢測我們與開源的模型Pix2Text-MFD做了對比。另外,YOLOv8-Trained是我們在YOLOv8l模型的基礎(chǔ)上訓(xùn)練后的權(quán)重。論文驗(yàn)證集由255張論文頁面構(gòu)成,多源驗(yàn)證集由789張不同來源的頁面構(gòu)成,包括教材、書籍等。
公式識別 公式識別我們使用的是Unimernet的權(quán)重,沒有進(jìn)一步的SFT訓(xùn)練,其精度驗(yàn)證結(jié)果可以在其GitHub頁面獲取。 使用教程環(huán)境安裝
安裝完環(huán)境后,可能會遇到一些版本沖突導(dǎo)致版本變更,如果遇到了版本相關(guān)的報(bào)錯,可以嘗試下面的命令重新安裝指定版本的庫。
除了版本沖突外,可能還會遇到torch無法調(diào)用的錯誤,可以先把下面的庫卸載,然后重新安裝cuda12和cudnn。
項(xiàng)目鏈接
該文章在 2024/7/24 23:53:50 編輯過 |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |