最近最新中文字幕大全2019,jizzyou中国少妇高潮,95偷拍午夜Tv视频,禁断の肉体乱爱中文字幕,77尤物精选在线观看,日本一区二区午夜,亚洲区日韩精品中文字幕,国产一区二区高h在线观看,天天影视涩香欲综合网,2021亚洲精品不卡a

<del id="uy6gw"></del>

高質(zhì)量PDF內(nèi)容提取工具PDF-Extract-Kit

當(dāng)前位置：點(diǎn)晴教程→知識管理交流 →『技術(shù)文檔交流』

admin

2024年7月24日 23:51 本文熱度 537

項(xiàng)目簡介

PDF-Extract-Kit通過集成多個模型實(shí)現(xiàn)了PDF高質(zhì)量提取，適用于學(xué)術(shù)論文、教科書、研究報(bào)告和財(cái)務(wù)報(bào)表等多種文檔類型，在掃描模糊或有水印的情況下也能保持高魯棒性

1、布局檢測采用LayoutLMv3模型進(jìn)行區(qū)域檢測，包括圖像、表格、標(biāo)題、文本等

2、公式檢測上采用YOLOv8，包含行內(nèi)公式和行間公式

3、公式識別上采用UniMERNet識別

4、光學(xué)字符識別使用PaddleOCR進(jìn)行文本識別

對于公式識別，UniMERNet可以媲美商業(yè)軟件；OCR上使用PaddleOCR，對中英文OCR效果不錯，之前分享過

PDF內(nèi)容提取框架如下圖所示

結(jié)合多樣性PDF文檔標(biāo)注，我們訓(xùn)練了魯棒的布局檢測和公式檢測模型。在論文、教材、研報(bào)、財(cái)報(bào)等多樣性的PDF文檔上，我們的pipeline都能得到準(zhǔn)確的提取結(jié)果，對于掃描模糊、水印等情況也有較高魯棒性。

評測指標(biāo)

現(xiàn)有開源模型多基于Arxiv論文類型數(shù)據(jù)進(jìn)行訓(xùn)練，面對多樣性的PDF文檔，提前質(zhì)量遠(yuǎn)不能達(dá)到實(shí)用需求。相比之下，我們的模型經(jīng)過多樣化數(shù)據(jù)訓(xùn)練，可以適應(yīng)各種類型文檔提取。

布局檢測

我們與現(xiàn)有的開源Layout檢測模型做了對比，包括DocXchain、Surya、360LayoutAnalysis的兩個模型。而LayoutLMv3-SFT指的是我們在LayoutLMv3-base-chinese預(yù)訓(xùn)練權(quán)重的基礎(chǔ)上進(jìn)一步做了SFT訓(xùn)練后的模型。論文驗(yàn)證集由402張論文頁面構(gòu)成，教材驗(yàn)證集由587張不同來源的教材頁面構(gòu)成。

模型	論文驗(yàn)證集			教材驗(yàn)證集
模型	mAP	AP50	AR50	mAP	AP50	AR50
DocXchain	52.8	69.5	77.3	34.9	50.1	63.5
Surya	24.2	39.4	66.1	13.9	23.3	49.9
360LayoutAnalysis-Paper	37.7	53.6	59.8	20.7	31.3	43.6
360LayoutAnalysis-Report	35.1	46.9	55.9	25.4	33.7	45.1
LayoutLMv3-SFT	77.6	93.3	95.5	67.9	82.7	87.9

公式檢測

我們與開源的模型Pix2Text-MFD做了對比。另外，YOLOv8-Trained是我們在YOLOv8l模型的基礎(chǔ)上訓(xùn)練后的權(quán)重。論文驗(yàn)證集由255張論文頁面構(gòu)成，多源驗(yàn)證集由789張不同來源的頁面構(gòu)成，包括教材、書籍等。

模型	論文驗(yàn)證集		多源驗(yàn)證集
模型	AP50	AR50	AP50	AR50
Pix2Text-MFD	60.1	64.6	58.9	62.8
YOLOv8-Trained	87.7	89.9	82.4	87.3

公式識別

公式識別我們使用的是Unimernet的權(quán)重，沒有進(jìn)一步的SFT訓(xùn)練，其精度驗(yàn)證結(jié)果可以在其GitHub頁面獲取。

使用教程

環(huán)境安裝

conda create -n pipeline python=3.10
pip install -r requirements.txt
pip install --extra-index-url https://miropsota.github.io/torch_packages_builder detectron2==0.6+pt2.3.1cu121

安裝完環(huán)境后，可能會遇到一些版本沖突導(dǎo)致版本變更，如果遇到了版本相關(guān)的報(bào)錯，可以嘗試下面的命令重新安裝指定版本的庫。

pip install pillow==8.4.0

除了版本沖突外，可能還會遇到torch無法調(diào)用的錯誤，可以先把下面的庫卸載，然后重新安裝cuda12和cudnn。

pip uninstall nvidia-cusparse-cu12

項(xiàng)目鏈接

https://github.com/opendatalab/PDF-Extract-Kit/blob/main/README-zh_CN.md

該文章在 2024/7/24 23:53:50 編輯過

關(guān)鍵字查詢

內(nèi)容

相關(guān)文章

正在查詢...

點(diǎn)晴ERP是一款針對中小制造業(yè)的專業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國內(nèi)大量中小企業(yè)的青睞。

點(diǎn)晴PMS碼頭管理系統(tǒng)主要針對港口碼頭集裝箱與散貨日常運(yùn)作、調(diào)度、堆場、車隊(duì)、財(cái)務(wù)費(fèi)用、相關(guān)報(bào)表等業(yè)務(wù)管理，結(jié)合碼頭的業(yè)務(wù)特點(diǎn)，圍繞調(diào)度、堆場作業(yè)而開發(fā)的。集技術(shù)的先進(jìn)性、管理的有效性于一體，是物流碼頭及其他港口類企業(yè)的高效ERP管理信息系統(tǒng)。

點(diǎn)晴WMS倉儲管理系統(tǒng)提供了貨物產(chǎn)品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質(zhì)期管理,貨位管理,庫位管理,生產(chǎn)管理,WMS管理系統(tǒng),標(biāo)簽打印,條形碼,二維碼管理,批號管理軟件。

點(diǎn)晴免費(fèi)OA是一款軟件和通用服務(wù)都免費(fèi)，不限功能、不限時(shí)間、不限用戶的免費(fèi)OA協(xié)同辦公管理系統(tǒng)。