【強(qiáng)烈推薦】C#.NET開源的OCR文字識別工具
當(dāng)前位置:點(diǎn)晴教程→知識管理交流
→『 技術(shù)文檔交流 』
導(dǎo)讀 現(xiàn)如今,大家對OCR的需求與日俱增,但是對我們.NET開發(fā)人員來說,卻基本并沒有什么趁手的工具,大部分都是基于Python去調(diào)用的,習(xí)慣了.NET優(yōu)秀的語法,如果不是必要,其實(shí)是很不想去適應(yīng)其他語言的。 這套源碼我是從去年開始接觸的,不過到最后因?yàn)闆]有實(shí)際應(yīng)用,所以最近沒有太多的關(guān)注,但是作者還是在不停的更新中,交流群也是非?;钴S。 項(xiàng)目描述 PaddleOCRSharp 是一個(gè)基于百度飛槳PaddleOCR的.NET版本OCR工具類庫。項(xiàng)目核心組件PaddleOCR.dll,由C++編寫,根據(jù)百度飛槳PaddleOCR的C++代碼修改并優(yōu)化而成。目前已經(jīng)支持C++、.NET、Python、Golang、Rust等開發(fā)語言的直接API接口調(diào)用。項(xiàng)目包含文本識別、文本檢測、表格識別功能。本項(xiàng)目針對小圖識別不準(zhǔn)的情況下做了優(yōu)化,比飛槳原代碼識別準(zhǔn)確率有所提高。包含總模型僅8.6M的超輕量級中文OCR,單模型支持中英文數(shù)字組合識別、豎排文本識別、長文本識別。同時(shí)支持中英文、純英文以及多種語言文本檢測識別。 PaddleOCRSharp封裝極其簡化,實(shí)際調(diào)用僅幾行代碼,極大的方便了中下游開發(fā)者的使用和降低了PaddleOCR的使用入門級別,同時(shí)提供不同的.NET框架使用,方便各個(gè)行業(yè)應(yīng)用開發(fā)與部署。Nuget包即裝即用,可以離線部署,不需要網(wǎng)絡(luò)就可以識別的高精度中英文OCR。 本項(xiàng)目支持官方所有公開的通用OCR模型,PPOCRV2、PPOCRV3、PPOCRV4。如果使用v2模型,請?jiān)O(shè)置OCR識別參數(shù)OCRParameter對象的屬性rec_img_h=32,本項(xiàng)目默認(rèn)使用V3模型,默認(rèn)rec_img_h=48: 本項(xiàng)目只能在X64的CPU上編譯和使用,只能在avx指令集上的CPU上使用。 本項(xiàng)目目前支持以下.NET框架: net35;net40;net45;net451;net452;net46;net461;net462;net47;net471;net472;net48;net481; netstandard2.0;netcoreapp3.1; net5.0;net6.0;net7.0;net8.0 本項(xiàng)目提供了兩個(gè)SDK,一個(gè)是C++版本,一個(gè)是.net版本,.net版本是對C++版本的二次封裝,其他語言開發(fā)亦是調(diào)用C++版本。同時(shí)也提供了Go、Python、C++的調(diào)用示例代碼
支持的模型 OCR識別模型庫支持官方所有的模型,也支持自己訓(xùn)練的模型。完全按照飛槳OCR接口搭橋。本項(xiàng)目部署自帶的一種輕量版8.6M模型庫、服務(wù)器版模型庫(更準(zhǔn)確,需要自行下載),可以自行更改模型庫適用實(shí)際需求。
代碼預(yù)覽
效果預(yù)覽
該文章在 2023/9/4 12:27:21 編輯過
|
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |