Tesseract.js 是一個基于 Tesseract OCR 引擎開源的 Javascript 庫,支持 100 多種語言(中文支持),支持自動文本定位和腳本檢測,用于讀取段落、單詞和字符邊界框的簡單界面。既可以在瀏覽器中運行,也可以在帶有NodeJS的服務器上運行。Tesseract.js 在開源社區(qū)獲得大量開發(fā)者的喜賴,目前在Github上已經(jīng)獲得了32K Stars。
🍄 安裝依賴
通過 CDN 方式在 <script> 標簽直接引入<!-- v5 -->
<script src='https://cdn.jsdelivr.net/npm/tesseract.js@5/dist/tesseract.min.js'></script>
通過 npm 使用 webpack,在 Node.js 上使用 npm/yarn 命令安裝# For latest version
npm install tesseract.js
yarn add tesseract.js
# For old versions
npm install tesseract.js@3.0.3
yarn add tesseract.js@3.0.3
# First we clone the repository
git clone https://github.com/naptha/tesseract.js.git
cd tesseract.js
# Then we install the dependencies
npm install
# And finally we start the development server
npm start
啟動成功之后,在瀏覽器打開,即可查看官方demo演示:
🌱 快速體驗
提供一張英文圖片:
英文OCR識別結(jié)果:
此外還支持中文識別:
識別的準確度非常高,此外還支持識別之后導出PDF,大家也可以試試~
https://tesseract.projectnaptha.com/
Tesseract 是惠普布里斯托實驗室在1985到1995年間開發(fā)的一個開源的OCR引擎,曾經(jīng)在1995 UNLV精確度測試中名列前茅。但1996年后基本停止了開發(fā)。2005年,惠普將其對外開源,2006 由Google對Tesseract進行改進、消除Bug、優(yōu)化工作。
該文章在 2023/11/16 22:14:21 編輯過