简介
Tesseract
是一个开源的OCR库,是目前公认的最优秀、最精确的开源OCR系统,具有精准度高、灵活性高等特点。它不仅可以通过训练识别出任何字体(只要字体的风格保持不变即可),而且可以识别出任何Unicode字符。
Tesseract支持60种以上的语言,它提供了一个引擎和命令行工具。
项目主页: https://github.com/tesseract-ocr/tesseract
文档主页: https://tesseract-ocr.github.io/
下载与安装
Windows
下载: https://github.com/UB-Mannheim/tesseract/wiki
安装完成后,如提示找不到命令,请手动添加环境变量。
Linux
安装 Tesseract-OCR
前,需要先安装 leptonica
。
- 安装 leptonica
源码编译
wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz
tar -xzvf leptonica-1.78.0.tar.gz
cd leptonica-1.78.0
./configure
make && make install
# 发现/usr/local/lib中有了 liblept.so。
或使用 vcpkg C++包管理工具安装
git clone https://github.com/Microsoft/vcpkg.git
cd vcpkg
./bootstrap-vcpkg.sh # "./bootstrap-vcpkg.bat" for powershell
./vcpkg integrate install
./vcpkg install leptonica
- 安装 tesseract
wget https://github.com/tesseract-ocr/tesseract/archive/refs/tags/5.3.0.tar.gz
tar -xvf 5.3.0.tar.gz
cd tesseract-5.3.0
./autogen.sh
./configure
make && make install
sudo ldconfig
使用
tesseract images/eurotext.png - -l eng
绑定编程语言
https://tesseract-ocr.github.io/tessdoc/AddOns.html#tesseract-wrappers
tesseract安装和环境变量配置教程 http://movies.itheima.com/news/20210625/182046.html
gosseract:新版本不一定最好 https://blog.csdn.net/Dreamfine/article/details/128600726