沙滩星空的博客沙滩星空的博客

使用OCR工具tesseract进行图片文字识别

简介

Tesseract 是一个开源的OCR库,是目前公认的最优秀、最精确的开源OCR系统,具有精准度高、灵活性高等特点。它不仅可以通过训练识别出任何字体(只要字体的风格保持不变即可),而且可以识别出任何Unicode字符。

Tesseract支持60种以上的语言,它提供了一个引擎和命令行工具。

项目主页: https://github.com/tesseract-ocr/tesseract
文档主页: https://tesseract-ocr.github.io/

下载与安装

Windows

下载: https://github.com/UB-Mannheim/tesseract/wiki

安装完成后,如提示找不到命令,请手动添加环境变量。

Linux

编译安装

安装 Tesseract-OCR 前,需要先安装 leptonica

源码编译

wget http://www.leptonica.org/source/leptonica-1.78.0.tar.gz
tar -xzvf leptonica-1.78.0.tar.gz
cd leptonica-1.78.0
./configure
make && make install
 
# 发现/usr/local/lib中有了 liblept.so。

或使用 vcpkg C++包管理工具安装

    git clone https://github.com/Microsoft/vcpkg.git
    cd vcpkg
    ./bootstrap-vcpkg.sh # "./bootstrap-vcpkg.bat" for powershell
    ./vcpkg integrate install
    ./vcpkg install leptonica
wget https://github.com/tesseract-ocr/tesseract/archive/refs/tags/5.3.0.tar.gz
tar -xvf 5.3.0.tar.gz
cd tesseract-5.3.0
./autogen.sh
./configure
make && make install
sudo ldconfig

使用

tesseract images/eurotext.png - -l eng

参考文档

绑定编程语言

https://tesseract-ocr.github.io/tessdoc/AddOns.html#tesseract-wrappers


tesseract安装和环境变量配置教程 http://movies.itheima.com/news/20210625/182046.html
gosseract:新版本不一定最好 https://blog.csdn.net/Dreamfine/article/details/128600726
未经允许不得转载:沙滩星空的博客 » 使用OCR工具tesseract进行图片文字识别

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址