Tesseract OCR

开源 OCR 识别引擎，支持多语言文本识别和命令行调用。

详细介绍

Tesseract OCR 是一个开源光学字符识别引擎，可通过命令行或程序接口识别图像中的文字。它常作为 OCRmyPDF、批量图像文字识别和文档数字化流程中的底层 OCR 引擎。

适用场景：图像文字识别、扫描文献 OCR、批量文档处理、多语言文本识别

推荐组合：Tesseract OCR + OCRmyPDF / Python

把扫描版 PDF、旧文献和档案资料转为可搜索、可复制、可管理的文献文件。