tesseract安装使用

2022-09-13

字数统计: 223字 | 阅读时长: 1分

前言

在M1 MacBook上安装使用tesseract5。

安装

brew install tesseract

添加中文包

1、到tessdata_best中去下载中文数据集。也可以是tessdata，更快但不如best精准。

2、放置到tesseract的/share/tessdata/目录下，该目录可用brew list tesseract查看。

3、tesseract 文件名结果名 -l chi_sim即可识别中文～

4、注意待识别图片分辨率不能太低，否则报错Empty page!!。

中文数据集名字解释：

chi_sim 包含了简化的常用的汉语和英文字符。
chi_tra 包含了繁体的常用汉语和英文字符。
后带_vert的数据集表示书写方向从上到下。

自有样本训练

tess2 和 tess3 都可以用jTessBoxEditor 训练，但v4之后的LSTM训练该工具不支持了（截至22.09.13）。

关于如何训练LTSM数据集，目前找到一篇文章，没有验证，欢迎讨论。

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true