前言
在M1 MacBook上安装使用tesseract5。
安装
brew install tesseract
添加中文包
1、 到tessdata_best中去下载中文数据集。 也可以是tessdata,更快但不如best精准。
2、 放置到tesseract的/share/tessdata/
目录下,该目录可用brew list tesseract
查看。
3、tesseract 文件名 结果名 -l chi_sim
即可识别中文~
4、 注意待识别图片分辨率不能太低,否则报错Empty page!!
。
中文数据集名字解释:
chi_sim 包含了简化的常用的汉语和英文字符。
chi_tra 包含了繁体的常用汉语和英文字符。
后带_vert的数据集表示书写方向从上到下。
自有样本训练
tess2 和 tess3 都可以用jTessBoxEditor 训练,但v4之后的LSTM训练该工具不支持了(截至22.09.13)。
关于如何训练LTSM数据集,目前找到一篇文章,没有验证,欢迎讨论。