Tesseract 4.x 新字体微调训练

标签: tesseract train

精彩评论
  1. 作者你好,我正在按照你的步骤来训练自己的字体模型,我现在有一个疑问,是不是当目标图片中有多少字体,那么训练更多的字体模型就更加准确?

    1. 是的,微调训练使用的都是官方提供的样本汉字生成的图片,实际上发现很多常用的文字没有包含,可以采用官方提供的教程进行新增字符训练(不过我在微调训练的基础上测试不是很顺利,存在一些问题没有成功)

  2. kim kim

    老哥,利害!還有在研究嗎?
    我看其它教程fine tune是要指定字符集的( chi_sim.unicharset ), 這個字符集到有甚麼用途,為何這邊訓練新字形不用?

    1. 如果我没记错的话,如果你下载官方(https://github.com/tesseract-ocr/langdata_lstm)的语言包,里面每种语言都有默认包含.unicharset文件的,这些文件实际上是汉字在图片中的位置信息,训练新字体也是需要的,在上面文章中生成待训练数据时会生成,只不过它是全自动的(过程就是读取语言包中对应语言的样本汉字,然后汉字生成图片,汉字在图片中的位置信息就保存在.unicharset文件,实际上就和其他网上文章手动操作一样,只不过脚本帮我们做了),最后在进行训练的时候会用到这个文件的。

  3. Lulu Lulu

    checkbox还是checkpoint文件... 同感官方教程演示例子的时候加了很多别的东西进去, 知乎那篇什么超详细也是在各个case之间跳跃还不加序号...

  4. nano nano

    我训练时出现“!int_mode_:Error:Assert failed:in file weightmatrix.cpp, line 244 !int_mode_:Error:Assert failed:in file weightmatrix.cpp, line 244 段错误 (核心已转储)”错误,请问是什么问题?

  5. asna asna

    博主能否放一些训练生成的字形看看。

    1. 很久没搞了,东西都删掉了。生成的字形没什么好看的,什么字体训练生成的时候就是什么字形。

发表评论:

icon_mrgreen.gificon_neutral.gificon_twisted.gificon_arrow.gificon_eek.gificon_smile.gificon_confused.gificon_cool.gificon_evil.gificon_biggrin.gificon_idea.gificon_redface.gificon_razz.gificon_rolleyes.gificon_wink.gificon_cry.gificon_surprised.gificon_lol.gificon_mad.gificon_sad.gificon_exclaim.gificon_question.gif