cnocr 部署在不同机器上,中文识别率不一样。
source link: https://www.v2ex.com/t/827757
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
在论坛上搜了大佬们推荐的 ocr 工具,最后使用了 cnocr+cnstd 来识别发票上的文字,开发环境 python install 之后文本识别率提高的,符合业务场景要求。但是部署到生成环境(也是采用 pip install 的方式),中文识别率就变得很低。对比过环境上的模型,都是采用默认的模型( densenet_lite_136-fc )。 有没有用过的大佬来帮忙分析一下,目前想不出还有其他的影响因素。
yangyaofei 7 小时 13 分钟前
也有可能是一个是 cpu 一个是 gpu 再加上导致不一样, 但是也不至于到影响精度的程度.....
感觉图像被压缩的可能性更大一点....
clemente0620 7 小时 3 分钟前
zerohzd 6 小时 4 分钟前
passMeBy 5 小时 59 分钟前
yangyaofei 5 小时 33 分钟前
sujin190 5 小时 30 分钟前
sujin190 5 小时 25 分钟前
lixile 5 小时 18 分钟前
从而导致识别权重的部分(生成 or 临时的)阈值有差异
passMeBy 4 小时 54 分钟前
gengchun 4 小时 3 分钟前
去年有个小小的需求,要识别发票。
结果发现直接用 pdf 提取就可以满足,根本不需要调用 OCR ,……
现在程序跑到现在好像还行,……
票据识别,我还看过接口,其实中小规模用的话,采购云厂商的就行了,何必自己开发。超大规模自己开发可能还能收回成本。
gengchun 3 小时 28 分钟前
真的一个月几千到十万张,我是会推荐采购云厂商的,毕竟性价比在那里摆着。
passMeBy 3 小时 7 分钟前
yangyaofei 2 小时 18 分钟前
@passMeBy paddleOCR 的小模型还挺快的,我这边一般都是一张文档 3 秒(CPU), 大模型和小模型精度在我的使用场景下基本没差...
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK