

cnocr 部署在不同机器上,中文识别率不一样。
source link: https://www.v2ex.com/t/827757
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

在论坛上搜了大佬们推荐的 ocr 工具,最后使用了 cnocr+cnstd 来识别发票上的文字,开发环境 python install 之后文本识别率提高的,符合业务场景要求。但是部署到生成环境(也是采用 pip install 的方式),中文识别率就变得很低。对比过环境上的模型,都是采用默认的模型( densenet_lite_136-fc )。 有没有用过的大佬来帮忙分析一下,目前想不出还有其他的影响因素。
yangyaofei 7 小时 13 分钟前
也有可能是一个是 cpu 一个是 gpu 再加上导致不一样, 但是也不至于到影响精度的程度.....
感觉图像被压缩的可能性更大一点....
passMeBy 5 小时 59 分钟前
yangyaofei 5 小时 33 分钟前
sujin190 5 小时 30 分钟前
sujin190 5 小时 25 分钟前
gengchun 4 小时 3 分钟前
去年有个小小的需求,要识别发票。
结果发现直接用 pdf 提取就可以满足,根本不需要调用 OCR ,……
现在程序跑到现在好像还行,……
票据识别,我还看过接口,其实中小规模用的话,采购云厂商的就行了,何必自己开发。超大规模自己开发可能还能收回成本。
gengchun 3 小时 28 分钟前
真的一个月几千到十万张,我是会推荐采购云厂商的,毕竟性价比在那里摆着。
yangyaofei 2 小时 18 分钟前
@passMeBy paddleOCR 的小模型还挺快的,我这边一般都是一张文档 3 秒(CPU), 大模型和小模型精度在我的使用场景下基本没差...
Recommend
-
37
微软面部识别服务改进了对非白人的识别率 pigsrollaroundinthem...
-
49
-
56
-
53
-
35
官方称,依图语音识别字错率水平比原行业领先者提升近20%
-
30
论文地址:https://arxiv.org/abs/1911.04252 谷歌大脑负责人 Jeff Dean 和该论文的作者之一 Quoc Le 今天都在 Twitter 上介绍了这项研究工作,新方法能利用更多的未标注图像数据,并提升最终效果。
-
15
新浪科技讯2月15日下午消息,阿里巴巴今日表示,达摩院联合阿里云针对新冠肺炎临床诊断研发了一套全新AI诊断技术,AI可以在20秒内准确地对新冠疑似案例CT影像做出判读,分析结果准确率达到96%,大幅提升诊断效率。明日即将启用的河南郑州小汤山
-
18
不久前,微软和亚利桑那州立大学的研究人员在预印本平台 arxiv.org 上发表了一项 研究论文 ,他们提出了一种人工智能框架: Multiple sources of Weak Social Supervision(MWSS),...
-
5
Python 中同一个字符串的 hash 值在不同机器上为啥不一样? V2EX › Python Python 中同一个字符串的 hash 值在不同机器上为啥...
-
6
因为项目需要,之前找了下已有可用的开源中文OCR工具,发现居然没有特别好用的。 所以就自己封装了一个中文OCR Python包,称之为 cnocr(Chinese OCR的简称)。 cnocr主打使用...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK