开源自己编写的半人工标注平台PaddleOCRLabel（.NET Winform版本）

我是博客园的老用户了，许久不做.NET技术了，从2013年起，开始从事App技术，写过书，在Linux上搭建区块链，用GO写智能合约，使用nodejs搭建过微服务，用python写过爬虫，写过微信聊天机器人。

人到中年，已经写不出20多岁时意气风发的激扬文字了。

最近开始从事历史类工具的开发，以及人工智能，尤其是OCR技术，又重拾C#和winform的老本行，做了一个半人工标注平台PaddleOCRLabel，在gitee上开源，地址是：https://gitee.com/BaoJianQiang/paddle-ocrlabel

写这个软件只用了一周时间，很多遗忘的技术，上网搜一下，改一改代码，基本就能为我所用。写了17年代码了，这是最直接的体会。

再比如说，要做一个操作回滚的功能，用命令模式或备忘录模式，也是得心应手，这也是08年开始研究设计模式的成果。

比较感慨的是，.NET生态真的不是很繁荣。举一个例子，我这个软件里面要做类似于PhotoShop的圈锁和浮层，竟然找不到好用的第三方库，只能直接使用最原始的GDI+绘制，效果不是很理想。我隐约记得有个.NET仿照PS做的Paint.NET开源项目，竟然官网已经不提供下载了。只能去一些网站付费下载，打开才发现是很早的版本，现在的VisualStudio根本打不开。

再聊聊我步入ai这个大舞台的初步感受，我至今也没入门这个领域，只是机械性的知道tensorflow和pytorch搭建模型的那些代码，但是对于文字和图像转变成数字矩阵然后大量训练就能得到结果，还是摸不着头脑。

看一下这个开源项目的界面吧，如下图所示：

这个软件哦，其实还没全做完，因为要和百度paddleocr合作，所以只能使用百度的服务。

接下来，会在此基础上，开发出更强大的一个项目，扫描一张图片，同时从腾讯、百度、阿里、科大讯飞这几家公司的ocr服务，返回标注结果，供用户选择，这就是商用软件了。

此外，我上个月还写了一个一键生成的工具，可以把pdf直接转换为ocr识别后的文本，软件界面如下图所示，过段时间我也会开源出来：

我的一个长期愿景是整理古籍，把古籍中的文字搜集为一个很大的历史资料库，支持全文索引，如下图所示(只截取了两晋十六国和民国的截图，想看其他朝代的可以私聊)，是我花了一年时间做的一个软件，通过这个内容类收集软件，可以快速把历朝历代的人物的传记文章归类，可以快速阅读完一个朝代的历史，这是我的初衷：

把这些工具结合在一起，就是一个非常牛逼的纸质书籍转文本的一揽子解决方案。我主要针对古籍，因为这块没有版权的问题。

最后，因为咱们这个技术社区做.NET的人多一些，所以希望各位winform绘图高手，以及python多线程高手，有兴趣可以参与到我这个开源项目中来。

开源自己编写的半人工标注平台PaddleOCRLabel（.NET Winform版本）

开源自己编写的半人工标注平台PaddleOCRLabel（.NET Winform版本）

Recommend

破产重组是假，“揭不开锅”是真，恒大还能撑多久？

5 Ways to Monetize Your Digital Community

北京产品经理培训学院都有哪些？哪个机构比较好？

WordPress 的 ActivityPub 插件

The True Cost of Ransomware

Project and Research Fellow Position in Reproducibility of Human Evaluations – E...

SivaLabs - Kubernetes - Blue/Green Deployments

Solana：主网测试版正经历间歇性不稳定，工程师正寻求解决方案

Pinterest Tests New Full-Screen, Vertical Scrolling Feed for Pin Discovery

10 Web Design Trends and Predictions for 2022 and Beyond [Infographic]

About Joyk