14

超全的OCR数据集

 3 years ago
source link: https://mp.weixin.qq.com/s/86UQwumtV0pnAlFhUUvnLA
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

1、SynthText in the Wild dataset

数据集下载链接:

http://www.robots.ox.ac.uk/~vgg/data/scenetext/

数据集介绍:一个综合生成的数据集,其中单词实例放置在自然场景图像中,同时考虑场景布局。数据集由大约80万个合成词实例的800万个图像组成。每个文本实例都使用其文本字符串、字级和字符级边界框进行注释。

2、Google FSNS

数据集下载链接:

http://rrc.cvc.uab.es/?ch=6&com=downloads

数据集介绍:Google FSNS数据集包含了100多万张从法国Google街景图片中截取的街道名称标志图片。每个图像包含同一街道名称标志的四个视图。路标上的文字最多可以跨越三行。每一个路标都有一个规范的抄本。

3、COCO-Text

数据集下载链接:

https://vision.cornell.edu/se3/coco-text-2/

数据集介绍:63686个图像,145859个文本实例,3个细粒度文本属性。

此数据集基于MSCOCO数据集。

主要内容:

  • Text localizations as bounding boxes

  • Text transcriptions for legible text

  • Multiple text instances per image

  • More than 63,000 images

  • More than 145,000 text instances

  • Text instances categorized into machine printed and handwritten text

  • Text instances categorized into legible and illegilbe text

  • Text instances categorized into English script and non-English script

                                             

640?wx_fmt=png

4、MSRA-TD500

数据集下载链接:

http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_%28MSRA-TD500%29

数据集介绍:MSRA文本检测500数据库(MSRA-TD500)包含500幅自然图像,这些图像是使用袖珍相机从室内(办公室和商场)和室外(街道)场景拍摄的。室内图像以标牌、门牌、警示牌为主,室外图像以复杂背景下的导板、广告牌为主。图像的分辨率从1296x864到1920x1280不等。由于文本的多样性和图像中背景的复杂性,数据集是具有挑战性的。文本有不同的语言(中文、英文或两者的混合)、字体、大小、颜色和方向。背景可能包含植被(如树木和灌木丛)和重复的图案(如窗户和砖块),这些图案与文本没有太大的区别。数据集分为训练集和测试集两部分,训练集包含从原始数据集中随机选择的300个图像,其余200个图像构成测试集,此数据集中的所有图像都已完全注释。

640?wx_fmt=png

5、ICDAR

数据集下载链接:https://rrc.cvc.uab.es/

ICDAR作为一个Challenge性质的平台,包含了2011~2019年各类OCR相关的数据集。

640?wx_fmt=png
640?wx_fmt=png

6、Reading Chinese Text in the Wild(RCTW-17)

数据集下载链接:http://rctw.vlrlab.net/dataset/

数据集介绍:主要包括12000多张图片的数据集,大部分图片是通过手机摄像头在野外采集的,有些是截图。这些图片展示了各种各样的场景,包括街景、海报、菜单、室内场景和手机应用程序的截图。

7、Chinese Text in the Wild(CTW)

数据集下载链接:https://ctwdataset.github.io/

数据集介绍:主要包括3万多幅街景图像中注释的3850个独特的中文文本数据集,其中约有100万个汉字。这是一个具有挑战性的数据集,具有良好的多样性,包括平面文本、凸起文本、弱光下文本、远处文本、部分遮挡文本等。

640?wx_fmt=png
640?wx_fmt=png

8、Text in Videos

数据集下载链接:

http://rrc.cvc.uab.es/?ch=3&com=introduction

数据集介绍:基于不同的短序列(10秒到1分钟长),通过不同类型的摄像机进行选择,使它们代表广泛的现实生活场景。数据集涵盖不同的脚本和语言(西班牙语、法语、英语),将在每一帧的单词级别提供本地化的基本事实。

640?wx_fmt=png

9、The Uber Text dataset

数据集下载链接:

https://s3-us-west-2.amazonaws.com/uber-common-public/ubertext/index.html

数据集介绍:包含了从车载传感器采集的街道级图像和由图像分析团队注释的Ground Truth。

该数据集的特点包括:

(1)街道图像及其文本区域多边形和相应的文本

(2)9个类别表示商业名称文本、街道名称文本和街道编号文本等

(3)一组包含超过110k个图像

(4)平均每个图像4.84个文本实例

640?wx_fmt=png
640?wx_fmt=png

10、The Chars74K dataset

数据集下载链接:

http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/

数据集介绍:

  • 包括64类(0-9、A-Z、A-Z)

  • 自然图像7705个字符

  • 使用平板电脑绘制3410个手写字符

  • 62992个计算机字体合成的字符

  • 共提供了超过74K个图像(解释了数据集的名称)。

640?wx_fmt=png

上述内容,如有侵犯版权,请联系作者,会自行删文。

重磅!3DCVer-学术交流群已成立

欢迎加入我们公众号读者群一起和同行交流,目前有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

640?wx_fmt=jpeg

▲长按加群或投稿

640?wx_fmt=jpeg

▲OCR交流群

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款640? 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK