CVPR 2019 论文大盘点（文本图像相关篇）

我爱计算机视觉标星，更快获取CVML新技术

Qb2Qjqz.jpg!web

CV君盘点了 CVPR 2019 文本图像相关论文，总计 17 篇。

其中研究文本检测的最多，共 7 篇，包括已经非常知名的 PSENet ，还有最近异常火爆的 CRAFT。

文本识别 4 篇，其中华南理工大学的 Aggregation Cross-Entropy 代码已经开源，其不仅适用于文本数据，序列数据识别均可参考。

数据增广 2 篇，文本数据是天然易于在训练时进行样本增广的，而GAN也被成功应用于这一方向。

北大的 2 篇文本风格迁移非常有意思，也许在设计领域很有用处。 Facebook 将 OCR 引入视觉问答的课题中，推进了视觉问答更智能。西安交大手写签名的论文，解决好了的话在这个网络时代应该很有用。

开源代码地址也一并列出了，希望对研究开发相关方向的同学有帮助。

文本检测

利用条件空间扩展实现鲁棒弯曲文本检测

南洋理工大学、阿德莱德大学

Towards Robust Curve Text Detection With Conditional Spatial Expansion

Zichuan Liu, Guosheng Lin, Sheng Yang, Fayao Liu, Weisi Lin, Wang Ling Goh

UZRBbua.jpg!web

字符区域感知的文本检测，不仅利用字符本身特征还利用字符之间的关系。在MSRA-TD500数据集上目前是最好的算法。

Clova AI Research, NAVER Corp

Character Region Awareness for Text Detection

Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, Hwalsuk Lee

jiuE7bB.jpg!web

https://github.com/clovaai/CRAFT-pytorch

自适应文本区域表示，用于任意形状的场景文本检测，在5个文本检测数据集上都达到了state-ofthe-art。

三星中国研究院、中科院自动化所、中科院大学、韩国三星研究院

Arbitrary Shape Scene Text Detection With Adaptive Text Region Representation

Xiaobing Wang, Yingying Jiang, Zhenbo Luo, Cheng-Lin Liu, Hyunsoo Choi, Sungjin Kim

6vYfM3a.jpg!web

形状感知嵌入学习用于场景文本检测

香港中文大学、约翰霍普金斯大学、腾讯优图实验室

Learning Shape-Aware Embedding for Scene Text Detection

Zhuotao Tian, Michelle Shu, Pengyuan Lyu, Ruiyu Li, Chao Zhou, Xiaoyong Shen, Jiaya Jia

UvE7VjA.jpg!web

渐近扩展网络，用于形状鲁棒的文本检测

南京大学、同济大学、南京理工大学、Momenta、旷视科技

Shape Robust Text Detection With Progressive Scale Expansion Network

Wenhai Wang, Enze Xie, Xiang Li, Wenbo Hou, Tong Lu, Gang Yu, Shuai Shao

https://github.com/whai362/PSENet

Y3aMRj2.jpg!web

一种迭代的不断提精的高精度任意形状文本检测方法，在多个数据集达到了state-of-the-art。

百度、厦门大学

Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes

Chengquan Zhang, Borong Liang, Zuming Huang, Mengyi En, Junyu Han, Errui Ding, Xinghao Ding

fyaEZrQ.jpg!web

提出场景文本检测结果度量的新协议，更加以有利于进一步识别为导向，更加注重检测结果的完整性（Completeness）、紧凑性（Compactness）、细腻度（Tightness-aware）

华南理工大学

Tightness-Aware Evaluation Protocol for Scene Text Detection

Yuliang Liu, Lianwen Jin, Zecheng Xie, Canjie Luo, Shuaitao Zhang, Lele Xie

6bU7vif.jpg!web

https://github.com/Yuliang-Liu/TIoU-metric

文本识别

提出一种聚合交叉熵损失函数，用于序列数据识别，可有效替换CTC+注意力机制，实现简单、计算快速、存储要求低、方便替换CTC。

华南理工大学

Aggregation Cross-Entropy for Sequence Recognition

Zecheng Xie, Yaoxiong Huang, Yuanzhi Zhu, Lianwen Jin, Yuliang Liu, Lele Xie

2ARri2j.jpg!web

https://github.com/summerlvsong/Aggregation-Cross-Entropy

数字文档中关键字检索的深度特征方法，高效、存储要求低。

NCSR “Demokritos”、希腊国立雅典理工大学、希腊约阿尼纳大学

An Alternative Deep Feature Approach to Line Level Keyword Spotting

George Retsinas, Georgios Louloudis, Nikolaos Stamatopoulos, Giorgos Sfikas, Basilis Gatos

j2iuQvf.jpg!web

通过迭代的图像校正进行端到端的场景文本识别

南洋理工大学

ESIR: End-To-End Scene Text Recognition via Iterative Image Rectification

Fangneng Zhan, Shijian Lu

YNVriqE.jpg!web

https://github.com/fnzhan/ESIR

序列到序列的域适应网络，用于鲁棒文本图像识别

中科院自动化所、中科院大学、电子科技大学、浙江大学、阿凡题人工智能研究院

Sequence-To-Sequence Domain Adaptation Network for Robust Text Image Recognition

Yaping Zhang, Shuai Nie, Wenju Liu, Xing Xu, Dongxiang Zhang, Heng Tao Shen

Jz63iey.jpg!web

文本图像数据增广

空间融合GAN进行图像合成

结合几何与表面信息的空间融合生成对抗网络，用于图像合成，其中合成的文本图像改进了文本识别的训练

南洋理工大学、新加坡A*STAR

Spatial Fusion GAN for Image Synthesis

Fangneng Zhan, Hongyuan Zhu, Shijian Lu

7jqeUbU.jpg!web

https://github.com/Sunshine352/SF-GAN

提出一种对抗特征变形模块（AFDM），用于训练数据匮乏的手写文本识别。

南洋理工大学、Institute of Engineering & Management, India、Jadavpur University, India、Indian Institute of Technology Roorkee, India

Handwriting Recognition in Low-Resource Scripts Using Adversarial Learning

Ayan Kumar Bhunia, Abhirup Das, Ankan Kumar Bhunia, Perla Sai Raj Kishore, Partha Pratim Roy

mQJNf2y.jpg!web

https://github.com/AyanKumarBhunia/Handwriting_Recogition_using_Adversarial_Learning

文本风格迁移

文本特效（风格）迁移

北京大学

Typography with Decor: Intelligent Text Style Transfer

Wenjing Wang, Jiaying Liu, Shuai Yang, and Zongming Guo

ym2ueqq.jpg!web

https://github.com/daooshee/Typography-with-Decor

基于样例的动态文本特效迁移

北京大学

DynTypo: Example-Based Dynamic Text Effects Transfer

Yifang Men, Zhouhui Lian, Yingmin Tang, Jianguo Xiao

JRzMFfE.jpg!web

https://menyifang.github.io/projects/DynTypo/DynTypo.html

OCR + 视觉问答

图像内OCR文本识别 + 基于此更准确的视觉问答

Facebook、佐治亚理工学院

Towards VQA Models That Can Read

Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus Rohrbach

https://github.com/facebookresearch/pythia

签名鉴伪

反向鉴别网络，用于手写签名验证

西安交通大学

Inverse Discriminative Networks for Handwritten Signature Verification

Ping Wei, Huan Li, Ping Hu

YZRzyum.jpg!web

OCR专业交流群

关注最新最前沿的文本检测、识别技术，欢迎加入52CV-OCR专业交流群，扫码添加CV君拉你入群（如已为CV君好友，请直接私信， 不必重复添加 ），

（请务必注明:OCR ）：

喜欢在QQ交流的童鞋可以加52CV官方QQ群： 702781905 。

（不会时时在线，如果没能及时通过还请见谅）

UbiEbaU.png!web

长按关注我爱计算机视觉

文本检测

文本识别

文本图像数据增广

OCR + 视觉问答

签名鉴伪

Recommend

逆向分析Spotify.app并hook其功能获取数据

Stealthy & Targeted Implant Loaders

系统运维|用 Bash 脚本监控 Linux 上的内存使用情况

Searching Perldocs

Redis + Lua 接口限流最佳实践策略

图灵奖得主 David Patterson：RISC-V 的未来在中国

Kippo：一款强大的SSH蜜罐工具

服务网格如何辅助微服务管理

FPGAs Have the Wrong Abstraction

大数据分析工程师入门（九）：Spark SQL

About Joyk