韩国AI团队抄袭震动学界：1个导师带51个学生，还是抄袭惯犯

量子位·2022-06-28 07:03

还有IBM论文被中国团队指控剽窃

今年CVPR，着实有点魔幻了！

先是韩国首尔大学AI团队的Oral，即前4%的优秀论文，被曝出涉嫌抄袭10篇论文。有的地方，连一个单词都没有变。

事发当日即登上韩国头条，国内外网友震惊：搞到CVPR上也太行了吧。

v2_ae3b6a68783043578c95903c2ea86b22_img_000

更多人爆料，这个团队抄袭已经不止一次，基本操作了属于是。

结果这一波还未结束，另一波又开始了。

IBM发表在CVPR上的论文TableFormer被指抄袭国内2021年发表的一篇文章。

v2_26358ab383f54ff1994d03c40f964b17_img_000

爆料指出，IBM论文剽窃了他们的方法，包括预处理、可视化、推理、系统解决方案等，但并没有引用他们的论文。

抄袭事件频出，于是乎不少网友感叹：这届CVPR太魔幻了。

v2_66c6d02bf790410c88506a0b5655868a_img_000

甚至还有人直接在知乎上列出了这么一个问题：

大家一起来揭发吧。CVPR 2022都有哪些论文是抄袭的？

v2_04e067324f744ecbb3593a616af248ae_img_000

韩国团队被曝不止一次抄袭

先来看引发众人关注的韩国团队抄袭事件。

在通讯作者尹盛老和一作金某的最新公开回应中，都表示这次抄袭属于一作的个人行为，和团队其他人无关。

尹盛老解释说：

团队其他合著者把各自的部分发给了一作，但是他最后却没有使用，而是抄袭了别的论文。

他还补充道，现在一作本人其他两篇正在审阅的论文也都被撤回了。

不过，网友们顺藤摸瓜后发现，该团队似乎不止这一篇论文存在抄袭嫌疑。

比如这篇：《Towards Fast and Accurate Object Detection in Bio-Inspired Spiking Neural Networks Through Bayesian Optimization》。

检测软件显示，它有40%的抄袭嫌疑，文中有27处表达与之前研究高度相似。

v2_8709418b0a104f568148be0326aa934e_img_000

还有另外一篇《Energy-aware Placement for SRAM-NVM Hybrid FPGAs》，也被发现存在类似问题。

通讯作者都是尹盛老。

v2_a90aa34992c144b68fa51915f467f89b_img_000

v2_87fb026a536644feae8b5ac688bd3150_img_000

与此同时，还有人指出尹教授的实验室规模很大。

博士生就有37位，加上硕士和博士后，实验室共有51位学生由尹盛老指导。

这也让有人担忧，一位教授是否能同时指导好这么多学生，他们的实验和论文质量是否会受到影响。

而从事件爆发的起点——油管曝光视频的内容来看，这次涉嫌抄袭的论文中，很多地方都是原封不动地搬运此前研究的表述。

涉及到的部分有Introduction、Preliminaries、Method等。

v2_dc7ff332451040b4a7ebe937902f23e0_img_000

甚至有的地方是一字不落的copy。

v2_64a8789c558b4c15a4e352abee05aede_img_000

全文出现的抄袭段落多达25处，曝光视频展示问题就花了7分多钟。

被抄袭的论文很多被NeureIPS、AAAI等顶会接收，其中还有几位一作是韩国人。

v2_72a7f66455404ff28a8446e2eaf62adc_img_000

这也难怪上传曝光视频的人，会给视频起一个如此“刺眼”的标题：

E2V-SDE or: How I Learned to Stop Worrying and Love Plagiarism。

E2V-SDE又名：我是如何毫不担忧并爱上抄袭的。

v2_c71ae2ddf0c14366b8ac7d19b605d587_img_000

这里的E2V-SDE，就来自尹盛老团队此次被CVPR 2022接收的论文标题。

v2_faad513f082341ea82c4515d6d64fee4_img_000

现在，随着事件的不断发酵，尹盛老团队还引发了韩国网友的群愤。

要知道，尹盛老是韩国人工智能领域的权威专家，来自首尔大学人工智能研究所。

今年6月，他才刚刚被韩国科学技术部评选为“首席研究员”，每年享有大约8亿韩元（折合人民币约416万）的科研经费。

但如今，他的团队却深陷抄袭丑闻。

有人留言表示，希望相关单位能够严肃处理这件事情，让相关研究人员退出学术界。

过去30年里，很多人不分昼夜地努力研究，才让韩国能在CV顶会里发表更多论文，而他们的行为却如此过分！

v2_5df216270d8e47dd82db61f172e731ac_img_000

实际上，韩国在CVPR 2022中的成绩确实值得关注，仅首尔大学就有25篇论文入选。

有人直接说，这件事太给韩国丢脸了。

v2_e2bb08166cb0414fb91f4d08b9d72704_img_000

而更为深层的原因还包括，韩国有声音担心，这次事件会是“黄禹锡事件”的二度上演。

2005年，曾任首尔大学兽医学院首席教授、一度被视为韩国民族英雄的黄禹锡，被揭发伪造多项研究成果。

其在《Science》上发表的干细胞研究均属子虚乌有。

2009年，黄禹锡被判处2年徒刑，缓刑3年。

IBM被指抄袭

就在韩国抄袭事件这边还在发酵，IBM也被曝出其入选的CVPR论文涉嫌抄袭。

来自平安科技的研究员，列出了九大证据，涉及方法论、预处理、后期处理、推理、文字行检测与识别等内容，目前已写成邮件发给了CVPR 2022 program chairs。

v2_789945ff8f484e90866b3b654a268646_img_000

首先从核心方法论来看，两者都是表格内容识别任务，取名也类似，一个是TableMASTER，一个是TableFormer。

v2_3249a2a66d524d638114d537cb4d2845_img_000

其中，两者的图像输入均为448*448。前者（TableMASTER）训练长度为500，而后者（TableFormer）则改成了512。

爆料者表示，里面很多痕迹都可以看出，IBM是在他们开源的预训练模型上跑的，只是改了些细节。

而最隐晦的也是直呼“最无耻”的，还要属文本单行检测这块，爆料者称：他们只改变了颜色。

一般而言，官方提供的数据中每个表格都是多行的，不利于之后的训练。

v2_e5e1e4ee89f444c8a0dfd672d04b2602_img_000

于是，研究团队对3000张图像进行了重标注，将连在一起的多行拆分成单行。

v2_22d7bd2b441248b891964e860a9b9241_img_000

而IBM的PDF Cells则是直接拿他们在GitHub上训练好的模型进行预测。

v2_0c2e6ad2fe4a4d9387068a3959d3ad2d_img_000

除此之外，根据爆料者描述，IBM还将他们的3条规则根据开源的代码，强行拆成9条规则。

目前，IBM方也还没有任何回应。网友也持有各种意见。

有人认为，这看起来像个人意见，作者有点情绪化。

v2_9bd07936f7e943a882e7d7675e2ffa46_img_000

还有网友则看完整个证据，很难相信IBM是原创文章，建议直接向CVPR项目委员会投诉。

v2_d1bbe67776904226b710acd38ccb77b6_img_000

One More Thing

最后，再来简单回顾一下今年有点魔幻的CVPR。

CVPR 2022投稿量高达8161篇，相比于去年7093分提交增长了15%，其中44.59%的作者来自中国。

其中，共有2064篇论文被接收，接收率为25.28%。在被接收的论文中，有342份被选为Oral。

最佳论文颁向了ETH Zurich、华盛顿大学、佐治亚理工学院、捷克理工大学等机构的研究者。

而最佳学生论文奖，则是颁给了达摩院的实习生。

李飞飞教授获得了本次大会的 Thomas S. Huang纪念奖。

除此之外不得不承认，今年CVPR确实热闹，毕竟有近6000人来到线下参会。

于是乎，另一个魔幻的事情发生了——不少人因此染上新冠。

网友还提问：到底是CVPR接收率高还是感染新冠率高？

v2_05e0ad683a5d4e4caf20ba2f3a1ae198_img_000

参考文献：

[1]https://www.reddit.com/r/MachineLearning/comments/vlpnuw/d_ibm_zurich_research_plagiarised_our_paper_and/

[2]https://twitter.com/e2v_sde_parody/status/1540087877308239874

[3]https://arxiv.org/pdf/2105.01848.pdf

[4]https://arxiv.org/pdf/2203.01017.pdf

[5]https://www.youtube.com/watch?v=UCmkpLduptU&t=95s

[6]https://www.fmkorea.com/4760102853

[7]https://www.zhihu.com/question/539432448/answer/2543861341

[8]https://www.hankyung.com/society/article/2022062674031

[9]https://www.reddit.com/r/MachineLearning/comments/vjkssf/d_how_to_copy_text_from_more_than_10_previously/

本文来自微信公众号“量子位”（ID:QbitAI），作者：杨净明敏，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

韩国AI团队抄袭震动学界：1个导师带51个学生，还是抄袭惯犯

韩国AI团队抄袭震动学界：1个导师带51个学生，还是抄袭惯犯

韩国团队被曝不止一次抄袭

IBM被指抄袭

One More Thing

Recommend

为什么要发布新闻稿？新闻稿发布的9大优势

Obi-Wan's Disney Plus success may be bad news for Star Wars

KuCoin Launches EUR Trading Pairs to Make Crypto Transactions Easier for Europea...

机构：苹果 2022 全球开发者大会，更加强调生产能力

中微半导包装有术置换股权或浮盈2亿元突击出售参股公司“扮靓”报表

Leadership as the Fossil Fuel for the Next-Age of Sustainable Business Growth? R...

5个有用的 IntelliJ IDEA 插件提高编程效率

人才盘点后，管理者反馈时应该避免的6大陷阱

On the Road to Fibers-free Meteor

年入4亿，古天乐代言的“鸡精”要上市

About Joyk