21

Nature:学术造假者瑟瑟发抖,论文图像查重AI技术重拳出击!

 3 years ago
source link: https://www.leiphone.com/news/202009/KrTSIYbqoIwS82LY.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

ZV7Nbe.jpg!mobile

作者 | 青  暮

编辑 | 丛 末

来自纽约雪城大学的机器学习研究人员Daniel Acuna开发了一款论文图像查重软件,他用这款软件检查了3500篇论文的21,000张图像,在4小时内查出大约400张疑似重复的图像, 这项技术或许将为学术造假乱象的解决带来曙光。 近日,Nature还对相关事件进行了报道。  

3miia2Q.jpg!mobile

由于利益诱惑和成本低廉,学术造假屡禁不止。在国内,学术造假的最终结果几乎都是不了了之。

根据中国科学技术信息研究所的报告,中国发表SCI论文数量已居世界第二,紧追美国。截止2020年6月22日, 全世界共有23425篇SCI撤稿,其中中国10303篇,占比44%。

此外,每年中国SCI论文撤稿占所有撤稿的比例也持续上升,2019年达到30%,2020年目前为止已达到33%。今年,中国已有317篇SCI论文撤稿,相对的,美国有215篇SCI论文撤稿。近三年来,剽窃和错误是中国SCI论文撤稿的首要原因。

其中剽窃主要是指文字抄袭,目前的查重系统只能查重文字,不能查重图像。而错误则主要是指 图像错误,包括经过PS然后重复使用的图像。

学术论文造假手段常用的有四种:1、重复用图;2、编造数据,用ps涂抹修图;3、花钱买论文;4、伪造审稿人。 其中第一种和第二种最常用,造假成本最低,以重复用图进行学术造假的案例屡见不鲜。

2020年5月, 素有“打假斗士”之称的Elisabeth Bik博士,举报中国8篇论文 “不同作者、不同大学所属医院、不同癌种、不同蛋白表达,结果却一模一样”。

2020年6月,学术打假网站PubPeer上有人质疑清华大学医学院院长董晨24篇文章有些实验图像存在问题。举报者表示:在这24篇论文里,出现了部分实验图像在不同项目中重复出现,但标记数值不同;两幅实验图像相似度极高;不同指标的直方图完全一致的情况。基于之后董晨的回复,有知乎网友分析:他实际上委婉默认了有造假的地方,只是在造假程序或者数量上有不同的意见。

近日,网传Pubpeer 曝出北京大学常务副校长、中国工程院院士詹启敏的 25 篇论文涉嫌学术造假。这25篇论文被怀疑将相同图像修改后应用于不同实验甚至不同论文中。

可见,图像查重对于论文审查是非常重要的一环,而纯粹靠人工审查则相当费时费力,Daniel Acuna开发的这款软件无疑是一大利器。

1

工作初衷:为疫情防治贡献一份力

由于担心关于COVID-19的研究论文可能存在过多的草率工作, 纽约雪城大学信息研究学院的助理教授Daniel Acuna 开 发了一个能够 对论文 中的图像进行 查重的程序, 悉,现在 这项程序已被应用在 全球的新冠病毒相关论文的预印本上。

NrMJ7r3.jpg!mobile       

对于开发这项程序的初衷,Daniel Acuna 表示:“我无法阻止疫情,只能以自己的方式做出贡献。”

该算法可一次筛选成千上万张论文以匹配图像,翻转、调整大小或旋转的图像也可以进行匹配。

这些重复图像可能是无意的失误,也可能是不当行为的结果。原本这项工作通常由专家人工检查,或用软件检查少量论文中的图像。

但需要注意的是,目前这项程序 仍处于试验阶段, 正在接受 期刊和研究机构的测试。

2

查重结果存有争议

到目前为止,这项工作取得了一定程度的成功,但也引起了一些争议。

今年6月,Daniel Acuna从bioRxiv和medRxiv服务器上下载了3500个预印本,用他的软件查重了21,000张图像。在4小时内,该软件就查出了大约400张可能重复的图像。不过大多数结果都没有问题,他选择了24篇包含可疑重复图像的论文。

7月,他在自己的网站上发布了这些内容,并在PubPeer上公开。

这件事随后引起了轰动。一些论文作者回应说,Daniel Acuna的软件确实查出了重复的图像,他们将纠正错误,不过也有一些错误已经在同行评审版本中得到纠正。

芬兰赫尔辛基大学的病毒学家Giusepp e Ballistreri 对于这项技术,也持肯定态度,他表示, “如果该工具被证明是准确的,则应默认在PubMed中应用。 ”PubMed 是一个免费的搜索引擎,提供生物医学方面的论文搜索以及摘要。

另一方面,也有其他人指出,这些重复不是错误。Elisabeth BikBik以其在科学出版物中检测照片操纵的工作而闻名,她表示,希望Daniel Acuna首先向她咨询匹配结果。她进一步在PubPeer写道,该软件“ 仍然需要人工监督,以确保它不会错误地将适当的重复图像标记为不适当”。

vUVbIza.jpg!mobile       

对于  Elisabeth BikBik   的观点, Daniel Acun a 表示同意 :软件标记的内容始终需要人来审核,并且尚无法根据上下文了解所获取的内容是否有问题。

更有一些研究人员指出,Daniel Acuna的软件完全弄错了,而且标记了相似但不匹配的图像。例如,北卡罗来纳州达勒姆市杜克大学的Priyamvada Acharya要求Daniel Acuna删除他的一篇论文的匹配结果,该论文包含同一分子的相似视角图。

随后,Daniel Acuna从他的网站上删除了大约三分之一的检查结果,并将该网站的列表设置为私人访问。如此,只有从他那里获得访问密钥的作者才能看到他的检查结果。

总体而言,这项研究论文的自动筛选技术远非完美,而且“仍然需要专家来解释和理解”。 此外 德国海德堡的图像分析师 Jana Christopher  也指出了 该技术的另一局 限性 自动图像检查算法仍然过于 注于查找重复项,并且还不能应对所有图像处理手段。

3

再接再厉

除了技术上的不完美性,Daniel Acuna  本人还指出了影响软件的准确性的一个 外在 因素 PDF文件格式会破坏自动提取图像的能力 例如,今年5月,Elisabeth Bik在推特上叙述了关于Nature的一篇COVID-19 论文的图像复制问题,该图像也出现在2月份的预印本中,但Daniel Acuna的软件由于论文是PDF格式而没有检查到。

目前为止,关于新冠病毒的研究产生了无数的论文,许多研究人员担心出现低质量的研究和错误,甚至欺诈。有科学家发出警告:“质量低劣的研究将泛滥成灾”。

接下来,Daniel Acuna 打算继续进行论文重复图像的自动检查,而之后首先要做的事情,就是将查重结果告知作者,只有在他们不回应的情况下才公开结果。

对于学术界低质论文泛滥成灾的现象, D aniel Acuna  也发出了告诫: 希望那些正在动歪脑筋的论文作者们意识到,有人正在对论文图像进行查重。

参考内容: https://www.nature.com/articles/d41586-020-02161-3

雷锋网雷锋网 (公众号:雷锋网) 雷锋网

雷锋网原创文章,未经授权禁止转载。详情见 转载须知

NbyeueI.jpg!mobile


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK