SCIgen的原理是,从固定词库中随机抽取专业术语,随机组合符合语法的句子,并加入图表、引文、格式等元素。咋一眼看上去,SCIgen生成的“机器论文”与正经的学术论文并无两样。除非经过认真、细致、严谨的同行审查,这些论文很容易被以赚取高昂出版费为目的的出版机构收录,并被纳入学术数据库。
由于SCIgen可在网络上免费下载,原则上任何人都可随时生成此类“机器论文”。2010年4月,CyrilLabbé就通过SCIgen生成了102篇“机器论文”。他的论文作者Antkare的论文,不仅被谷歌学术数据库收录,H指数(一种用于评估研究者学术产出数量与学术产出水平的量化指标)分析还显示,虚拟作者Antkare已成为全球第21名被引用次数最高的“科学家”。
2012年,Labbé在《科学计量学》期刊上发表了一种鉴别这种“机器论文”的方法,如检索SCIgen的语料库。他还专门设立了一个叫“SCIgen检测仪”的网站,帮助读者识别此类“机器论文”。他透露,目前发现的“机器论文”多来自订阅出版物,暂未在获取的期刊中发现这类问题。
“我不知道问题(用SCIgen生成论文并经出版物正式发表)到底有多大规模,但它的确在发生。不时有人给我们发邮件说,又发现SCIgen生成的论文。”SCIgen的编写者之一JeremyStribling说。■