梦见鞭炮声近日,一款看起来挺有文化的写稿机器人上线了。它叫小柯,由中国科学和大学科研团队共同研发。
小柯写的不是普通的稿子,而是中文科学新闻。据介绍,运用自然语言处理技术,小柯以英文论文摘要为基础,能够快速写出中文科学新闻底稿,然后由专业人士和的编辑进行把关和信息完善,帮助科学家以中文方式快速获取全球高水平英文论文中的最新科研进展。
科技日报记者发现,7月5日,小柯机器人发出第一篇稿子,截至8月22日记者统计时,小柯机器人稿415篇。初期更新时间距论文发表时间间隔一个月左右,现在可以做到当天或隔天更新,每天更新几篇到二十几篇不等。所选论文来自生命科学等领域,涉及《自然》《细胞》《新英格兰医学》等期刊。
记者对照分析了小柯作品《单细胞测序冠状动脉疾病机制》及其英文原文。新闻中,小柯先对论文主题、研究单位以及发表期刊进行简单介绍,后接英文原文摘要的翻译,大致反映原文内容;翻译时会对原文进行适当的语句简化,同时在对专业词语的翻译上也使用了如“血管平滑肌细胞”“性纤维帽”等专业表述。
不过,这也不全是小柯的功劳,因为发出前,还有人工审校这一步骤。大学计算机科学技术研究所研究员万小军团队负责小柯的系统总体设计与联合技术攻关。 他告诉科技日报记者,目前机器翻译系统的性能很大程度上依赖于其所使用的训练数据,即平行语料。目前的平行语料多为新闻语料,因此训练得到的机器翻译模型对于日常新闻的翻译效果较好。但学术文献(比如生物学术论文)与日常新闻在用词造句等方面都有较大差别,机器翻译系统对于学术文献翻译的效果并不理想。
这一次,他们通过融合领域知识进行语句智能筛选,选择适合大众理解的语句,并基于语句简化提升语句翻译质量。“英文学术论文摘要适合专业科研人员阅读,但摘要中的语句并不都适合写到科学新闻中面向大众,因此需要结合编辑提供的先验知识,采用计算机算法对语句进行筛选,保留适合进行大众新闻的语句。”万小军说。
研发小柯用了半年时间,万小军表示,和一般写稿机器人相比,一个好的跨语言科技新闻写稿机器人需要进行两次重要的信息转换过程:一次是不同语言的转换,将英文文本转换为中文文本;另一次是语言风格的转换,将学术