AI绘画

绘制江湖儿女,绘制世间万物

AI顶会,正在运用AI来核阅AI论文

近年来我们在报道 AI 顶会的文章里不断听到「史上最大」、「论文数量新高」等字眼,论文的审核俨然成了一项挑战。但既然是在研究 AI,为什么不让机器来自动解决问题?

人工智能顶会 NeurIPS 2019 的现场,曾被人吐槽像跨年夜的百货商场。

对于大多数科学范围来说,期刊是同业评审和论文发表的主阵地,编辑们会根据专业判断将论文分派给合适的审稿人。但在计算机科学范围,寻找审稿人的过程通常是匆匆忙忙的:大多数论文是一次性提交给年度大会,组织者需要在仅仅一周的时间内将成千上万的论文分派给成千上万的审稿人。这样的节奏是非常紧张的,在过去的五年内,大型 AI 会议的投稿量增长了三倍不止,也给大会主办机构带来了不小的压力。举个例子,人工智能范围最大规模的定会 NeurIPS 2020 收到了 9000 多份有效投稿,比上一年增长了 40%。组织者不得不将 3 万多个审稿任务分派给约 7000 位审稿人。NeurIPS 2020 大会主席 Marc’Aurelio Ranzato 默示:「这非常累,压力很大。」大概也是「近水楼台先得月」,AI 顶会的审稿工作得到了 AI 的协助。首先,主办方运用了 Toronto Paper Matching System (TPMS),在此之前 TPMS 也被应用于其他多个会议的投递论文分派工作,它通过对比投稿论文和审稿人研究工作之间的文本,来计算投稿与审稿人专业知识之间的相关性。这个筛选过程是婚配体系中的一部分,期间审稿人也可以主动争取自己希望核阅的论文。

TPMS 架构,该体系可通过会议管理体系在线运用。

同时还有步骤更加优化的 AI 软件:论文核阅平台 OpenReview 开发了一种「亲和力评测」体系,借助了神经网络「Spectre」来分析论文标题和摘要。OpenReview 和麻省大学阿默斯特分校的计算机科学家 Melisa Bok 和 Haw-Shiuan Chang 默示,包括 NeurIPS 在内的一些计算机科学大会将在今年把亲和力评测体系与 TPMS 结合运用。AI 会议的组织者希望通过提高婚配品质来推动同业评审和出版论文的品质。2014 年的一项研究表明这仍有进步空间,作为测试,当年 NeurIPS 中 10% 的投稿论文分别有两组审稿人核阅,在一组中被全部接收,另一组仅接收了 57%。影响到结果的因素可能有很多,但可以确定的是,对于具体某一篇论文来说,至少某一个小组是缺乏评价的专业知识的。为了提升婚配品质,CMU 的计算机科学家 Ivan Stelmakh 开发了一种名为「 PeerReview4All」的算法,通常婚配体系会最大程度地提升论文和审稿人之间的平均亲和力,但有可能出现「厚此薄彼」的现象。PeerReview4All 旨在最大程度地提升最差婚配的品质,注重增加该过程的公平性。Ivan Stelmakh 在去年的 ICML 大会运用了 PeerReview4All 举行试验,并在今年的 AAAI 大会上介绍了这一结果。他默示,该步骤在不损害平均婚配品质的情况下显著提高了公平性。具体结论可以参考 Ivan Stelmakh 所写的这篇 2 页论文:https://www.aaai.org/AAAI21Papers/DC-169.StelmakhI.pdfOpenReview 也已经开始提供一种旨在提高公平性的体系,称为「FairFlow」。根据 NeurIPS 2021 Call for Papers 页面,今年的 NeurIPS 将运用 OpenReview 举行审稿工作。雅虎计算机科学家、NeurIPS 2021 高级程序主席 Alina Beygelzimer 默示,NeurIPS 今年将至少尝试上述中的一种婚配步骤。这些体系的作用都是将一组已知的论文与一组已知的审稿人举行婚配,但还有另外一个问题:随着 AI 范围的不断发展,顶会还需要招募、评价、培训新的审稿人。针对此,Ivan Stelmakh 正在举行一项最新实验,探索一种不依赖 AI 来减轻这些任务负担的步骤。他们在去年的 ICML 上,邀请了一些学生和刚刚毕业的人去核阅从同事那里收集的未发表论文(134 篇)。随后团队邀请了 52 位成员加入审稿人团体,并为他们分派了一位资深研究人员担任导师。最终这些新手审稿人的工作成果还不错,与那些经验丰富的审稿人相差无几。借此 Ivan Stelmakh 证明了:主办方可以在不增加负担的情况下扩招数百名审稿人,「且这些候选审稿人极具热情」。运用亲和力来评价审稿人专业知识的婚配体系也可以让身高人们对评审一篇论文举行「招标」,最近的一些工作试图解决这种步骤中的潜在偏见。我们有时会听到选论文的审核者只选择朋友的论文,这实际上是在破解算法。今年 2 月,康奈尔大学、Facebook 一篇发在 arXiv 上的论文《Making Paper Reviewing Robust to Bid Manipulation Attacks 》描述了运用机器学习来过滤可疑论文审核竞标的过滤步骤。在模拟数据集上,即使潜在作弊者知道体系的运行方式,它也可以减少操纵,而不会降低评审品质。去年在 NeurIPS 上的另一种算法《Mitigating Manipulation in Peer Review via Randomized Reviewer Assignments》实质上是对在专业范围以外的论文举行投标的人举行惩罚。研究人员通过结合模拟竞价和上次会议的真实数据证明了其步骤在减少操纵方面的有效性。这些对象面临的问题是——你很难评价它们在实际运用过程中是不是真的优于其他步骤。蒙特利尔大学计算机科学家 Laurent Charlin 默示,要想掌握确凿的证据需要举行对照试验,但现在没有任何试验。其中一部分原因是因为其中许多对象都是新的。十年前开发 TPMS 对象的亲和性测量对象的 Charlin 默示,随着这些技术的发展,类似的步骤可能会在某一天开始帮助计算机科学范围以外的同业核阅者。但是到目前为止,这种步骤的应有范围还很有限。美国科学促进会 AAAS(《Science》等杂志的主办方)发言人梅根 · 费伦(Meagan Phelan)默示 AAAS 在分派同业核阅者时没有运用 AI。「但在人工智能范围里,」Charlin 说道,「作为一个具有一定自动化程度水平的范围。我们没有理由不运用自己的对象。」参考内容:https://www.sciencemag.org/news/2021/04/ai-conferences-use-ai-assign-papers-reviewers

留下评论

您的电子邮箱地址不会被公开。 必填项已用*标注