课外天地 李树青学习天地信息检索原理课件 → Semantic Scholar:基于机器学习方法的学术搜索引擎


  共有4530人关注过本帖树形打印复制链接

主题:Semantic Scholar:基于机器学习方法的学术搜索引擎

帅哥哟,离线,有人找我吗?
admin
  1楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1843 积分:24846 威望:0 精华:34 注册:2003/12/30 16:34:32
Semantic Scholar:基于机器学习方法的学术搜索引擎  发帖心情 Post By:2018/7/12 9:57:25 [只看该作者]

https://www.semanticscholar.org/

2015年秋天,位于华盛顿州西雅图的艾伦人工智能研究所(Allen Institute for Artificial Intelligence)启动了一项名为 Semantic Scholar(语义学术)的服务,向 Google Scholar、PubMed 等在线搜索引擎发起挑战。该程序最初经由 200 万篇计算机科学领域的文献训练,旨在提供一个能在一定程度上理解文献内容的人工智能搜索引擎。它的语料库已增长到 400 万篇文献。现在,研究所正在为 Semantic Scholar 制定另一个同样远大的目标:衡量科学家或科研组织对后续研究的影响力。

该工具能够通过一项专门的“影响力分数”,对文献、作者和研究机构进行排序,目前它仅涉及计算机科学领域,但会在2016年秋季扩展到神经科学领域,并进而扩展到其他学科。例如,该工具发现,计算机科学领域最具影响力的研究机构是麻省理工学院。这当然不出所料。那么,最具影响力的计算机科学家呢?是在圈外鲜为人知的人工智能先驱、加州大学伯克利分校的迈克尔·乔丹。“大家都叫他机器学习领域的迈克尔·乔丹,”西雅图艾伦人工智能研究所的负责人,Semantic Scholar 的创造者奥伦·埃齐奥尼(Oren Etzioni)如此打趣。

如果圈外人发现 Semantic Scholar 的排名可*,该排名就可能对招聘与教职评估委员会有所帮助,这是因为学术影响力本身就难以量化。过去的方法是统计引用次数,这已经成为学术出版行业的基本衡量标准。汤森路透(Thomson Reuters)、爱思维尔(Elsevier)等机构通过出售文献数据库的使用权,让用户获取被引用次数。

但并非所有的引用次数都具有同等价值。例如,为整篇论文提供灵感的引用,与仅仅在方法论部分简单提及的引用截然不同。因此,粗暴地统计引用次数会对衡量科学家的影响力产生误导。同时,研究者也抱怨道,基于引用次数的传统衡量标准助长了“要么发论文要么被淘汰”的心态,迫使他们不管研究是否重要,都用最快的速度发表论文,以积攒更多的引用次数。

有些人说,需要更直接地衡量文献对将来研究的实际影响。因此,埃齐奥尼的团队在 Semantic Scholar 上搭建了一个新工具,用于生成“影响图”。Semantic Scholar 数据库中的大部分文献是 PDF 格式的,人类可以轻松阅读,但在计算机看来就是一堆毫无章法的文本。要想使计算机阅读起来更像人类,需要借助机器学习,这项技术帮助计算机做出更精确的猜测。例如,计算机不仅要识别论文中的不同部分(引言、方法、结果),还要弄清作者对所引用文献的态度。因此,艾伦研究所的团队通过机器学习,训练一项能够发现这些特征的统计模型。随后,计算机通过对比自己的猜测和人类专家的理解,逐步优化该模型。

埃齐奥尼称,目前系统仅能测量被直接引用的文献的“直接影响力”,但未来的版本会将被引用文献引用的文献的“间接影响力”考虑在内。

这项工具于2016年4 月20 日在 www.semanticscholar.org 首次亮相。《科学》请怀俄明大学(University of Wyoming)的计算机科学家杰夫·克卢恩(Jeff Clune)来试运行。

克卢恩首先查看了“影响图”内他本人的近邻。“非常有趣,”他说,“我能看到我的职业生涯受哪些科学家影响最大、我启发了哪些科学家,以及关于任何其他科学家的这类信息。”大多数结果正如克卢恩所料,他受自己导师的影响,他影响了自己的研究生和博士后,但也有一些出乎意料的结果。比如,有一个他不熟悉名字的人,受他论文启发,做了大量的后续研究。

克卢恩相信,除了娱乐价值外,这项工具可能在学术招聘和晋升过程中有一定价值。负责做决定的委员会不仅要按工作成果为候选人排名,同时也肩负预测候选人未来影响力的重任。Semantic Scholar 试图通过测算工作成果的“速度”和“加速度”,衡量人们引用某些研究的速度以及将来的趋势,来揭秘研究领域内的热点。克卢恩说,部门委员会“已经在粗略地计算这些信息了”,因此他预测 Semantic Scholar 的数据会被投入使用。

但 Semantic Scholar 的某些特点也令他担忧。在某种程度上,Semantic Scholar 是一个“黑箱”,克卢恩说。“人们能够理解这些结果是怎么来的吗?”

埃齐奥尼承认,算法生成结果的过程有些隐晦。“在机器学习的过程中,总是需要一些权衡,”他说道,“当鼠标移到数字上时,显示一个关于数据来源的范例,这或许有所帮助。”

与此同时,机器学习界的迈克尔·乔丹坦然接受了自己排名第一的消息,却归功于别处。“尽管在历史上有各种关于某些科学家或数学家的传说,我个人相信研究人员所处的圈子才最能够预测他们的成功,”他说道,“我自己的圈子里有许多优秀的人,他们有很多卓越的想法。”

埃齐奥尼的团队目前在让 Semantic Scholar 消化大量有关大脑的研究文献。这项工具以及大脑研究者的影响力排名,将于11 月12 日在加州圣地亚哥召开的神经科学学会会议上首次展示。

 


 回到顶部