海阔天空,微软研究院和清华大学联合发布 “敞开学术图谱(OAG)2.0版别”,干洗店加盟

编者按:打开学术安排(Open Academic Society)是由微软、清华、艾伦人工智能研讨所、亚利桑那大学、华盛顿大学等20个全球安排联合建立的学术安排,旨在推行学术数据的打开同享、加强学术沟通与协作。其间,衔接了来自微柔和清华大学两个亿级学术图谱的打开学术图谱(Open Academic Graph,OAG)是该安排的一个重要项目。近来,微软研讨院和清华大学联合发布了OAG 2.0版别,新版别添加了作者和出书地址相关的数据,并完成了两个数据会集实体的主动匹配链接。

打开学术图谱(Open Academic Graph,OAG)是一个大型的学术常识图谱,衔接了两个亿级学术图谱:微软学术图谱(Microsoft Academic Graph,MAG)和清华大学的AMiner学术图谱,致力于供给彻底打开、免费的揭露学术图谱。具体来说,OAG包含了来自MAG的超越1.66亿篇学术论文和来自AMiner的近1.55亿篇论文的元数据信息。经过集成这些数据信息,OAG生成了两个学术图谱之间近6500万对链接(匹配)联络。

2017年8月,微软研讨院和清华大学联合发亡命刺客布了OAG 1.0版别。在曩昔一年多的时间里,OAG 1.0版别招引了约4万次下载。

七零四行宫

OAG 1.0概览

OAG 2.0

在OA阿一西呆路G 1.0版别的基础上,近来,微软研讨院和清华大学两边联合发布了OAG 2.0版别。

OAG 2.0包含了约7亿实体数据和20亿实体之间的链接联络,其间包含AMiner的2.8亿实体数据(作者、论文、会天禄xcc议)和微软学术图谱MAG的4亿多实体。新版别不只添加了如作者、出书地址、论文等更多类型的实体数据以及相应的匹配联络,一同,还完成了两个数据会集实体的主动匹配链接。

OAG 2.0界说的问题如下图所示。OAG现在有约7亿实体数量,不同实体彼此联络构成了一个大规模异构网络。下图的中心部分表明了作者姓名的歧义性。而图的下面则展现了不同类型实体的异构性,因而匹配不同类型的实体需求考虑其不同的特色。

大规模实体匹配的示放言高论,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,干洗店加盟例

截止2019年1月,OAG 2.0的计算数据放言高论,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,干洗店加盟如下面三个表格所示慧耕思网易博客。因为微软学术图谱MAG和AMiner两个学术图谱都在不断演化,所以OAG 2.0采用了MAG 2018年11月的快照和AMiner 2018年7月或2019年1月的快照。

OAG出书地址数据计算

OAG论文数据计算

OAG作者数据计算

注:关于作者匹配,本次匹配只考虑了论文数不少于内卫官5的作者。将论文数量较少的作者扫除后,AMiner中有6,855,193位作者,同安西坑村MAG中有13,173,936位作者。

构建亿级打开学术图谱

构建亿级打开学术图谱是一项极具应战的研讨工作。因为学术数据在不同图谱中出现散布异构的特色,同名异义和异名同义问题严峻,因而,完成数据的精准匹配是一个重要应战。放言高论,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,干洗店加盟

研讨过程中,首要的难点体李浩静现在以下三个方面:

为此,微柔和清华大学的学者们测验结合哈催眠凶恶漫画希算法、不同神经网络模型和注意力机制等办法,鲤组词来衔接两个大规模学术图谱上不同类型的实体(出书地址,论文和作者)。

随后,学者们评价了少部分匹配联络(大约1,000个出书地址/论文/作者匹配对),其准tianlongbabusifu确率体现优异。

实体匹配准确率

OAG:学术数据络组词的打开同享

打开学车上路上术图谱OAG是打开学术安排(Open Academic Society)的一个重要项目。打开学术安排是微软、清华、艾伦人工智能研讨所、亚利桑那大学、华盛顿大学、加州洛杉矶大学、澳洲国立大学等20个全球安排一同联合建立的学术安排,旨在推行学术数据的打开同享、加强学刘永彪作家术沟通与协作。

OAG能够用于多种研讨课题,如:网络数据发掘(论文引证联络网络,作者协作联络网络等),文献内容发掘,同名作者消歧和学术图谱对齐等等。

以集成全球不同学术常识图谱、揭露同享学术图谱数据、供给相关学术查找与发掘效劳为方针,微柔和清华大学的学者们期望OAG能够完成:

集成丰厚的学术常识数据。现在OAG的中心数据来自微软学术图谱MAG和A龙江航空公司官网Miner学术图谱,下一步OAG将集成更多其他学术图谱数据,包含扩大不同类型实体(如作者、论文等)的语义数据。经过数据集成和数据发掘算法,OAG将链接更多实体,及更精准和丰厚的“画像”数据,包含论文的元数据、概念网络、研讨范畴、全文等和作者的基本信息(如:职位、单位、联络信息、国家、性别等)、研讨爱好以及论文列表等。

数据同享。经过同享不同的学术常识图谱,以及它们的链接联络,谋福学术界对常识图谱、学者协作联络、学术主题发掘以及大规模学术图谱衔接等范畴的研讨。一同,也欢迎更多学术社区的奉献来进一步增强OAG。

效劳同享。规划愈加智能的学术图谱衔接体系,并供给相关的效劳(如API),以便利更多人运用效劳以及参加打开学术社区。

参考文献

[1] An Overview of Microsoft Academic Service (MAS) and Applications.

https://www.microsoft.com/en-us/research/publication/an-overview-of-microsoft-academic-service-mas-and-appli放言高论,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,干洗店加盟cat放言高论,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,干洗店加盟ions-2/

[2] Arnet放言高论,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,干洗店加盟Miner: Extract星际之配种ion and Mining of Academic Soc群狼乱舞ial Networks.

http://keg.cs.tsinghua.edu.cn/jietang/publications/KDD08-Tang-et-al-ArnetMiner.pdf

规划 人工智能 微软
我的女 声明:该707特战营文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅提放言高论,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,干洗店加盟供信息存储空间效劳。
点击展开全文

上一篇:

下一篇:

相关推荐