原创 应用无监督学习Word2vec神经网络的输出层

2019-11-7 15:54 240 0 1 分类: 机器人/ AI 文集: 人工智能

当前随着科学技术的迅猛发展,跟上新科学文献发表的步伐越来越难。个别研究人员可能需要数月才能对一个主题进行广泛的文献综述。如果一台机器可以在几分钟内阅读有关特定主题的所有论文,并告诉科学家前进的最佳方法,那该多好!

应用无监督学习发现隐藏的科学知识

嗯,这个美好的设想距离我们还很远,但我们下面描述的研究提出了一种新方法,可以在最少的人为监督下利用科学文献进行材料发现。

为了使计算机算法能够使用自然语言,需要以某种数学形式表示单词。

在2013年,Word2vec算法以一个有趣的方式从大段文字的自动学习这样的表示。在文本中出现在类似上下文中的单词通常具有相似的含义。因此,如果训练神经网络来预测目标词的相邻词,则它将学习类似目标词的类似表示。他们表明单个单词可以有效地表示为高维向量(嵌入),并且单词之间的语义关系可以表示为线性向量操作(可以参看AI火箭营《深度学习入门系列》里的《透彻理解Word2Vec词向量嵌入原理》视频讲解)。这种语义关系的一个著名例子是表达

"国王" - "女王"≈"男人" - "女人"(1),

其中在相应词的矢量之间执行减法。(1)两侧的词对之间的这种语义关系代表了性别的概念。

应用无监督学习发现隐藏的科学知识

图1:通过相应嵌入之间的线性操作捕获词对之间的类比

当然,如果不是常见的文本来源,如或我们使用的是纯科学文本,在我们的案例中,是数百万种材料科学摘要,这些向量操作嵌入了更多的专业知识。例如,

"ZrO2" - "Zr"≈"NiO" - "Ni",

上述表达式代表氧化物的概念。

语义关系的另一个例子是单词相似性,由嵌入的点积(投影)确定。在原始的Word2vec模型中,单词"large"和"big"具有彼此接近的向量(具有大的点积)但远离"Armenia"的向量。在我们的专业模型中,与"LiCoO2"最相似的词是"LiMn2O4" - 这两种都是锂离子电池正极材料。实际上,如果我们使用t-SNE,在2D平面上投射大约12,000种最受欢迎​​的材料(文本中超过10种),我们发现材料主要根据它们的应用和成分相似性进行聚类。

应用无监督学习发现隐藏的科学知识

图2:类似应用以及具有相似化学成分的材料聚在一起

每个"应用集群"中最常见的元素与我们的材料科学知识相匹配。底部的每个图表是通过计算来自相应应用簇的材料组成中的化学元素而获得的。

现在,我们可以根据特定应用为图2左上角的"材质贴图"做一些更有趣的事情并着色。对应于单个材料的每个点可以根据其嵌入与应用词的嵌入的相似性而着色,例如"热电"(用于描述热到电转换的词,反之亦然)。

应用无监督学习发现隐藏的科学知识

图3:材料根据与应用关键字的相似性"点亮"

正如你们许多人可能已经猜到的那样,上图中最亮的点是科学文摘中明确提到的热电材料,与"热电"一词有关。然而,其他一些亮点从未被研究过作为热电材料,因此该算法表明了一种未在文中明确写出的关系。问题是,这些材料能否成为尚未发现的良好热电材料?令人惊讶的是,答案是肯定的!

我们测试这个假设的几种方法之一是训练单词嵌入,好像我们还在过去一样。我们删除了2000年到2018年间发表的科学摘要,并训练了18种不同的模型。我们使用这些模型中的每一个根据它们的相似性†对"热电"(图3中的颜色强度)这个词进行排序,并且取得了当年未被研究为热电的前50个。事实证明,许多这些材料随后在未来几年被报告为热电材料,如下图所示。

应用无监督学习发现隐藏的科学知识

图4:如果我们对过去的年份仅使用当时可用的数据进行预测,那么其中许多都将成为现实。每条灰线对应于给定年份的预测,并且在所有预测年份中对实线红线和蓝线进行平均。

实际上,2009年的前五大预测之一就是CuGaTe2,它被认为是2012年才发现的最好的热电材料之一。

那么,这一切都有用吗?我们可以通过查看预测材料的上下文单词来获得一些线索,并查看哪些上下文单词与材料和应用关键字"热电"具有高度相似性。我们的前5个预测中有3个最重要的上下文单词如下所示。

应用无监督学习发现隐藏的科学知识

图5:对预测贡献最大的前5个预测中的3个的上下文单词

连接线的宽度与字之间的余弦相似性成比例。

有效地,该算法捕获对于材料是热电的重要的上下文单词(或者更确切地说,上下文单词的组合)。作为材料科学家,我们知道,例如硫属化物(一类材料)通常是良好的热电材料,并且带隙的存在在大多数时间是至关重要的。我们看到算法是如何使用单词的共现来学习的。上图仅捕获一阶连接,但更高阶的连接也可能有助于预测。

对于科学应用,自然语言处理(NLP)几乎总是用作从文献中提取已知事实的工具,而不是用于预测。这与股票价值预测等其他领域不同,例如,分析有关公司的新闻文章,以预测其股票价值在未来如何变化。

但即便如此,大多数方法都将从文本中提取的特征,提供给使用结构化数据库中的其他更大的模型。我们希望这里描述的思想能够鼓励用于科学发现的直接的、无监督的NLP驱动的推理方法。Word2vec不是最先进的NLP算法,因此自然的下一步可能是用更新颖的上下文感知嵌入替换,如BERT和ELMo。我们也希望,由于这里描述的方法需要最少的人力监督,其他科学学科的研究人员将能够利用它们来加速机器辅助的科学发现。

总结

获得良好预测的关键步骤是使用输出嵌入(Word2vec神经网络的输出层)用于应用关键字的材料和词嵌入(Word2vec神经网络的隐藏层)。这有效地转化为预测摘要中单词共现。因此,该算法正在确定研究文献中潜在的"空白",例如研究人员未来应该在功能应用中研究的化学成分。

广告

文章评论 1条评论)

登录后参与讨论

curton 2019-11-7 20:35

学习了
相关推荐阅读
红旗不倒 2019-11-15 10:20
HTC新机Desire 19s 超广角三镜头500万像素相机+夜拍镜头
今年虽然未更新旗舰手机产品,但HTC仍持续更新Desire系列机种,稍早宣布推出的Desire 19s,将延续先前Desire 19+的设计语言,并且加入超广角镜头设计的三镜头主相机,以及3850mA...
红旗不倒 2019-11-15 10:12
在以太坊智能合约中摆脱gas条件
本文主要贡献从EVM字节码到结构化低级IR的反编译器:我们建议直接使用EVMbytecode进行静态编程分析。由于EVM的基于堆栈的低级特性以及最小的控制流结构,分析了EVMbytecode的挑战。识...
红旗不倒 2019-11-15 10:09
securify:以太坊智能合约的实证安全分析
无许可区块链允许执行任意程序(称为智能合约),允许相互不可信的实体在不依赖可信第三方的情况下进行交互。尽管存在这样的潜力,但不断出现的安全担忧已经动摇了人们对通过智能合同处理数十亿美元资产的信心。为了...
红旗不倒 2019-11-15 10:07
TEETHER:发现以太坊的自动化漏洞
1.1 引用Krupp, Johannes, and Christian Rossow. "teether: Gnawing at ethereum to automatically exploit ...
红旗不倒 2019-11-14 10:36
定义算法该如何定义公平,审视公众对公平算法定义的态度?
1.摘要定义算法公平性的最佳方法是什么?虽然计算机科学文献中提出了许多公平定义,但对特定定义没有明确的一致意见。在本文中,我们调查了普通人对这三种公平定义的看法。在两个在线实验中,我们测试了人们认为在...
红旗不倒 2019-11-14 10:31
算法决策规则与公平安全成本
摘要:现在经常使用算法来判断带审判的被告是否极度危险而不能释放,在某些案例中,被告为黑人更倾向于被错误地分类为高风险人群。现在已有许多技术来减轻该类差异,以达到算法公平性。于此我们重新将算法公平性定义...
广告
我要评论
1
0
广告
关闭 热点推荐上一条 /3 下一条