论文阅读Neural Association Models
论文题目归属及框架
背景与动机
在本文中,作者提出了一种新的深度学习方法——神经关联模型(NAM),用于AI中的概率推理。作者建议使用神经网络来模拟一个领域中任意两个事件之间的关联。神经网络将一个事件作为输入,并计算出另一个事件的条件概率,以模拟这两个事件关联的可能性。与现有的线性模型不同,该NAM模型利用的是深度神经网络中的多层非线性激活来模拟它们的关联。
在这项工作中,作者研究了两种NAM模型结构。第一个模型是标准的深度神经网络(DNN),第二个模型使用一种特殊的结构称为关系调制神经网络(RMNN)。
在多种知识图谱任务上进行实验后表明,两个模型均能优于其它常规的方法。更值得一提的是,RMNN在知识迁移学习方面的表现尤为突出,在只观察少量训练样本的情况下,预先训练的模型可以迅速扩展到新的关系。
贡献
- 作者提出了基于深度神经网络的概率推理神经关联模型,该模型具有足够的通用性,可以处理符号事件的各种推理问题。
- 本工作研究的一种特定的模型(RMNN)对于知识转移学习非常有效,它可以快速地将现有的知识库适应于新遇到的场景和情境。
- 第一个证明DNNs具有多层非线性的工作
统计关系学习
统计关系学习,Statistical Relation Learning(SRL),
SRL试图将实体集E和关系集R上的每一个可能的三元组xijk = (ei, rk, ej)建模为二元随机变量yijk∈{0,1},表示真或假。
SRL模型的似然函数如下:
σ(·)表示sigmoid function
Ber (y|p)为伯努利分布
该函数的输入为一个三元组向量,通过score functionf()
,来计算其得分。把得分投到sigmoid激活函数中,实现归一化,用以表示概率
NAM
NAM模型以事件E1的向量作为输入,计算E2事件的条件概率
如果事件 E2 是二值的(True or False),NAM 用 sigmoid 函数计算 ;如果 E2 是多值的,则 NAM 使用 softmax 计算 ,输出多值向量。
事件E1,E2的具体含义会根据所训练的任务的不同而发生改变,常见的情况有如下5种:
loss
NAM 的 loss 采用了 log likelihood 函数,即对数似然损失函数
从形式上不难判断出,该函数在参数为Θ
的情况下,分别计算了数据集中每个正样本和负样本的logistic score之和
训练方法:随机梯度下降
DNN
模型的每一层的输出由头实体向量和关系向量组成
W和b分别表示了每一层的权重矩阵与偏重,计算得出a
最后,作者使用最后一层的输出z和尾实体向量,代入到sigmoid函数中计算三元组的得分
RMNN
区别于DNN一开始时就将头实体向量与关系向量合并处理,RMNN选择的是在每一层让关系向量重新进入神经网络的隐含层中进行计算。从后面可以看出,这种结构在知识转移学习任务中具有优越性。
和 分别表示第层正常权重矩阵和特定于关系(区别DNN)的权重矩阵
最后,取最顶层的代入得分函数进行计算
实验
文本蕴含
从结果可以看出,本文提出的基于DNN的NAM模型与各种传统方法相比有了很大的改进。这表明,通过在连续空间中表示句子并利用深度神经网络进行概率推理,可以更好地建模自然语言中的蕴涵关系。
三元组分类
三元组分类:给定一个三元组判断其是正/反样本
首先设定一个临界值T,利用上述提出的得分函数对一个三元组进行计算,若值大于临界值 T,则判断为正样本
结果清楚地表明,两种NAM方法(DNN和RMNN)在这些三级分类任务上取得了相当的性能,并且都比所有现有方法取得了一致的改进。特别是,与流行的神经张量网络(NTN)相比,RMNN模型在WN11和FB13上的绝对改进幅度分别为3.7%和1.9%
常识推理
所谓常识推理,如骆驼是否能够穿越沙漠?提出的NAM模型通过计算关联概率Pr(E2|E1)来回答这个问题,其中E1 ={骆驼,能够}和E2 =穿越沙漠。
我们在图4中展示了CN14中所有14个关系对RNMM和NTN的分类精度,结果表明,RMNN的准确率在不同关系之间存在差异,从80.1% (desire)到93.5% (CreatedBy)。我们注意到一些常识关系(如欲望,能力,HasSubevent)比其他(如创造的,原因欲望,动机的目标)更难。总的来说,RNMM在几乎所有关系上都显著优于NTN。
知识迁移学习
在实验中,作者使用CN14中的其他13个关系来训练NAM模型(DNN和RMNN),来验证第14个关系的预测结果。在迁移学习过程中,作者冻结所有NAM参数,包括所有权重和实体表示,只从中学习一个新的CausesDesire关系代码。
结果表明,在这个实验中,RNMM比DNN表现得更好,我们可以显著改善RNMM的新关系,只需要5-20%的训练样本为CausesDesire。这表明连接关系代码到所有隐藏层的结构可以从相对较少的训练样本中更有效地学习新的关系代码。
作者在迁移学习任务中,设置了第二个实验,更新所有NAM参数。
正如预期的那样,因为参数发生改变,原有的13个关系的表现将会恶化。
总结
在本文中,作者提出了用于概率推理的神经关联模型,包括了两种模型结构DNN和RMNN,来计算任意两个事件之间的关联概率。在多个推理任务上的实验结果表明,两个模型都能显著优于现有的推理方法。此外,RMNN在知识迁移方面表现突出。