记忆引导的多视图多领域虚假新闻检测方法与流程

1.本发明涉及一种记忆引导的多视图多领域虚假新闻检测方法。适用于社交媒体数据挖掘和互联网内容安全领域。

背景技术：

2.社交媒体上的虚假新闻问题已经在政治、经济、民生等方面对现实世界构成了威胁，为了实现对虚假新闻的高效检测，已有许多研究着眼于开发自动虚假新闻检测系统。按照关注点不同，国内外自动检测虚假新闻内容的方法大致可分为两种：第一类是仅仅基于消息内容的检测方法，这类方法关注于虚假新闻本身是“如何写”的，即不同虚假新闻之间共享的模式信息（如风格、情感、语言运用偏好等），例如利用虚假新闻中的情感、态度、情绪等信息。第二类是基于社交上下文的方法，这类方法利用用户的社交参与信息，比如使用新闻转发链信息。
3.一个新闻平台每天发布上百万条不同领域的新闻，比如金融领域、政治领域、健康领域。大部分现有的方法关注于单一领域，但事实上不同领域的新闻可能存在联系。
4.同时建模多个有关联的新闻领域有利于假新闻检测，而多新闻领域建模中存在两个关键问题：（1）多个新闻领域间的领域偏移，比如不同新闻领域的用词差异会很大，体现出的情感，以及写作风格也会有差异。（2）新闻的领域标签不完整，通常一条新闻只会被分到一个领域，然而这条新闻可能与多个领域存在关联。

技术实现要素：

5.本发明要解决的技术问题是：针对上述存在的问题，提供一种记忆引导的多视图多领域虚假新闻检测方法。
6.本发明所采用的技术方案是：一种记忆引导的多视图多领域虚假新闻检测方法，其特征在于：从待测新闻中提取多个视图表示，该多个视图表示包括语义表示、情感表示和风格表示，每个视图提取有多个表示；基于提取到的多视图表示，进行跨视图表示建模，得到待测新闻的多个跨视图表示；基于待测新闻的领域标签从领域特征记忆中获取标签对应领域的领域特征表示，作为该待测新闻的显式领域表示；评估待测新闻与所有领域的领域事件记忆之间的事件相似性，并基于待测新闻与各领域的事件相似性和领域特征记忆中相应领域的领域特征表示计算该待测新闻的隐式领域表示；基于待测新闻的领域信息引导不同领域从该待测新闻的多个跨视图表示选择合适的跨视图表示进行新闻真假预测，其中待测新闻的领域信息包括该待测新闻的显式领域表示和隐式领域表示。
7.所述从待测新闻中提取多个视图表示，该多个视图表示包括语义表示、情感表示和风格表示，每个视图提取有多个表示，包括：从待测新闻中提取新闻内容、情感特征和风格特征；使用textcnn从待测新闻的新闻内容中提取语义表示，使用多层感知机分别从待测新闻的情感特征和风格特征中提取情感表示和风格表示。
8.所述基于提取到的多视图表示，进行跨视图表示建模，包括：其中，z为跨视图表示；为语义视图的第i个表示，i=1,2,3...k
sem
，k
sem
表明语义表示的总数；为与对应的自动学习的参数；为情感视图的第j个表示，j=1,2,3...k
emo
，k
emo
表明情感表示的总数；为与对应的自动学习的参数；为风格视图的第q个表示，q=1,2,3...k
sty
，k
sty
表明风格表示的总数；为与对应的自动学习的参数。
9.所述评估待测新闻与所有领域的领域事件记忆之间的事件相似性，包括：在每个领域的领域事件记忆中到所有与待测新闻相似的相似新闻簇，并将到的相似新闻簇聚合为一个待测新闻在该领域的域表示；基于待测新闻在每个领域的域表示计算该待测新闻与每个领域的事件相似性。
10.所述在每个领域的领域事件记忆中到所有与待测新闻相似的相似新闻簇，并将到的相似新闻簇聚合为一个待测新闻在该领域的域表示，包括：其中，oj为待测新闻在第j个领域的域表示；n为待测新闻的新闻特征表示；w为一个可学习的参数矩阵；g表示转置函数；mj为第j个领域的领域事件记忆。
11.所述基于待测新闻在每个领域的域表示计算该待测新闻与每个领域的事件相似性，包括：性，包括：其中，v为待测新闻在所有领域的相似性分布；n为待测新闻的新闻特征表示；v为一个可学习的参数矩阵；g表示转置函数；d为由所有域表示拼接成的矩阵；n表示领域的数量；i表示特征维度。
12.所述基于待测新闻与各领域的事件相似性和领域特征记忆中相应领域的领域特征表示计算该待测新闻的隐式领域表示，包括：其中，u为待测新闻的隐式领域表示；vi为待测新闻与第i领域的事件相似性；ci为第i领域的领域特征表示；n表示领域的数量。
13.所述基于待测新闻的领域信息引导不同领域从该待测新闻的多个跨视图表示选
择合适的跨视图进行新闻真假预测，包括：其中，r为基于待测新闻的领域信息引导聚合的交叉视图表示；zi为待测新闻的第i个跨视图表示；f表示前馈神经网络；cd为待测新闻的显式领域表示，u为待测新闻的隐示领域表示；将聚合到的的交叉视图表示送入多层感知机，得到最后预测的概率：根据预先设定的阈值thr，得到最终的预测结果：。
14.所述领域事件记忆的迭代方法包括：所述领域事件记忆的迭代方法包括：所述领域事件记忆的迭代方法包括：所述领域事件记忆的迭代方法包括：其中，mi表示某领域的领域事件记忆中第i个相似新闻簇；n为待测新闻的新闻特征表示；w为一个可学习的参数矩阵；md为待测新闻的领域标签对应领域的领域事件记忆。
15.一种记忆引导的多视图多领域虚假新闻检测装置，其特征在于，包括：视图表示提取模块，用于从待测新闻中提取多个视图表示，该多个视图表示包括语义表示、情感表示和风格表示，每个视图提取有多个表示；跨视图表示获取模块，用于基于提取到的多视图表示，进行跨视图表示建模，得到待测新闻的多个跨视图表示；显示表示获取模块，用于基于待测新闻的领域标签从领域特征记忆中获取标签对应的领域特征表示，作为该待测新闻的显式领域表示；隐式表示获取模块，用于评估待测新闻与所有领域的领域事件记忆之间的事件相似性，并基于待测新闻与各领域的事件相似性和领域特征记忆中相应领域的领域特征表示计算该待测新闻的隐式领域表示；真假预测模块，用于基于待测新闻的领域信息引导不同领域从该待测新闻的多个跨视图表示选择合适的跨视图表示进行新闻真假预测，其中待测新闻的领域信息包括该待测新闻的显式领域表示和隐式领域表示。
16.一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述方法的步骤。
17.一种记忆引导的多视图多领域虚假新闻检测设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述方法的步骤。
18.一种新闻领域信息的获取方法，其特征在于：
基于待测新闻的领域标签从领域特征记忆中获取标签对应领域的领域特征表示，作为该待测新闻的显式领域表示；评估待测新闻与所有领域的领域事件记忆之间的事件相似性，并基于待测新闻与各领域的事件相似性和领域特征记忆中相应领域的领域特征表示计算该待测新闻的隐式领域表示；拼接待测新闻的显式领域表示和隐式领域表示，得到该待测新闻的领域信息。
19.本发明的有益效果是：本发明先提取多视图表示，并进行跨视图交互，提取到多个跨视图表示；其次利用领域记忆模块（包括领域特征记忆和领域事件记忆）得到待测新闻的领域信息；最后以领域记忆模块的输出的领域信息作为输入，输出不同跨视图表示的权重，进行聚合，送入最后的多层感知机预测该消息的真假。
20.本发明通过提取待测新闻多视图信息，包括语义、风格、情感信息。每个视图提取出多个表示，再采用一种自动交互的方式提取多个跨视图的表示，跨视图的表示可以更充分的表示该待测新闻。
21.本发明采用领域记忆模块存储每个领域的消息，通过领域查询记忆模块，得到该待测新闻的领域信息，从而解决标签不完整的问题，再使用领域信息来引导选择适合该待测新闻的跨视图表示送入最后的多层感知机，判断该待测消息是真或假。
附图说明
22.图1为实施例的流程图。
具体实施方式
23.本实施例为一种记忆引导的多视图多领域虚假新闻检测方法，具体包括以下步骤：s1、从待测新闻中提取多个视图表示，该多个视图表示包括语义表示、情感表示和风格表示，每个视图提取有多个表示。
24.s11、从待测新闻中提取新闻内容（词）、情感特征和风格特征；s12、使用textcnn从待测新闻的新闻内容中提取语义表示，使用多层感知机分别从待测新闻的情感特征和风格特征中提取情感表示和风格表示，包括：从待测新闻的情感特征和风格特征中提取情感表示和风格表示，包括：从待测新闻的情感特征和风格特征中提取情感表示和风格表示，包括：其中，r
serm
为待测新闻的语义表示；r
emo
为待测新闻的情感表示；r
sty
为待测新闻的风格表示。
25.为了更充分地提取信息，本方案采用多通道提取，每个视图得到多个表示，分别为
其中，为语义视图的第i个表示，i=1,2,3...k
sem
，k
sem
表明语义表示的总数；为情感视图的第i个表示，i=1,2,3...k
emo
，k
emo
表明情感表示的总数；为风格视图的第i个表示，i=1,2,3...k
sty
，k
sty
表明风格表示的总数。
26.s2、基于提取到的多视图表示，进行跨视图表示建模：其中，为与对应的自动学习的参数；为与对应的自动学习的参数；为与对应的自动学习的参数；上述参数可以控制不同视图表示的权重。
27.为了建模不同组合的跨视图表示，我们采用多头跨视图交互器，得到多个跨视图表示其中，zi为待测新闻的第i个跨视图表示；h表示跨视图表示的总数。
28.s3、利用领域记忆模块（包括领域特征记忆和领域事件记忆）获取待测新闻的领域信息。
29.s31、基于待测新闻原有的领域标签d从领域特征记忆（存储器）中获取标签d对应领域的领域特征表示，作为该待测新闻的显式领域表示。
30.本实施例中领域特征记忆旨在自动捕获和存储领域特征，领域特征记忆表示为其中，ci表示第i领域的领域特征表示，n表示领域的数量。
31.本例中领域特征记忆针对每个领域学习一个向量表示，表示该领域的领域特征。领域特征记忆c的所有参数都随机初始化，并通过反向传播自动学习，ci仅从第i个域的训练样本中学习。
32.本实施例根据待测新闻原有的领域标签d从领域特征记忆c中获取标签d对应领域的领域特征表示，作为该待测新闻的显式领域表示cd。
33.s32、评估待测新闻与所有领域的领域事件记忆之间的事件相似性，并基于待测新闻与各领域的事件相似性和领域特征记忆中相应领域的领域特征表示计算该待测新闻的隐式领域表示，隐式领域表示包含潜在的领域信息。
34.某条新闻被赋予特定的领域标签d，但该新闻可能同时包含其他领域的信息，为了解决领域标签不完整的问题，本实施例提出了一种领域事件记忆机制，旨在发现潜在的新闻领域标签，丰富领域信息。领域事件记忆记录了相应领域中发布的所有新闻事件，对于某个新闻，评估该新闻和所有领域事件记忆之间的相似性，该相似性可表示潜在领域标签的分布。
35.本实施例中将第j个领域的领域事件记忆表示为
其中，mi表示该领域事件记忆第i个相似新闻簇，mj中共划分有q个相似新闻簇。
36.本例通过使用k-means算法聚类相似的新闻片段来初始化mi。一条新闻的新闻特征表示是由n代表的：。
37.在训练之前，获取所有新闻的新闻特征表示，并分别使用k-means将新闻特征表示聚合到每个领域的相应相似新闻簇中。
38.s321、在每个领域的领域事件记忆中到所有与待测新闻相似的相似新闻簇，并将到的相似新闻簇聚合为一个待测新闻在该领域的域表示：其中，oj为待测新闻在第j个领域的域表示；n为待测新闻的新闻特征表示；w为一个可学习的参数矩阵；g表示转置函数；mj为第j个领域的领域事件记忆；设置为0.01，只查最相似的相似新闻簇。
39.s322、基于待测新闻在每个领域的域表示计算该待测新闻与每个领域的事件相似性。
40.将所有n个领域的域表示拼接为一个矩阵其中，n表示域的数量，i表示特征维度。
41.然后，待测新闻在所有领域的相似性分布表示为：其中，v为待测新闻在所有领域的相似性分布，包括与所有n个领域的事件相似性；n为待测新闻的新闻特征表示；v为一个可学习的参数矩阵；g表示转置函数。
42.s323、使用相似性分布v，计算待测新闻的隐式领域表示：其中，u为待测新闻的隐式领域表示；vi为相似性分布v中与第i个领域的事件相似性；ci表示第i领域的领域特征表示。
43.s33、将待测新闻的隐式领域表示u和显式领域表示cd拼接起来，表示为[c
d ,u]，用于表示该待测新闻的领域信息。
[0044]
s4、基于待测新闻的领域信息引导不同领域从该待测新闻的多个跨视图表示选择合适的跨视图表示进行新闻真假预测。
[0045]
由于存在领域差异，不同领域的具有判别性的跨视图表示可能不同。因此，本实施例提出了一个域适配器来建模域差异，域适配器从域记忆模块中获取待测新闻的领域信息[c
d ,u]作为输入，以聚合有用的跨视图表示，用于最终预测。具体而言，聚合的交叉视图表示形式如下：
其中，r为基于待测新闻的领域信息引导聚合的交叉视图表示；zi为步骤s2中待测新闻的第i个跨视图表示；f表示前馈神经网络。
[0046]
将聚合到的的交叉视图表示送入多层感知机，得到最后预测的概率：根据预先设定的阈值thr（一般设为0.5），得到最终的预测结果：。
[0047]
本实施例中领域事件记忆的迭代方法包括：本实施例中领域事件记忆的迭代方法包括：本实施例中领域事件记忆的迭代方法包括：本实施例中领域事件记忆的迭代方法包括：其中，mi表示某领域的领域事件记忆中第i个相似新闻簇；n为待测新闻的新闻特征表示；w为一个可学习的参数矩阵；md为待测新闻的领域标签对应领域的领域事件记忆。
[0048]
本实施例还提供一种记忆引导的多视图多领域虚假新闻检测装置，包括：视图表示提取模块、跨视图表示获取模块、显示表示获取模块、隐式表示获取模块和真假预测模块。
[0049]
本例中视图表示提取模块用于从待测新闻中提取多个视图表示，该多个视图表示包括语义表示、情感表示和风格表示，每个视图提取有多个表示；跨视图表示获取模块用于基于提取到的多视图表示，进行跨视图表示建模，得到待测新闻的多个跨视图表示；显示表示获取模块用于基于待测新闻的领域标签从领域特征记忆中获取标签对应的领域特征表示，作为该待测新闻的显式领域表示；隐式表示获取模块用于评估待测新闻与所有领域的领域事件记忆之间的事件相似性，并基于待测新闻与各领域的事件相似性和领域特征记忆中相应领域的领域特征表示计算该待测新闻的隐式领域表示；真假预测模块用于基于待测新闻的领域信息引导不同领域从该待测新闻的多个跨视图表示选择合适的跨视图表示进行新闻真假预测，其中待测新闻的领域信息包括该待测新闻的显式领域表示和隐式领域表示。
[0050]
本实施例还提供一种存储介质，其上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本例中记忆引导的多视图多领域虚假新闻检测方法的步骤。
[0051]
本实施例还提供一种记忆引导的多视图多领域虚假新闻检测设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本例中记忆引导的多视图多领域虚假新闻检测方法的步骤。

技术特征：

1.一种记忆引导的多视图多领域虚假新闻检测方法，其特征在于：从待测新闻中提取多个视图表示，该多个视图表示包括语义表示、情感表示和风格表示，每个视图提取有多个表示；基于提取到的多视图表示，进行跨视图表示建模，得到待测新闻的多个跨视图表示；基于待测新闻的领域标签从领域特征记忆中获取标签对应领域的领域特征表示，作为该待测新闻的显式领域表示；评估待测新闻与所有领域的领域事件记忆之间的事件相似性，并基于待测新闻与各领域的事件相似性和领域特征记忆中相应领域的领域特征表示计算该待测新闻的隐式领域表示；基于待测新闻的领域信息引导不同领域从该待测新闻的多个跨视图表示选择合适的跨视图表示进行新闻真假预测，其中待测新闻的领域信息包括该待测新闻的显式领域表示和隐式领域表示。2.根据权利要求1所述的记忆引导的多视图多领域虚假新闻检测方法，其特征在于，所述从待测新闻中提取多个视图表示，该多个视图表示包括语义表示、情感表示和风格表示，每个视图提取有多个表示，包括：从待测新闻中提取新闻内容、情感特征和风格特征；使用textcnn从待测新闻的新闻内容中提取语义表示，使用多层感知机分别从待测新闻的情感特征和风格特征中提取情感表示和风格表示。3.根据权利要求1所述的记忆引导的多视图多领域虚假新闻检测方法，其特征在于，所述基于提取到的多视图表示，进行跨视图表示建模，包括：其中，z为跨视图表示；为语义视图的第i个表示，i=1,2,3...k
sem
，k
sem
表明语义表示的总数；为与对应的自动学习的参数；为情感视图的第j个表示，j=1,2,3...k
emo
，k
emo
表明情感表示的总数；为与对应的自动学习的参数；为风格视图的第q个表示，q=1,2,3...k
sty
，k
sty
表明风格表示的总数；为与对应的自动学习的参数。4.根据权利要求1所述的记忆引导的多视图多领域虚假新闻检测方法，其特征在于，所述评估待测新闻与所有领域的领域事件记忆之间的事件相似性，包括：在每个领域的领域事件记忆中到所有与待测新闻相似的相似新闻簇，并将到的相似新闻簇聚合为一个待测新闻在该领域的域表示；基于待测新闻在每个领域的域表示计算该待测新闻与每个领域的事件相似性。5.根据权利要求4所述的记忆引导的多视图多领域虚假新闻检测方法，其特征在于，所述在每个领域的领域事件记忆中到所有与待测新闻相似的相似新闻簇，并将到的相似新闻簇聚合为一个待测新闻在该领域的域表示，包括：
其中，o
j
为待测新闻在第j个领域的域表示；n为待测新闻的新闻特征表示；w为一个可学习的参数矩阵；g表示转置函数；m
j
为第j个领域的领域事件记忆。6.根据权利要求5所述的记忆引导的多视图多领域虚假新闻检测方法，其特征在于，所述基于待测新闻在每个领域的域表示计算该待测新闻与每个领域的事件相似性，包括：述基于待测新闻在每个领域的域表示计算该待测新闻与每个领域的事件相似性，包括：其中，v为待测新闻在所有领域的相似性分布；n为待测新闻的新闻特征表示；v为一个可学习的参数矩阵；g表示转置函数；d为由所有域表示拼接成的矩阵；n表示领域的数量；i表示特征维度。7.根据权利要求1所述的记忆引导的多视图多领域虚假新闻检测方法，其特征在于，所述基于待测新闻与各领域的事件相似性和领域特征记忆中相应领域的领域特征表示计算该待测新闻的隐式领域表示，包括：其中，u为待测新闻的隐式领域表示；v
i
为待测新闻与第i领域的事件相似性；c
i
为第i领域的领域特征表示；n表示领域的数量。8.根据权利要求1所述的记忆引导的多视图多领域虚假新闻检测方法，其特征在于，所述基于待测新闻的领域信息引导不同领域从该待测新闻的多个跨视图表示选择合适的跨视图进行新闻真假预测，包括：其中，r为基于待测新闻的领域信息引导聚合的交叉视图表示；z
i
为待测新闻的第i个跨视图表示；f表示前馈神经网络；c
d
为待测新闻的显式领域表示，u为待测新闻的隐示领域表示；将聚合到的的交叉视图表示送入多层感知机，得到最后预测的概率：根据预先设定的阈值thr，得到最终的预测结果：。9.根据权利要求1所述的记忆引导的多视图多领域虚假新闻检测方法，其特征在于，所述领域事件记忆的迭代方法包括：述领域事件记忆的迭代方法包括：述领域事件记忆的迭代方法包括：述领域事件记忆的迭代方法包括：其中，m
i
表示某领域的领域事件记忆中第i个相似新闻簇；n为待测新闻的新闻特征表示；w为一个可学习的参数矩阵；m
d
为待测新闻的领域标签对应领域的领域事件记忆。
10.一种记忆引导的多视图多领域虚假新闻检测装置，其特征在于，包括：视图表示提取模块，用于从待测新闻中提取多个视图表示，该多个视图表示包括语义表示、情感表示和风格表示，每个视图提取有多个表示；跨视图表示获取模块，用于基于提取到的多视图表示，进行跨视图表示建模，得到待测新闻的多个跨视图表示；显示表示获取模块，用于基于待测新闻的领域标签从领域特征记忆中获取标签对应的领域特征表示，作为该待测新闻的显式领域表示；隐式表示获取模块，用于评估待测新闻与所有领域的领域事件记忆之间的事件相似性，并基于待测新闻与各领域的事件相似性和领域特征记忆中相应领域的领域特征表示计算该待测新闻的隐式领域表示；真假预测模块，用于基于待测新闻的领域信息引导不同领域从该待测新闻的多个跨视图表示选择合适的跨视图表示进行新闻真假预测，其中待测新闻的领域信息包括该待测新闻的显式领域表示和隐式领域表示。11.一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现权利要求1~9任意一项所述方法的步骤。12.一种记忆引导的多视图多领域虚假新闻检测设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现权利要求1~9任意一项所述方法的步骤。13.一种新闻领域信息的获取方法，其特征在于：基于待测新闻的领域标签从领域特征记忆中获取标签对应领域的领域特征表示，作为该待测新闻的显式领域表示；评估待测新闻与所有领域的领域事件记忆之间的事件相似性，并基于待测新闻与各领域的事件相似性和领域特征记忆中相应领域的领域特征表示计算该待测新闻的隐式领域表示；拼接待测新闻的显式领域表示和隐式领域表示，得到该待测新闻的领域信息。

技术总结

本发明涉及一种记忆引导的多视图多领域虚假新闻检测方法。本发明所采用的技术方案是：一种记忆引导的多视图多领域虚假新闻检测方法，其特征在于：从待测新闻中提取多个视图表示，每个视图提取有多个表示；基于提取到的多视图表示，进行跨视图表示建模，得到待测新闻的多个跨视图表示；基于待测新闻的领域标签从领域特征记忆中获取标签对应领域的领域特征表示；评估待测新闻与所有领域的领域事件记忆之间的事件相似性，并基于待测新闻与各领域的事件相似性和领域特征记忆中相应领域的领域特征表示计算该待测新闻的隐式领域表示；基于待测新闻的领域信息引导不同领域从该待测新闻的多个跨视图表示选择合适的跨视图表示进行新闻真假预测。进行新闻真假预测。进行新闻真假预测。