一种窗口相似度分析的关注点变化预测框架及其分析方法与流程



1.本发明涉及网络论坛分析技术领域,尤其涉及一种窗口相似度分析的关注点变化预测框架及其分析方法。


背景技术:



2.用户关注点的动态变化特征和对在线信息流的时序动态特征,通常有两种方法:基于观察时间序列,或基于时间函数的分析。目前在关注点相似度分析以及推荐系统领域,已经有一些时间分析算法,如时间窗口切片、时间遗忘分析等算法得到了验证,将上述两种方法进行协同使用的研究也在兴趣分析领域得到越来越多的重视。用户的关注点随时间演化研究技术大体上仍然可以分为数学模型方法和图形表示方法。前者的解释性仍需提升,而后者噪声大,难以提供准确的计算结果,因此仍然具备较大的改进和提升空间。
3.现有的关于网络论坛关注点变化的预测研究中,对于基于传统时间序列分析、深度学习网络模型的不同类别方法,在不同情况下的适用性分析不够,且大多未对关注点的长期变化规律进行直接分析,从而导致现实应用中的预测分析方法选择具有盲目性,而且不能很好地获取关注点长期变化规律及特性。


技术实现要素:



4.本发明提供一种窗口相似度分析的关注点变化预测框架及其分析方法,解决了上述技术问题。
5.为解决上述技术问题,本发明提供的一种窗口相似度分析的关注点变化预测框架及其分析方法,在提出的基于长短时间窗口相似度分析的关注点变化预测框架基础上,给出了基于两类典型模型的5种关注点变化预测方法,并分析了基于关注点变化规律以及不同情况下的预测方法选择问题,包括以下五个部分:
6.(一)、基于长短时间窗口相似度的关注点变化预测框架;
7.(二)、基于关键词序列的关注点抽取及向量表示;
8.(三)、2种基于传统序列分析算法的关注点变化预测分析方法;
9.(四)、3种基于深度学习模型的关注点变化预测分析方法;
10.(五)、关注点变化规律以及不同情况下的预测分析方法选择问题。
11.优选的,所述基于长短时间窗口相似度的关注点变化预测框架;
12.网络论坛关注点预测是网络舆情分析的一个子任务,其核心是从论坛用户的言论、贴文等信息中,抽取出针对特定主题或话题的描述与表示,可以是句子、短语或词语序列,进而可从社交文本中提取特征,由于网络论坛的复杂性和自由性,同一时期或时刻往往涉及多个主题或话题,那么,使用词语序列将更能较为客观全面地反映论坛用户的关注点。
13.针对网络论坛关注点变化的预测分析,本发明研究提出了如下分析思路及基本框架:首先,确定长时间窗口和短时间窗口的划分与设置;然后,分别对两类窗口内的贴文提取其关注点;其次,计算两类窗口关注点的相似度,并获得相似度变化序列;最后,选择基于
传统序列分析或深度学习等模型的预测分析方法,训练学习相应的预测模型,并对未来关注点的变化进行预测,进而分析得到网络论坛关注点的潜在变化规律,相关结果可为参数配置、预测分析方法选择等提供参考,其关注点变化预测框架可分以下七个步骤实现:
14.步骤一:参数初始化;根据前述分析,网络论坛关注点的变化在一段时间内通常是具有一定变化规律的,在分析其可能的变化规律时,所获取数据应尽量覆盖相对应时间段,保持变化规律的完整性,因此,网络论坛数据采样后,第一步应设定能够反映关注点变化规律的长时间窗口及其滑动步长、短时间窗口及其滑动步长,其中,滑动步长是在当前窗口数据采样分析结束后,如何确定下一窗口数据样本,经过上述处理,即可获得一段时间内的长时间窗口序列以及每个长时间窗口内的短时间窗口序列;
15.步骤二:文本分词;网络论坛中,每一个贴文通常包括标题及内容,其中,内容可能涉及文本、图像、音频等,在分词前,为了保持贴文语义的完整性,应将图像、音频等识别转化成文本,并与原文本内容合并,作为该贴文的完整描述,然后,采用jieba或百度api等经典工具或模型,对其进行分词处理;
16.步骤三:长时间窗口关注点提取。针对每个长时间窗口内的所有贴文,基于第二步的分词结果,采用如tf-idf或其改进算法等,对长时间窗口内所有关键词进行重要性排序,然后,从中选取最重要的部分关键词,如重要性度量值最大的前10、20或30个关键词,构成关键词序列,作为该长时间窗口的关注点;
17.步骤四:短时间窗口关注点提取;针对每个短时间窗口内的所有贴文,与第三步类似,基于第二步的分词结果,采用tf-idf或其改进算法等,对短时间窗口内所有关键词进行重要性排序,然后,从中选取最重要的部分关键词,如重要性度量值最大的前10、20或30个关键词,构成关键词序列,作为该短时间窗口的关注点;
18.步骤五:关注点相似度计算;对于每个长时间窗口,采用传统的simhash及其改进算法或近年流行的词向量表示与对比分析算法等,计算其中每个短时间窗口关注点与所在长时间窗口关注点的相似度,获取该长时间窗口内随时序变化的关注点相似度序列;
19.步骤六:关注点相似度变化预测模型训练及应用;针对第一步获得的长时间窗口序列,将前面一部分,如80%的长时间窗口中,各短时间窗口与其所在长时间窗口的关注点相似度作为已知序列,即训练样本集,将剩下部分,即20%的长时间窗口中,短时间窗口与其所在长时间窗口的关注点相似度作为未知序列,即待预测的测试样本集;然后,根据论坛关注点数据特性,采用如自回归求和移动平均、svr等传统序列分析模型或卷积神经网络、长短期记忆网络、transformer等深度学习模型,训练相应的预测模型;最后,对短时间窗口与其所在长时间窗口的关注点相似度的未来变化趋势进行预测分析;
20.步骤七:关注点变化规律分析;通过对比第一步中不同参数配置情况下的预测结果,分析研究论坛关注点变化的一般演化规律以及准确研判方法,为进一步的舆情导控等提供参考,比如:对于1月、2月两种长时间窗口,分析各长时间窗口下的1天、2天两种短时间窗口,所有长短时间窗口的滑动步长均为1,可得四种情况的参数配置,那么第六步也将得到对应的4个预测结果,如果其中长时间窗口为2月及其短时间窗口为2天的预测结果准确率最高,表明相对于其他参数配置的情况,这种情况下的参数设置更能够较为全面地反映论坛关注点的一般演化规律,对现实舆情分析应用将更具参考价值。
21.优选的,基于关键词序列的关注点抽取及向量表示;
22.为了能够更为客观全面地反映网络论坛用户的关注点,本发明提出了基于关键词序列的描述方法,并采用分词、词语重要性排序、关键词选取等步骤来实现,对于中文文本,目前公认效果较好的工具为jieba分词,在众多自然语言处理任务中发挥了重要支撑作用,jieba分词的基本思想是基于隐马尔可夫模型方法,寻最合适的词语序列;hmm将每个中文词汇标记为四个状态的组合:词首b、词中m、词尾e以及单字成词s,如:“北京”标记为“be”,即“北/b京/e”;“联合国”标记为“bme”,即“联/b合/m国/e”;“人”标记为“s”,即“人/s”;等;hmm的核心是到一个最佳的状态序列,即联合概率最大的状态序列,联合概率的计算表达式如下所示:
[0023][0024]
其中x为观测序列,即待分词的句子,y为隐状态序列,即各词汇对应的可能状态序列,t表示状态序列的长度。
[0025]
基于上述分词结果,采用tf-idf算法抽取关键词;这是一种无监督学习算法,其主要思想是对于一个文档集合,度量给定词语在少数文档中反复出现的程度,将其作为该给定词语的重要性指标。整个算法可分为两部分:词频tf和逆文档频数idf;一个文档即对应一个贴文,文档集合对于长时间窗口为该长时间跨度内的所有贴文集合,对于短时间窗口为该短时间跨度内的所有贴文集合;然后,假设贴文集合共包含n篇贴文,fi表示词项i在贴文集合中出现的频率,则词频tfi为:
[0026][0027]
其中,max
kfk
表示贴文集合中出现频率最高的词项k,即其tfk值为1。
[0028]
假设词项i在贴文集合的ni篇贴文中出现,那么词项i的逆文档频数idfi为:
[0029][0030]
将上述两个结果相结合,即得到关键词项i的重要性度量结果:
[0031][0032]
所有词项的重要性计算完成后,将结果从大到小进行排序,选择最重要的一部分,如前10、20或30个构成关键词序列,用其表示所述关注点。
[0033]
针对关注点在未来时刻变化的预测,本发明以长短时间窗口之间关注点的相似度变化来反映,其中主要涉及到关注点的表示及其相似度计算问题;本发明提出了以下两种实现途径:一种是直接计算输出关注点的相似度值,另一种是基于词向量表示的关注点相似度计算;首先将其转换为可计算的词向量表示,然后通过向量的比较计算关注点的相似度值;对于第一种,将采用经典的simhash算法来实现,对于第二种,首先将其转换为可计算的词向量表示,然后通过向量的比较计算关注点的相似度值。
[0034]
simhash算法的基本思想是:针对时间窗口内关注点的关键词序列,首先,采用hash算法将每个关键词映射为一个随机的签名向量;然后,根据各关键词的重要性度量值,通过加权求和,将其合并为一个签名向量,作为关注点的签名向量;最后,计算长时间窗口与短时间窗口的关注点签名向量之间的汉明距离,将其作为两者之间的相似度;多个具有
时序的短时间窗口分别与长时间窗口关注点相似度的计算结果,构成了具有时序特性的关注点相似度序列。
[0035]
在基于词向量表示的关注点相似度计算方面,首先采用自然语言处理领域经典的预训练语言模型,对关注点的关键词序列中每个关键词进行词向量表示;然后,以关键词重要性度量值为权重,通过加权求和,计算对应窗口的综合词向量表示,即关注点的词向量表示;当短时间窗口及其所在长时间窗口的关注点均得到词向量表示后,采用余弦相似度算法,计算长短时间窗口关注点之间的相似度值。
[0036]
优选的,所述2种基于传统序列分析算法的关注点变化预测分析方法;
[0037]
在所抽取关注点的基础上,采用的传统序列分析模型arima、svr两种算法,给出相应的关注点变化预测分析方法;其中,相关预测分析算法的输入为长、短时间窗口之间的关注点相似度值,可通过simhash算法或基于词向量表示和余弦相似度计算的方法获得。
[0038]
arima模型简记为arima(p,d,q),是在arma模型基础上,通过对原数据序列加入d阶差分处理后演变而来,当d=0时,arima(p,d,q)即为arma(p,q)。
[0039]
对于历史观测数据序列在本发明中指计算得到的长短时间窗口之间的相似度值序列,计算d阶差分处理后的数据序列建立如下arima(p,d,q)模型:
[0040][0041]
其中,为自回归模型参数,θ1,...,θq为移动平均模型参数,p和q为模型阶数,εi,ε
i-1
,...,ε
i-q
为均值为0、方差为的白噪声;当p=0时,即为ma(q)模型,当q=0时,即为ar(p)模型。
[0042]
svr是在经典模型支持向量机(svm,support vector machine)基础上演变而来,svm具有较好的理论基础,能够较好地解决小样本、非线性、高维数和局部极小点等实际问题;在小样本情况下,svm与神经网络、深度学习模型等具有较强的竞争力;svr算法的基本思想就是通过一个非线性映射函数,将数据集映射到高维特征空间,并在此空间进行线性回归,进而得到原数据的非线性回归结果。
[0043]
对于历史观测数据序列{xk,k=1,2,...n},其中xk是过去多个时刻的关注点相似度值序列,标签数据序列{yk,k=1,2,...n},表示基于xk计算得到未来时刻关注点相似度yk。假设非线性映射函数为可得如下计算表达式:
[0044][0045]
其中b为偏置,svr问题可形式化如下:
[0046]
[0047]
其中,c为正则化常数,用于模型复杂度与样本拟合精度的折中;ε为yk与f(xk)之间允许的最大误差,可控制支持向量的个数和泛化能力;ξk,为松弛变量,可控制软间隔距离。
[0048]
基于arima、svr进行关注点变化预测时,均需使用带标签的训练数据集进行训练和学习,然后利用训练好的模型对未知数据进行预测分析;其中标签即为关注点相似度值,通过自动计算得到,不需人工标注。
[0049]
优选的,所述3种基于深度学习模型的关注点变化预测分析方法;
[0050]
在所抽取关注点的基础上,采用cnn、lstm、transformer等深度学习模型典型算法,给出相应的关注点变化预测分析方法;其中,预测分析方法的输入为长、短时间窗口关注点的词向量表示,这里的词向量可通过前文介绍的两种方法获得;当采用simhash算法时,词向量为计算汉明距离之前的关注点签名向量;当采用基于词向量表示的方法时,词向量基于预训练模型获得,预测分析方法的输出为未来时刻短时间窗口与其所在长时间窗口的关注点相似度;基于关注点的两种表示向量,分别采用对应的汉明距离、余弦相似度计算获得两种方法的关注点相似度。
[0051]
cnn模型的特点之一就是能够较好地处理分析局部相关数据,获取典型特征并完成指定的相关任务;对于关注点变化预测问题,相邻时刻关注点往往存在较强的相关性,这种相关性既可通过cnn的卷积运算所捕获,然后,基于分析训练好的模型,对未来时刻的关注点变化进行预测。
[0052]
假设关注点的向量表示维度为d,长时间窗口关注点用li表示、短时间窗口关注点用si表示,维度均为1
×
d,将过去n个时刻的关注点构成矩阵,维度为n
×
2d,作为cnn的输入;本发明设计的cnn结构主要包括一个卷积层和一个全连接层,其中,卷积层的卷积核使用了3种尺寸,每种尺寸100个,全连接层神经元数为300;网络模型大致结构、相关参数及计算过程示意图。
[0053]
lstm模型由最初的简单循环神经网络发展而来,主要用于解决rnn可能存在的梯度消失或梯度爆炸等问题;lstm在隐藏层添加了1个记忆单元以及三个软逻辑门,主要作用:一是控制上一时刻需要传递给下一时刻的信息,二是控制当前时刻候选信息需要传递给下一时刻的信息,三是控制当前时刻候选信息如何与前一时刻信息融合得到输出;通过上述处理,能够更好地考虑相邻时刻关注点之间的相关性。
[0054]
本发明使用的lstm模型,依然以过去n个时刻长、短时间窗口关注点的词向量表示为输入,即输入为n
×
2d的矩阵;在此基础上,构建包含两个lstm层、每层包含128个神经元的隐藏层;然后,添加一个包含128个神经元的全连接层,最后计算输出为1个神经元,即未来时刻短时间窗口与所在长时间窗口的关注点相似度值。
[0055]
transformer模型的核心思想及基本过程可简要描述为:首先,模型需要对输入的数据首先进行嵌入处理,也可理解为类似词向量表示的操作;嵌入结束之后,将所得向量输入到编码层,编码层的自注意力层对数据进行处理,处理完后,将结果送给前馈神经网络,计算得到的输出将输入到下一个编码层;在模型的解码层,也包括编码层中的自注意力层和前馈神经网络层,但在两层之间又添加了一个注意力层,用以获取解码时在当前节点需要获得的重点内容,最后,通过多层运算后得到期望的输出。
[0056]
本发明算法实现中对原始transformer架构进行了调整,仅使用了编码层,然后将
其运算结果输出给全连接层,最后输出关注点相似度值。transformer模型的输入与cnn、lstm模型相同。
[0057]
优选的,所述关注点变化规律以及不同情况下的预测分析方法选择问题;
[0058]
描述长、短时间窗口用户关注点的关键词提取采用tf-idf方法,描述每个关注点的关键词数量设置为20个;在此基础上,分别进行相似度计算及未来关注点变化的预测;对于传统序列分析与深度学习模型两类方法,实验所采用的相似度计算以及关注点预测分析方法描述如下:
[0059]

基于传统序列分析方法的预测分析方面,本发明分别在两种关注点相似度计算方法与结果的基础上,主要对比分析了较具代表性的arima、svr等两种传统的序列分析算法。
[0060]

基于深度学习模型的预测分析方面,本发明分别在两种关注点向量表示及相似度计算方法与结果的基础上,主要对比分析了较具代表性的cnn、lstm、transformer等三种深度学习模型;其中,基于simhash算法得到的关注点词向量表示维度为64,基于预训练模型得到的关注点词向量表示维度为300。
[0061]
对于上述关注点变化趋势预测分析的各算法模型,本发明所采用的性能评估方法主要为平均绝对误差与标准偏差两种,这是序列预测分析中常用的评估指标。
[0062]
平均绝对误差mae的计算表达式如下:
[0063][0064]
其中,n为样本总数,yi为数据观测值,fi为数据预测值。
[0065]
标准偏差计算方式如下,各参数与mae计算表达式含义相同:
[0066][0067]
与相关技术相比较,本发明提供的一种窗口相似度分析的关注点变化预测框架及其分析方法具有如下有益效果:
[0068]
本发明通过基于所提方法,在真实数据上进行了大量的实验测试与分析,验证了所提预测分析框架和实现方法的有效性,同时,基于测试结果的分析,为预测方法中的样本构建、关注点变化规律的发现以及预测方法选择等,提供了一种指导性分析方法。
附图说明
[0069]
图1为本发明中基于长短窗口相似度计算的关注点变化预测基本框架图;
[0070]
图2为本发明中面向关注点变化预测的cnn模型结构示意图;
[0071]
图3为本发明中面向关注点变化预测的lstm模型结构示意图;
[0072]
图4为本发明中面向关注点变化预测的transformer模型结构示意图;
[0073]
图5为本发明中不同长短窗口参数配置情况下的数据集样本数量图;
[0074]
图6为本发明中“sh”策略不同窗口参数配置下的“大船吧”预测结果mae对比图;
[0075]
图7为本发明中“sh”策略不同窗口参数配置下的“红房子吧”预测结果mae对比图;
[0076]
图8为本发明中“sh”策略不同窗口参数配置下的“大船吧”预测结果std对比图;
[0077]
图9为本发明中“sh”策略不同窗口参数配置下的“红房子吧”预测结果std对比图;
[0078]
图10为本发明中“cs”策略不同窗口参数配置下的“大船吧”预测结果mae对比图;
[0079]
图11为本发明中“cs”策略不同窗口参数配置下的“红房子吧”预测结果mae对比图;
[0080]
图12为本发明中“cs”策略不同窗口参数配置下的“大船吧”预测结果std对比图;
[0081]
图13为本发明中“cs”策略不同窗口参数配置下的“红房子吧”预测结果std对比图;
[0082]
图14为本发明中“大船吧”窗口参数配置“30-4-3-1”下的预测结果对比图;
[0083]
图15为本发明中“大船吧”窗口参数配置“120-2-3-1”下的预测结果对比图;
具体实施方式
[0084]
为了测试本发明提出关注点变化预测框架及其分析方法的有效性,将根据本发明提出的关注点变化预测方法,以网络真实环境为场景,通过采集构建数据集,对所提算法的性能进行测试,分析网络论坛关注点的变化规律。
[0085]
(1)数据集准备
[0086]
实验主要以百度贴吧“大船吧”、“红房子吧”两个主题贴吧为例,采集了从2020年2月至2021年4月期间共计454天的发贴人及贴文等相关数据,其中各贴吧分别涉及18754、2443个用户,帖子条目数分别共计59062、22528条;根据前文介绍的分析框架和方法,主要根据历史短时间窗口与其所在长时间窗口关注点的相似度序列数据,预测未来下1个短时间窗口的关注点相似度,进而分析短时间窗口关注点在未来时刻的发展趋势与变化情况。
[0087]
实验的长时间窗口天数(简记为d
lw
)主要分30天、60天、90天、120天四种情况考虑,长时间窗口的滑动步长(简记为d
ls
)主要分2天、4天两种,短时间窗口天数(简记为d
sw
)主要分1天、2天、3天三种,短时间窗口的滑动步长(简记为d
ss
)主要分1天、2天两种,其中1适合所有三种短时间窗口,2仅在短时间窗口为3天时使用;对于上述设置,每种情况标记方式简记为“d
lw-d
ls-d
sw-d
ss”,如“30-2-2-1”表示长时间窗口为30且其滑动步长为2、短时间窗口为2且其滑动步长为1;综上,所有参数配置共计包含32种情况。
[0088]
关注点变化预测的目标是,预测未来时刻短时间窗口与长时间窗口的关注点相似度的变化,其中,每个短时间窗口与其对应的长时间窗口的关注点相似度值即为一个样本;因此,对于所有采样数据,在每种情况下能够划分出多少个短时间窗口,那么就可以得到相同数量的样本集;对于上述32种情况,每种情况下能够构造的样本数n可用如下计算表达式获得。
[0089][0090]
(2)关注点变化预测
[0091]
在关注点向量表示及相似度计算时,采用了两种不同的策略:一是采用simhash算法,获取关注点向量表示并计算相似度,简记为“sh”策略;二是采用预训练模型和余弦相似度算法,获取关注点向量表示并计算相似度,简记为“cs”策略;当采用不同的策略进行进一步的关注点相似度变化预测分析时,相当于输入了不同的中间表示,那么两种策略下的结果之间无法直接进行对比,只有在同一种策略下时,关注点相似度的预测分析算法之间才
具有可比性;因此,实验中将分别在两种策略下进行结果对比。对于五种关注点相似度变化预测分析方法arima、svr、cnn、rnn、transformer,当采用“sh”策略时,其结果分别记为sh-arima、sh-svr、sh-cnn、sh-rnn、sh-trm,当采用“cs”策略时,其结果分别记为cs-arima、cs-svr、cs-cnn、cs-rnn、cs-trm。
[0092]
从总体上看,“sh”策略与“cs”策略之间在不同的长短窗口参数配置下,关注点相似度预测分析结果的相对变化具有较高的相似性,如无论采用“sh”策略还是“cs”策略,当“d
lw-d
ls-d
sw-d
ss”中的d
ls
、d
sw
、d
ss
相同时,d
lw
越大,预测结果准确率通常越高;通过关联分析可以看出,这种情况下,d
lw
越大,能够构建出的训练样本数往往越多;因此,对于本发明所提出方法来讲,长窗口大小及训练样本数可能是影响预测准确率的因素之一,在实际应用中,应该选择较大的长窗口,并尽可能多的构建训练样本;对于相同的d
lw
、d
sw
、d
ss
,当d
ls
不同时,预测结果之间差别不大,可知长时间窗口的滑动步长对预测准确率的影响不大;因此,对于相同的d
lw
,预测结果准确率与短窗口大小d
sw
及其滑动步长d
ss
的关系更大;从对比结果来看,当“d
sw-d
ss”取值为“2-1”或“3-1”时,预测结果准确率通常更高;事实上,与另外两种取值“1-1”或“3-2”相比,取值为“2-1”或“3-1”时所获得的相邻短窗口之间具有更高的相关性,从而更能反映关注度时序变化的规律,从而更有利于预测分析算法捕获其变化规律,因此其预测准确率也将更高。
[0093]
当采用相同策略时,从不同预测分析算法之间的对比结果来看,在前述分析基础中指出性能较好的参数配置中,当长时间窗口为30、60时,传统序列分析算法arima、svr的准确率绝大多数情况下优于深度学习模型cnn、lstm、trm,其中svr的准确率最高;当长时间窗口为90时,两类算法模型性能相当,难以区分哪种算法更优;当长时间窗口为120时,深度学习模型cnn、lstm、trm则绝大多数情况下表现更优,其中lstm的准确率最高,且在所有参数配置下均为最优;此外,在预测算法和参数配置相同时,基于“cs”策略的分析通常比基于“sh”策略的准确率更高,从而表明基于预训练模型的词向量表示方法在自然语言处理任务中更具优势。
[0094]
当分析同一个算法在不同吧的准确率时,对比可知,在“大船吧”的预测准确率往往比在“红房子吧”的预测准确率更高;根据前文数据集的介绍可知,“大船吧”的贴文数量为59062,远高于“红房子吧”的贴文数量22528,那么,对于相同的时间窗口来说,“大船吧吧”可供提取关注点的贴文数量就更多,从而将能够更准确地获取和表示关注点,这样可能更有利于算法的预测分析;因此,在现实应用中,应尽可能全地使用所有贴文数据。
[0095]
(3)关注点变化规律分析
[0096]
在不同策略不同窗口参数配置情况下,不同算法的综合性能差异比较明显,基于前文的分析结论,分别从长时间窗口较小时和较大时的预测结果中,选择具有最高预测准确率的参数配置,通过各短时间窗口关注点相似度的具体预测结果与真实结果之间的对比,进一步更直接地分析算法的细粒度性能,并在此基础上推测关注点可能的变化规律。以“航空母舰吧”为例,在“cs”策略下,分别选择较小的长时间窗口参数配置“30-4-3-1”和较大的长时间窗口参数配置“120-2-3-1”,对其预测结果进行分析;其中,窗口参数配置“30-4-3-1”情况下主要展示基于传统序列分析算法arima、svr的预测结果,横坐标表示短窗口第一天的日期;窗口参数配置“120-2-3-1”情况下主要展示基于深度学习模型cnn、lstm、trm的预测结果,横坐标表示短窗口第一天的日期。
[0097]
从关注点变化预测结果看,在进行长短时间窗口划分时,应尽可能采用较长的长时间窗口,且短时间窗口采样时应尽量使相邻短时间窗口之间具有较强的相关性;同时,当可构建出的数据量较多时,应该使用基于深度学习模型的算法进行预测分析,若可构建出的数据量比较有限,则应该选用传统的序列分析算法。
[0098]
从关注点变化规律分析看,基于本发明所提出的方法,在这两种情况下都能够较好地拟合关注点相似度的变化曲线,且参数配置“120-2-3-1”的结果更优;在网络论坛中,关注点从出现到消失的完整过程可能往往比较长,如果要想较好地捕捉关注点的较为完整的变化规律,应尽可能采用更长时间窗口内的数据进行前后变化的相关分析,从而为决策者提供更为准确的决策依据。

技术特征:


1.一种窗口相似度分析的关注点变化预测框架,其特征在于,在提出的基于长短时间窗口相似度分析的关注点变化预测框架基础上,给出了基于两类典型模型的5种关注点变化预测方法,并分析了基于关注点变化规律以及不同情况下的预测方法选择问题,包括以下五个部分:(一)、基于长短时间窗口相似度的关注点变化预测框架;(二)、基于关键词序列的关注点抽取及向量表示;(三)、2种基于传统序列分析算法的关注点变化预测分析方法;(四)、3种基于深度学习模型的关注点变化预测分析方法;(五)、关注点变化规律以及不同情况下的预测分析方法选择问题。2.根据权利要求1所述的一种窗口相似度分析的关注点变化预测框架,其特征在于,所述基于长短时间窗口相似度的关注点变化预测框架;网络论坛关注点预测是网络舆情分析的一个子任务,其核心是从论坛用户的言论、贴文等信息中,抽取出针对特定主题或话题的描述与表示,可以是句子、短语或词语序列,进而可从社交文本中提取特征,由于网络论坛的复杂性和自由性,同一时期或时刻往往涉及多个主题或话题,那么,使用词语序列将更能较为客观全面地反映论坛用户的关注点。针对网络论坛关注点变化的预测分析,本发明研究提出了如下分析思路及基本框架:首先,确定长时间窗口和短时间窗口的划分与设置;然后,分别对两类窗口内的贴文提取其关注点;其次,计算两类窗口关注点的相似度,并获得相似度变化序列;最后,选择基于传统序列分析或深度学习等模型的预测分析方法,训练学习相应的预测模型,并对未来关注点的变化进行预测,进而分析得到网络论坛关注点的潜在变化规律,相关结果可为参数配置、预测分析方法选择等提供参考,其关注点变化预测框架可分以下七个步骤实现:步骤一:参数初始化;根据前述分析,网络论坛关注点的变化在一段时间内通常是具有一定变化规律的,在分析其可能的变化规律时,所获取数据应尽量覆盖相对应时间段,保持变化规律的完整性,因此,网络论坛数据采样后,第一步应设定能够反映关注点变化规律的长时间窗口及其滑动步长、短时间窗口及其滑动步长,其中,滑动步长是在当前窗口数据采样分析结束后,如何确定下一窗口数据样本,经过上述处理,即可获得一段时间内的长时间窗口序列以及每个长时间窗口内的短时间窗口序列;步骤二:文本分词;网络论坛中,每一个贴文通常包括标题及内容,其中,内容可能涉及文本、图像、音频等,在分词前,为了保持贴文语义的完整性,应将图像、音频等识别转化成文本,并与原文本内容合并,作为该贴文的完整描述,然后,采用jieba或百度api等经典工具或模型,对其进行分词处理;步骤三:长时间窗口关注点提取。针对每个长时间窗口内的所有贴文,基于第二步的分词结果,采用如tf-idf或其改进算法等,对长时间窗口内所有关键词进行重要性排序,然后,从中选取最重要的部分关键词,如重要性度量值最大的前10、20或30个关键词,构成关键词序列,作为该长时间窗口的关注点;步骤四:短时间窗口关注点提取;针对每个短时间窗口内的所有贴文,与第三步类似,基于第二步的分词结果,采用tf-idf或其改进算法等,对短时间窗口内所有关键词进行重要性排序,然后,从中选取最重要的部分关键词,如重要性度量值最大的前10、20或30个关键词,构成关键词序列,作为该短时间窗口的关注点;
步骤五:关注点相似度计算;对于每个长时间窗口,采用传统的simhash及其改进算法或近年流行的词向量表示与对比分析算法等,计算其中每个短时间窗口关注点与所在长时间窗口关注点的相似度,获取该长时间窗口内随时序变化的关注点相似度序列;步骤六:关注点相似度变化预测模型训练及应用;针对第一步获得的长时间窗口序列,将前面一部分,如80%的长时间窗口中,各短时间窗口与其所在长时间窗口的关注点相似度作为已知序列,即训练样本集,将剩下部分,即20%的长时间窗口中,短时间窗口与其所在长时间窗口的关注点相似度作为未知序列,即待预测的测试样本集;然后,根据论坛关注点数据特性,采用如自回归求和移动平均、svr等传统序列分析模型或卷积神经网络、长短期记忆网络、transformer等深度学习模型,训练相应的预测模型;最后,对短时间窗口与其所在长时间窗口的关注点相似度的未来变化趋势进行预测分析;步骤七:关注点变化规律分析;通过对比第一步中不同参数配置情况下的预测结果,分析研究论坛关注点变化的一般演化规律以及准确研判方法,为进一步的舆情导控等提供参考,比如:对于1月、2月两种长时间窗口,分析各长时间窗口下的1天、2天两种短时间窗口,所有长短时间窗口的滑动步长均为1,可得四种情况的参数配置,那么第六步也将得到对应的4个预测结果,如果其中长时间窗口为2月及其短时间窗口为2天的预测结果准确率最高,表明相对于其他参数配置的情况,这种情况下的参数设置更能够较为全面地反映论坛关注点的一般演化规律,对现实舆情分析应用将更具参考价值。3.根据权利要求1所述的一种窗口相似度分析的关注点变化预测框架,其特征在于,基于关键词序列的关注点抽取及向量表示;为了能够更为客观全面地反映网络论坛用户的关注点,本发明提出了基于关键词序列的描述方法,并采用分词、词语重要性排序、关键词选取等步骤来实现,对于中文文本,目前公认效果较好的工具为jieba分词,在众多自然语言处理任务中发挥了重要支撑作用,jieba分词的基本思想是基于隐马尔可夫模型方法,寻最合适的词语序列;hmm将每个中文词汇标记为四个状态的组合:词首b、词中m、词尾e以及单字成词s,如:“北京”标记为“be”,即“北/b京/e”;“联合国”标记为“bme”,即“联/b合/m国/e”;“人”标记为“s”,即“人/s”;等;hmm的核心是到一个最佳的状态序列,即联合概率最大的状态序列,联合概率的计算表达式如下所示:其中x为观测序列,即待分词的句子,y为隐状态序列,即各词汇对应的可能状态序列,t表示状态序列的长度。基于上述分词结果,采用tf-idf算法抽取关键词;这是一种无监督学习算法,其主要思想是对于一个文档集合,度量给定词语在少数文档中反复出现的程度,将其作为该给定词语的重要性指标。整个算法可分为两部分:词频tf和逆文档频数idf;一个文档即对应一个贴文,文档集合对于长时间窗口为该长时间跨度内的所有贴文集合,对于短时间窗口为该短时间跨度内的所有贴文集合;然后,假设贴文集合共包含n篇贴文,f
i
表示词项i在贴文集合中出现的频率,则词频tf
i
为:
其中,max
k f
k
表示贴文集合中出现频率最高的词项k,即其tf
k
值为1。假设词项i在贴文集合的n
i
篇贴文中出现,那么词项i的逆文档频数idf
i
为:将上述两个结果相结合,即得到关键词项i的重要性度量结果:所有词项的重要性计算完成后,将结果从大到小进行排序,选择最重要的一部分,如前10、20或30个构成关键词序列,用其表示所述关注点。针对关注点在未来时刻变化的预测,本发明以长短时间窗口之间关注点的相似度变化来反映,其中主要涉及到关注点的表示及其相似度计算问题;本发明提出了以下两种实现途径:一种是直接计算输出关注点的相似度值,另一种是基于词向量表示的关注点相似度计算;首先将其转换为可计算的词向量表示,然后通过向量的比较计算关注点的相似度值;对于第一种,将采用经典的simhash算法来实现,对于第二种,首先将其转换为可计算的词向量表示,然后通过向量的比较计算关注点的相似度值。simhash算法的基本思想是:针对时间窗口内关注点的关键词序列,首先,采用hash算法将每个关键词映射为一个随机的签名向量;然后,根据各关键词的重要性度量值,通过加权求和,将其合并为一个签名向量,作为关注点的签名向量;最后,计算长时间窗口与短时间窗口的关注点签名向量之间的汉明距离,将其作为两者之间的相似度;多个具有时序的短时间窗口分别与长时间窗口关注点相似度的计算结果,构成了具有时序特性的关注点相似度序列。在基于词向量表示的关注点相似度计算方面,首先采用自然语言处理领域经典的预训练语言模型,对关注点的关键词序列中每个关键词进行词向量表示;然后,以关键词重要性度量值为权重,通过加权求和,计算对应窗口的综合词向量表示,即关注点的词向量表示;当短时间窗口及其所在长时间窗口的关注点均得到词向量表示后,采用余弦相似度算法,计算长短时间窗口关注点之间的相似度值。4.根据权利要求1所述的一种窗口相似度分析的关注点变化分析方法,其特征在于,所述2种基于传统序列分析算法的关注点变化预测分析方法;在所抽取关注点的基础上,采用的传统序列分析模型arima、svr两种算法,给出相应的关注点变化预测分析方法;其中,相关预测分析算法的输入为长、短时间窗口之间的关注点相似度值,可通过simhash算法或基于词向量表示和余弦相似度计算的方法获得。arima模型简记为arima(p,d,q),是在arma模型基础上,通过对原数据序列加入d阶差分处理后演变而来,当d=0时,arima(p,d,q)即为arma(p,q)。对于历史观测数据序列在本发明中指计算得到的长短时间窗口之间的相似度值序列,计算d阶差分处理后的数据序列建立如下arima(p,d,q)模型:
其中,为自回归模型参数,θ1,...,θ
q
为移动平均模型参数,p和q为模型阶数,ε
i

i-1
,...,ε
i-q
为均值为0、方差为的白噪声;当p=0时,即为ma(q)模型,当q=0时,即为ar(p)模型。svr是在经典模型支持向量机(svm,support vector machine)基础上演变而来,svm具有较好的理论基础,能够较好地解决小样本、非线性、高维数和局部极小点等实际问题;在小样本情况下,svm与神经网络、深度学习模型等具有较强的竞争力;svr算法的基本思想就是通过一个非线性映射函数,将数据集映射到高维特征空间,并在此空间进行线性回归,进而得到原数据的非线性回归结果。对于历史观测数据序列{x
k
,k=1,2,...n},其中x
k
是过去多个时刻的关注点相似度值序列,标签数据序列{y
k
,k=1,2,...n},表示基于x
k
计算得到未来时刻关注点相似度y
k
。假设非线性映射函数为可得如下计算表达式:其中b为偏置,svr问题可形式化如下:其中,c为正则化常数,用于模型复杂度与样本拟合精度的折中;ε为y
k
与f(x
k
)之间允许的最大误差,可控制支持向量的个数和泛化能力;为松弛变量,可控制软间隔距离。基于arima、svr进行关注点变化预测时,均需使用带标签的训练数据集进行训练和学习,然后利用训练好的模型对未知数据进行预测分析;其中标签即为关注点相似度值,通过自动计算得到,不需人工标注。5.根据权利要求1所述的一种窗口相似度分析的关注点变化分析方法,其特征在于,所述3种基于深度学习模型的关注点变化预测分析方法;在所抽取关注点的基础上,采用cnn、lstm、transformer等深度学习模型典型算法,给出相应的关注点变化预测分析方法;其中,预测分析方法的输入为长、短时间窗口关注点的词向量表示,这里的词向量可通过前文介绍的两种方法获得;当采用simhash算法时,词向量为计算汉明距离之前的关注点签名向量;当采用基于词向量表示的方法时,词向量基于预训练模型获得,预测分析方法的输出为未来时刻短时间窗口与其所在长时间窗口的关注点相似度;基于关注点的两种表示向量,分别采用对应的汉明距离、余弦相似度计算获得两种方法的关注点相似度。cnn模型的特点之一就是能够较好地处理分析局部相关数据,获取典型特征并完成指定的相关任务;对于关注点变化预测问题,相邻时刻关注点往往存在较强的相关性,这种相关性既可通过cnn的卷积运算所捕获,然后,基于分析训练好的模型,对未来时刻的关注点变化进行预测。假设关注点的向量表示维度为d,长时间窗口关注点用l
i
表示、短时间窗口关注点用s
i
表示,维度均为1
×
d,将过去n个时刻的关注点构成矩阵,维度为n
×
2d,作为cnn的输入;本发明设计的cnn结构主要包括一个卷积层和一个全连接层,其中,卷积层的卷积核使用了3种尺寸,每种尺寸100个,全连接层神经元数为300;网络模型大致结构、相关参数及计算过程示意图。lstm模型由最初的简单循环神经网络发展而来,主要用于解决rnn可能存在的梯度消失或梯度爆炸等问题;lstm在隐藏层添加了1个记忆单元以及三个软逻辑门,主要作用:一是控制上一时刻需要传递给下一时刻的信息,二是控制当前时刻候选信息需要传递给下一时刻的信息,三是控制当前时刻候选信息如何与前一时刻信息融合得到输出;通过上述处理,能够更好地考虑相邻时刻关注点之间的相关性。本发明使用的lstm模型,依然以过去n个时刻长、短时间窗口关注点的词向量表示为输入,即输入为n
×
2d的矩阵;在此基础上,构建包含两个lstm层、每层包含128个神经元的隐藏层;然后,添加一个包含128个神经元的全连接层,最后计算输出为1个神经元,即未来时刻短时间窗口与所在长时间窗口的关注点相似度值。transformer模型的核心思想及基本过程可简要描述为:首先,模型需要对输入的数据首先进行嵌入处理,也可理解为类似词向量表示的操作;嵌入结束之后,将所得向量输入到编码层,编码层的自注意力层对数据进行处理,处理完后,将结果送给前馈神经网络,计算得到的输出将输入到下一个编码层;在模型的解码层,也包括编码层中的自注意力层和前馈神经网络层,但在两层之间又添加了一个注意力层,用以获取解码时在当前节点需要获得的重点内容,最后,通过多层运算后得到期望的输出。本发明算法实现中对原始transformer架构进行了调整,仅使用了编码层,然后将其运算结果输出给全连接层,最后输出关注点相似度值。transformer模型的输入与cnn、lstm模型相同。6.根据权利要求1所述的一种窗口相似度分析的关注点变化分析方法,其特征在于,所述关注点变化规律以及不同情况下的预测分析方法选择问题;描述长、短时间窗口用户关注点的关键词提取采用tf-idf方法,描述每个关注点的关键词数量设置为20个;在此基础上,分别进行相似度计算及未来关注点变化的预测;对于传统序列分析与深度学习模型两类方法,实验所采用的相似度计算以及关注点预测分析方法描述如下:

基于传统序列分析方法的预测分析方面,本发明分别在两种关注点相似度计算方法与结果的基础上,主要对比分析了较具代表性的arima、svr等两种传统的序列分析算法。

基于深度学习模型的预测分析方面,本发明分别在两种关注点向量表示及相似度计算方法与结果的基础上,主要对比分析了较具代表性的cnn、lstm、transformer等三种深度学习模型;其中,基于simhash算法得到的关注点词向量表示维度为64,基于预训练模型得到的关注点词向量表示维度为300。对于上述关注点变化趋势预测分析的各算法模型,本发明所采用的性能评估方法主要为平均绝对误差与标准偏差两种,这是序列预测分析中常用的评估指标。平均绝对误差mae的计算表达式如下:
其中,n为样本总数,y
i
为数据观测值,f
i
为数据预测值。标准偏差计算方式如下,各参数与mae计算表达式含义相同:

技术总结


本发明公开了一种窗口相似度分析的关注点变化预测框架及其分析方法,涉及网络论坛分析技术领域,在提出的基于长短时间窗口相似度分析的关注点变化预测框架基础上,给出了基于两类典型模型的5种关注点变化预测方法,并分析了基于关注点变化规律以及不同情况下的预测方法选择问题,本发明通过基于所提方法,在真实数据上进行了大量的实验测试与分析,验证了所提预测分析框架和实现方法的有效性,同时,基于测试结果的分析,为预测方法中的样本构建、关注点变化规律的发现以及预测方法选择,提供了一种指导性分析方法。提供了一种指导性分析方法。提供了一种指导性分析方法。


技术研发人员:

闵宗茹 陈曲 王心丹 沈池花 巨星海 池淏 罗向阳 卢记仓 刘錞 谭江浩

受保护的技术使用者:

上海瀛数信息科技有限公司

技术研发日:

2022.10.10

技术公布日:

2022/12/30

本文发布于:2024-09-21 19:44:18,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/49776.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:关注点   窗口   向量   长时间
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议