融合自注意力机制与长短期偏好的序列推荐模型

  收稿日期:2020 05 11;修回日期:2020 07 09  基金项目:国家自然科学基金资助项目(61772249)
  作者简介:沈学利(1969 ),男,江苏连云港人,教授,硕士,主要研究方向为信息安全、推荐系统(523419858@qq.com);杜志伟(1995 ),男,山西临汾人,硕士研究生,主要研究方向为推荐系统.
融合自注意力机制与长短期偏好的序列推荐模型
沈学利a,杜志伟b
(辽宁工程技术大学a.软件学院;b.电子与信息工程学院,辽宁葫芦岛125105)
摘 要:针对现有的序列推荐算法仅利用短期顺序行为进行推荐,而没有充分考虑用户的长期偏好和项目之间
更深层次的联系等问题,提出一种融合自注意力机制与长短期偏好的序列推荐模型(
大学生录像后扶人
combinesself attentionwithlong termandshort termrecommendation,CSALSR)。该模型首先建模用户和项目的潜在特征表示,将用户短期交
互序列中的项目成对编码为三向张量,然后经过自注意力机制模块并使用卷积神经网络(
convolutionalneuralnetwork
,CNN)从用户的顺序模式中提取项目间更深层次的联系。同时考虑用户的长期偏好,将相似用户的嵌入作为补充增强用户表征。在MovieLens 1M和Gowalla数据集上,实验结果表明提出的方法在准确率precision@N、
召回率r
ecall@N、均值平均精度(meanaverageprecision,MAP)上优于其他方法。关键词:序列推荐;潜在空间;自注意力机制;成对编码;卷积神经网络中图分类号:TP301.6   文献标志码:A   文章编号:1001 3695(2021)05 016 1371 05doi:10.19734/j.issn.1001 3695.2020.05.0121
Sequentialrecommendationmodelthatcombinesself attention
mechanismwithlong termandshort termpreferences
ShenXuelia,DuZhiwei
(a.SchoolofSoftware,b.SchoolofElectronic&InformationEngineering,LiaoningTechnicalUniversity,HuludaoLiaoning125105,China)
Abstract:Inordertosolvetheproblemthattheexistingsequencerecommendationalgorithmsonlyuseshort termsequential
behaviorstomakerecommendations,butfailtofullyconsiderthelong termpreferenceofusersandthedeeperrelationshipbe
tweenitems
,thispaperproposedasequentialrecommendationalgorithmCSALSRthatitintegratedself attentionm
echanismandlong termandshort termpreference.Thismodelembeddedtheuserandtheitemintothevectorrespectively
,andregar dedthepairwiseencodingoftheiteminshort terminteractionsequenceasathree waytensor.Then
,itaddedself attentionmechanismonthethree waytensorandusedconvolutionalneuralnetworktoextractthedeeperconnectionbetweenitemsfromtheorderpatternofusers.Atthesametime,consideringthelong termpreferenceofusers,ittooktheembeddingofsimilarusersasasupplementtoenhancetheuserrepresentation.ExperimentalresultsshowthattheproposedmethodonMovieLens
1MandGowalladatasetsissuperiortoothermethodsinp
recision@N,recall@NandMAP.Keywords:sequentialrecommendation;latentspace;self attentionmechanism;pairwiseencoding;convolutionalneuralnetworks
0 引言
信息时代下的数据量快速膨胀,信息过载现象越来越严重。为了缓解信息过载带来的影响,研究人员提出了很多值得称赞的解决方案,其中最有效的处理方法就是推荐系统,即利用用户与项目的交互信息进行推荐。推荐系统可以分为一般推荐方法和序列推荐方法。
一般推荐方法,例如top N推荐[1,2],基于内容的推荐系统和协同过滤的推荐系统[
3]
,这些工作侧重于挖掘用户和项目之间的静态相关性,可以捕获用户的长期偏好与静态行为,但忽略了随时间形成的用户交互序列隐含着用户兴趣的衰减以及偏好的动态变化。例如,一些用户更喜欢听民谣类型的音乐而不是摇滚类型的。在这种情况下,用户在某一时间点的意图可能很容易被他或她的历史购物行为所淹没,从而导致不可靠的推荐。
江西 教育
序列推荐方法认为,在某一个时刻向用户推荐时一般是根据当前时刻之前用户的行为来进行决策的,可以将序列推荐问
题看做是在时间维度去学习一个模型策略以通过历史交互中
的物品来预测用户可能发生交互的物品[
4]
。基于序列的模型在短期内提供了对用户决策过程的理解,最具有代表的是文献[
5],它将用户—商品的交互当做一种动态序列并且捕获当前和最近的用户偏好以便更加精确地推荐。序列推荐呈现用户的短期和动态行为,并在一定的时间表现出物品或者项之间的某种关系。例如,用户购买电脑后用户可能很快就会购买电脑配件,虽然根据用户的一般偏好并不会购买电脑配件,但在这种情况下,只考虑一般偏好的系统将失去推荐电脑配件的机会。因为购买电脑配件并不是用户的长期行为,而是购买电脑之后的短暂行为。因此,对短期行为和长期行为作出平衡就显得尤为重要,既要及时响应短期行为,又要保持长期行为的延续性。例如音乐推荐系统,用户长期的音乐喜好可能是一致的,但短期内可能对其他音乐类型产生短暂的兴趣。此时要求推荐系统既要针对这种短期变化作出及时响应,为用户推荐短期兴趣的相关物品,又也不能完全抛弃长期兴趣的推荐。
基于上述原因,本文提出一种新的解决方案,称为融合自注意力机制与长短期偏好的序列推荐模型(CSALSR)。
第38卷第5期2021年5月 计算机应用研究
ApplicationResearchofComputersVol.38No.5
May2021
1 相关工作
神经网络模型在序列中的不同实体间(如用户、商品、交
互)构建和捕获复杂关系具有天然优势。循环神经网络(
re currentneuralnetwork,RNN)与卷积神经网络(convolutional
neuralnetwork,CNN)是当前问题的热门选择[6,7]
。传统的循环神经网络给定了一个用户—商品交互的历史序列,通过给定的交互建立一个序列依赖关系,以此预测接下来可能的交互。除
了传统循环神经网络之外,基于长短期记忆网络(
longshort termmemory,LSTM)[8]
和门循环控制单元(gatedrecurrentunit,
GRU)[9]
的循环神经网络也被用于在序列中捕获长期依赖关系。然而,循环神经网络并不适用于序列推荐系统,这是因为循环神经网络在以下三方面存在不足:
a)RNN的超强假设,它假设在序列中任何邻近的交互一定是依赖的,因此它很容易生成错误的依赖关系;
b)当忽略了交互的依赖关系,它就很容易只捕获点式的
依赖关系,如图1
(a),一些交互只会受到上一个交互的影响;c)当交互序列较长时,模型的处理能力有限,训练成本也增加。
另外,
CNN放宽了RNN顺序项的超强假设,使模型具有更强的鲁棒性。同时,CNN具有较强的局部信息提取能力以及不同区域间的关系,这些关系可以有效地捕获通常被其他模型忽略的联合级依赖关系,还可以并行处理,减少训练成本,因此,基于CNN的序列推荐系统在一定程度上能弥补基于RNN序列推荐系统的缺点。
在大多数现有的模型直接对有序项表示进行操作,从而受到序列单向链式结构的约束。这样的一个优点是能够保持局部动态的集中。例如,如图1(b)所示,模型允许联合级推荐,
在序列Su
中连续购买手机、
手机壳、耳机可能会导致购买手机膜,但是,上述结构的约束可能无法允许跳过行为。
针对现有序列推荐模型的不足,引入一个简单但有效的成对编码模块来实现不相邻项之间的交互,如图1(c)所示。在
项目序列Su
中,
模型允许跳过行为(例如,购买一辆自行车(Sut
-2)与手机相关产品的上下文环境不太相关)干扰交互项可
2 序列推荐问题定义
顺序模式在构建推荐系统中起着重要的作用,在文献[6,
10]的工作中考虑了序列推荐,预测用户在不久的将来可能与之交互的N项。该问题定义了一组用户u={u1,u2,…,u|u|}以及一组项的集合i={i1,i2,…,i|i|
}。每个用户u都与项目i中的一些项目组成的序列相关联su=(su1,…,su|su|)其中sui∈I,sut的索引t
表示项目交互发生在序列su中的顺序。在给定所有用户的序列su,通过考虑长期偏好和短期偏好,向每个用户推荐其未来可能交互的项目。
3 整体框架
CSALSR可以捕获用户的短期偏好与一般偏好。其中,一般偏好是通过用户与项目交互进行预测,而短期偏好是根据用户交互序列中项目与项目交互进行预测。模型由六个组件组
成:嵌入层、用户增强模块、成对编码、自注意力机制模块、卷积
层和预测层。如图2所示,
对于每个用户u,提取每一组L个连续项作为输入。下一个T项作为用户序列Su
的目标。
3 1 嵌入层
模型的嵌入层,项目嵌入旨在通过从项目上的大量顺序行为中学习项目的相似性来为每一个项目生成统一表示。
序列推荐的先前工作是使用o
ne hot编码来表示项目[11]
。然而,对于大型推荐系统,one hot编码可能花费无法承受的时间,并且由于高度稀疏性导致无法很好地优化。现在序列推荐
模型多采用在自然语言处理(naturallanguageprocessing,NLP)研究中常用的字嵌入技术[12]
来获得用户与项目的特征表示。
如图2第一部分所示,嵌入层将项目集合和用户集合嵌入
到两个矩阵EI∈ |I|×d和Eu∈ |u|×d
,其中d是潜在维数,|I|表示项目的总数,|u|表示用户的总数。ei和eu分别表示EI、Eu中的第i
行和第u行,即分别表示第i个项目和第u个用户的特征向量表示。那么对于用户u在时间步长t处,通过以前
的L项(Sut-L,…,Sut-1)来预测将要交互的T项(Sut,…,Su
+T)如式(1)所示。
(Sut-L,…,Sut-1)→(Sut,…,Su
t+T-1
)(1)
3 2 短期偏好模块
3 2 1 成对编码
该模型采用了一种允许项目之间灵活的成对编码方法[13]。具体来说,根据嵌入层的嵌入矩阵EL
传播与文化产业
(u,t)创建了一个三
向张量TL(u,t)∈ L×L×2d
,其中第(i,j)向量是项目对(i,j)∶[ei;ej]的级联嵌入,其中i,j∈(Sut-L,…,Sut-1
)。与以前的方法[5]将卷积滤波器直接在输入矩阵EL
(u,t)上
工作不同的是,CSALSR将卷积滤波器应用于由此产生的张量TL(u,t)
上,从而可以捕获复杂模式。另外,成对编码的张量在计算机视觉任务的标准CNN模型中具有与图像特征映射相同的形状。因此,通过这种成对编码,可以在上下文中借用和很容易地适用类似CNN的体系结构。3 2 2 自注意力机制模块自注意力机制最先被应用在计算机视觉[14]
。在卷积神经
网络中,卷积核的尺寸都是很有限的(基本上不会大于7
,每次卷积操作只能覆盖局部信息,对于距离较远的特征,就很难捕获到(也不是完全捕获不到,经过多层的卷积操作,卷积核覆盖的区域映射回原始特征图对应的感受野越大)。
针对卷积神经网络卷积操作只能覆盖局部信息,通过直接计算图像中任何两个像素之间的关系,自注意力机制可以一步获得图像的全局特征。自注意力机制已经应用在推荐系统中,文献[15]通过在用户级和项目级分别使用自注意力机制,分别为组中的用户添加不同的注意力,继而得到组表示。
自注意力模块用于建模不同潜在表征对于用户推荐的重要性程度,即注意力不同。自注意力机制模块如图3所示。首
先将三向张量中的图像特征x∈
L×L×2d
转换为两个特征空间·2731·计算机应用研究第38卷
f、g来计算注意力,f(x)=wfx,g(x)=wg
x。βj,i=exp(si,j)∑Ni=1exp(si,j
),si,j=f(xi)Tg(xj
)(2)
其中:βj,i表示模型在第j个区域第i个位置的关注程度。这里,C是通道数,N是来自三向张量TL
(u,t)
的特征位置数目。自
注意力模块的输出为o=(o1,o2,…,oj,…,oN)
。oj=v(∑N
i=1βj,ih(xi)),h(xi)=Whxi,v(xi)=Wvxi
(3)
其中:wg
∈ C1×C,Wf∈ C1×C,Wv∈ C1×C是学习的权重矩阵,为1×1卷积。当C1的信道数减小为C/k时,k=1,2,4,8。为了提高运算效率,本文在所有实验中选择k=8(即C1=
C/8),此外,本文还将注意层的输出乘以一个比例参数,并将输入特征映射添加回来。因此,最后的输出是
yi=rοi+xi
(4)
其中:r是一个可学习的标量,它被初始化为0。引入可学习的r
可以使网络首先依赖于局部信息。
3 2 3 二维卷积层
本文方法利用了CNN在图像识别[14]
中捕获局部特征
和自然语言处理[16]
中的成功表现。在序列推荐中借用CNN的思想,为了捕获项目交互之间的高阶信息,CSALSR在上述
图像特征映射TL
(u,t)
,经过自注意力机制模块将新的特征图提供给2DCNN二维卷积神经网络。2DCNN结构设计如表1所示,其中d是输入项嵌入的维度。使用1×1卷积核丰富特征表示,卷积核大小为3,随着网络的深入,聚合顺序特征并提取更复杂的关系。
表1 2DCNN架构
  每个卷积层之后是批正则化和修正线性单元ReLU(recti
fiedlinearunit
)激活层。在这四个卷积层之后应用一个全连接的dropout层,最终的序列特征向量v(u,t)∈ d
。3 3 一般偏好模块
先前的神经网络序列推荐模型[6]较为注重用户的短期行为,而对用户的一般偏好仅仅通过用户的嵌入表示,对于一般偏好来说,这样的建模方式对用户的偏好表示不够精确。因此,提出用户增强模块(userenhancementmodel,UEM)来建模用户的一般偏好。
a)搜索交互相同项目的用户,即志同道合的用户。这一步对于那些只给出很少项目评价的冷启动用户来说是非常有
用的。选择相似用户的过程如图4所示。假设U
EM的当前输入是用户user和用户的交互序列Su。对于序列(Su
t-L,…,Sut
-1)来说,针对序列中的每一个交互项(如项目i),根据i与所有用户交互的时间先后排序。在用户列表中到当前用户U3在整个顺序中的确切位置(
即时间步骤),寻在此时间步骤之前交互的一个用户,即用户U2。此时的用户U2就是用户
U3关于项目i
的一个相似用户。同理可以到序列中每一个项目对应的相似用户。
b)如图5所示,聚合用户Pu的相似用户嵌入{PSu1
,PS
u2
,PSu3
,PSu4
},将Cu作为嵌入补充特性,合并到用户嵌入Pu
。假设用户u当前的序列长为4,
则通过交互的四个项目{Su1,Su2,Su
3,Su
}分别到每个项目的相似用户,将相似用户嵌入与用户的嵌入合并表示为Puc,Puc
用来表示用户的长期偏好。UEM使用类似注意力的结构来捕捉用户之间的动态关
联。注意力的权重计算如下:
ZSui=exp(PT
uPS
ui
)∑Kk=1exp(PTuPS
uk
)(5)
然后,合并这些用户的特征嵌入,得到补充特征嵌入Cu
如下:
Cu=∑K
k=1
ZSuk
·
PS
uk
(6)
最后,将用户嵌入和补充特征嵌入合并在一起,得到最终
用户u的嵌入,定义如下:
Puc=merge(pu,cu
)(7)
其中:merge(·)是将两个向量组合成一个向量的函数。在该模型中,merge(·)是一个简单的加权向量加法,即
merge(x,y)=x+Ay
(8)
其中:A是一个加权参数,用来表示变量y的重要性,即在本文中是互补特征Cu。3 4 预测层
为了捕获用户的一般偏好与顺序模式,CSALSR将2DCNN层的输出序列向量v(u,t)与长期偏好模块的输出Puc拼接,如式(9)所示。
y(u,t)
=Wv(u,t)P
uc+b(9)
其中:W∈ |I|×2d与b∈ |I|
分别是输出层的权矩阵和偏置项。
预测层如图2(d)所示,将卷积层的输出投影到一个有|I|个节点的预测层,并应用sigmoid函数式(10)生成最终概率如
式(
11)所示。σ(t)=1
1+e
-t
(10)σ(y(u,t))∈ |
I|
(11)
4 网络训练
本文采用了随机梯度下降(SGD)的一种变体—自适应矩
阵估计(Adam),为了更快收敛,批次大小为100。为了控制模型的复杂性,避免过拟合,本文使用了两种正则化方法:对所有
模型参数应用L2正则化和采用50%丢弃率的dropout[17
]技术。采用二元交叉熵损失作为损失函数,如式(12)所示。
-∑u∑t
(log(σ(y(u,t)Sut
)+∑j Su
log(1-σ(y(u,t)
)))(12)
该模型的2DCNN层是由四个卷积层组成。其中用户和
物品的潜在维度D是从{
16,32,64}中选择的,对于MovieLens 1M和Gowalla,本文分别使用50和100,序列长度L为5,同时
·3731·第5期沈学利,等:融合自注意力机制与长短期偏好的序列推荐模型   
预测下一个T=3项。学习率为0.001,批次大小为512,负采
样率为3,dropout率为0.5。所有实验在PyTorch环境中实现。5 实验
5 1 数据集与评价标准
广告的种类
5 1 1 数据集
本文使用MovieLens 1M和Gowalla两个公开数据集验证模型的性能,数据集的详细信息如表2所示。
表2 数据集统计
Tab.2 Statisticsofthedatasets
数据集用户数物品数评分数每个用户
的评分数每个物品
的评分数MovieLens 1M6.0k3.4k1M165.50294.1Gowalla
13.1k
14.0k
533k
40.74
38.1
  a)MovieLens 1M。MoveLens是一个广泛用于评估推荐系统算法的电影评级数据集,包含多个用户对多部电影的评级数
据。在实验中使用M
ovieLens 1M版本。b)Gowalla。来自Gowalla网站的签到数据集,Gowalla是一个基于地理位置的社会交往网站,用于推荐系统。
预测用户是否会观看一部电影或者购买一件商品,有时候比会对电影和商品打多少分更有意义,因此对评分进行处理。
与以前的工作[6]
一样,
本文首先通过将数字评级转换为1来处理数据,并将其转换为隐式反馈(即用户与项目交互),使用时间戳来确定交互顺序,并分别丢弃MovieLens 1M和Gowalla中小于5个操作的用户和小于15个操作的项。本文将80%的数据集作为训练集,其余的20%作为评估模型性能的测试集。
由于用户对这些项目的反馈很少,序列中包含的信息不足,会导致序列推荐效果不够理想,这类项目是另一项研究解决冷启动问题。5 1 2 评价标准
采用基于排名的评价指标衡量模型的top N推荐表现[6]
,包括precision@N、recall@N、均值平均精度(meanaveragepreci
sion,MAP),以上指标越大说明推荐性能越好。其中R^1∶N是指用户预测列表中的前N项,R是指测试集。其中,N∈{1,5,10}。precision@N与recall@N定义如式(13)(14)所示。
precision@N=
|R∩R^1∶N|
|N|(13)recall@N=
|R∩R^1∶N|
|R|
(14)
AP的定义如式(3)所示。
AP=
∑|R^|
N=1
precision@N×recall@N|R^|
(15)
其中:如果|R^|中的N项为R,则recall(N)=1,则平均精度是
所有用户AP的平均值。5 2 推荐
在获得经过训练的神经网络后,为了在时间步骤t上为用户u提供推荐,本文采用u的潜在嵌入矩阵eu并在三向张量
TL
(u,t)
上添加自注意力机制,将自注意力机制的特征图作为2DCNN的输入。将预测层概率y
中概率值最高的N项作为推荐结果。其中,目标项T的数量是在模型训练期间使用的超参数,而N是模型训练后推荐的项目数。
5 3 实验结果分析
5 3 1 整体分析
将本文方法与以下模型进行比较:a)POP。根据项目在系统中的受欢迎程度对其进行排序,并向用户推荐最受欢迎的项目。该推荐方法已经被证明是可
行的,可与一些复杂的个性化算法相媲美[
18]
。b)BPR[19]
。该模型将贝叶斯个性化排名与矩阵分解(MF)模型相结合,分析用户及项目的潜在语义信息,并
以逐对排序方式训练推荐系统,完成推荐。
c)FPMC[10]
。该方法将矩阵分解机和马尔可夫链相结合,用于下一项建议。该方法既捕获了用户项的首选项,又捕获了用户的顺序行为。
d)FMC[10]
。该模型是不包括用户个性化行为的因子化个
性化马尔可夫链(
FPMC)的简化版本。e)GRU4Rec。该模型是文献[7]提出的基于会议的推荐。该模型使用RNN捕获顺序依赖项并进行预测。
f)Caser[6]
。它是一种基于CNN的方法,通过将最近的行为建模为时间和潜在维度之间的图像,并使用垂直卷积与水平卷积来学习序列模式。
g)CosRec[13]
高压变压器。该模型利用二维CNN捕捉序列推荐的高阶关系,将一系列项嵌入编码成对表示,并利用2DCNN提取顺序特征。
对于每一种方法,使用超参数的最优设置。这包括潜在维
度d在{5,10,20,30,50,100}中选择,学习率从{1,10-1
,…,10-4}中选择。对Caser和GRU4Rec,马尔可夫阶数L来自{1,…,9}。对于Caser本身,水平过滤器的高度h来自{1,…,L},激
活函数
a和 c来自{sigmoid,tanh,ReLU}。对于每一高度h,水平过滤器的数目是{4,8,16,32,64}垂直过滤器的数目为{1,2,4,8,16}。在表3中报告了每种方法在其最优超参数设置下的结果。
本文的模型和现有的模型在所有数据集上的性能对比如表3所示。
表3 所有方法在两个数据集的性能比较
Tab.3 Performancecomparisonofallmethodsontwodatasets
dataset
metricPOPBPRFMCFPMCGRU4RecCaserCosRecCSALSRMovieLens
1M
MAP0.06870.09130.09490.10530.14400.15070.18830.1903precision@1
0.12800.14780.17480.20220.25150.25020.33080.3320precision@50.11130.12880.15050.16590.21460.21750.28310.2840precision@100.10110.11930.13170.14600.19160.19910.24930.2531recall@10.00500.00700.01040.01180.01530.01480.02020.0254recall@50.02130.03120.04320.04680.06290.
06320.08430.0875recall@100.03750.05600.07220.07770.10930.11210.14380.1480Gowalla
MAP0.02290.07670.07110.07640.05800.09280.09800.1023precision@10.05170.16400.15320.15550.10500.19610.21350.2210precision@5
0.03620.09830.08760.09360.07210.11290.11900.1229precision@100.02810.07260.06570.06980.07820.05710.08840.0920recall@10.00640.02500.02340.02560.01550.03100.03370.0350recall@50.02570.07430.06480.07220.05290.08450.08900.0930recall@10
0.0402
0.1077
0.0950
0.1059
0.0826
0.1223
0.1305
0.1360
·4731·计算机应用研究第38卷
  分析得出如下结论:
a)在不同方法中,考虑顺序因素的推荐(如FPMC)通常优
于非序列推荐(如B
PR),这表明在推荐中考虑顺序信息的重要性。
b)深度学习模型(Caser/GRU4Rec/CosRec/CSALSR)的方
法通常优于传统序列推荐模型(
FPMC/FMC)。原因是神经网络模型利用非线性方式对用户和物品进行建模,强大的特征提取能力可以捕获到序列中的复杂关系。这是传统序列推荐模型的局限性。同时,神经网络模型可以采用dropout、L2正则化等技术手段来避免模型训练过程过拟合,增强模型的鲁棒性。
c)Caser/CosRec/CSALSR优于FMC/FPMC,因为FPMC模型仅仅对一阶马尔可夫链进行建模,而Cosrec/CSALSR则捕捉到项目间的高阶关系,可以捕捉到复杂关系。同时允许跳过行为可以排除序列中干扰项的影响。
d)CosRec/CSALSR优于Caser,因为Caser仅仅在项目的
嵌入矩阵上建模,卷积滤波器直接在嵌入矩阵EL
(u,t)上工作,而CosRec/CSALSR是将卷积滤波器应用于由此产生的张量TL(u,t)
上,从而可以捕获项目间的复杂关系。
e)本文提出方法(CSALSR)在这两个数据集中都有很大
的提升,这验证了提出模型的有效性。C
SALSR采用自注意力机制与用户增强模块以达到提高序列推荐效果的目的。
f)CSALSR优于CosRec,因为CosRec仅仅利用用户的潜在特征表示对用户的一般偏好,对用户的建模不够充分,而CSALSR通过UEM模块更好地表示用户的一般偏好。5 3 2 潜在维度d对MAP的影响
在MovieLens 1M数据集上,保持其他最优超参数不变,选择不同潜在维度d对MAP的影响,如图6所示,一个更大的d并不一定能带来更好的模型性能。当d被正确地选择时,模型达到了最佳的性能,并且由于过度拟合,较大的d会使模型效
果变差。C
SALSR通过使用相对较少的潜在维度超过最强的
基线性能。
5 3 3 各组件的有效性分析
对于CSALSR的组件(自注意力机制模块、用户增强模块),将所有超参数保持在最佳设置时,对总体性能进行调整。
不同组件在M
ovieLens 1M和Gowalla的结果如表3所示。对于x∈{
u,s,us},CSALSR x表示启用组件x的CSALSR,u表示用户增强模块;s表示自注意力模块。当用户不启用u时,利用用户的嵌入表示代替用户增强模块。
表4 CSALSR组件的MAPTab.4 MAPofCSALSRcomponents
CSALSR组件MovieLens 1MGowallaCSALSR 0.18830.0980CSALSR u0.18900.0996CSALSR s0.18960.1010CSALSR us
0.1903
0.1023
  从表中可以看出,当应用自注意力机制时,与不采用自注
意力相比,序列推荐的预测的性能得到改善。自注意力机制可以进行更精确的预测,从而验证了该模块的有效性。同时,应用用户增强模块可以看出提升模型的性能,验证了用户增强模
块可以更好地表示用户的长期偏好。当联合用户增强模块与
自注意力机制模块时可以得到最好的结果。5 3 4 模型效率分析
在实际应用中,不仅要考虑模型的推荐性能,还要考虑推
荐效率。在M
ovieLens 1M与Gowalla两个数据集下分析模型训练所需的时间,整体训练时间采用迭代3
0次的结果,如表5所示。Caser/CosRec/CSALSR训练所需的时间相对于GRU4Rec更少,这是由于基于CNN的模型卷积并行处理的机制,极大地加快了训练效率。CosRec/CSALSR相对于Caser训
灵通英语第一册练时间更长,原因在于Caser直接在嵌入矩阵EL
(u,t)上进行卷
积,而CosRec/CSALSR是在由嵌入矩阵创建的三向张量TL
(u,t)
上进行卷积,能够提取项目间更深层次的关系,极大地提升了推荐效果,但同时影响了模型的训练效率。CSALSR相对于CosRec增加了自注意力机制与用户增强模块,以较低的训练效率为代价进一步增加了推荐效果。
表5 整体训练时间Tab.5 Overalltrainingtime
/s
6 结束语
本文提出一种融合自注意力机制与长短期偏好的序列推
荐模型(CSALSR),这是解决序列推荐问题的一种新方案,通过对最近的行为建模,并用卷积神经网络提取短期序列特征,同时考虑用户的一般偏好,两者相互结合更好地解决了序列推荐的问题。在两个现实生活数据集的实验表明,CSALSR在序列推荐方面的性能优于最先进的方法,提高了序列推荐方法的性能。在今后的研究中考虑用户与项目的多属性信息,以及社交关系对推荐结果的影响。参考文献:
[1]PanRong,ZhouYunhong,CaoBin.One classcollaborativefiltering
[C]//Procofthe8thIEEEInternationalConferenceonDataMining.
Piscataway
,NJ:IEEEPress,2008:502 511.[2]HuYifan,KorenY,VolinskyC.Collaborativefilteringforimplicit
feedbackdatasets[C]//Procofthe8thIEEEInternationalConferenceonDataMining.Piscataway,NJ:IEEEPress,2008:263 272.[3]孟祥武,刘树栋,张玉洁,等.社会化推荐系统研究[J].软件学报,
2015,26(6):1356 1372.(MengXiangwu,LiuShudong,ZhangYu jie,etal.Researchonsocialrecommendersystems[J].JournalofSoftware,2015,26(6):1356 1372.)[4]桂忠艳,张艳明,李巍巍.基于行为序列分析的学习资源推荐算法
研究[J].计算机应用研究,2020,37(7):1979 1982.(GuiZhong
yan,ZhangYanming,LiWeiwei.Researchonlearningresourcere commendationalgorithmbasedonbehaviorsequenceanalysis[J].Appli cationResearchofComputers,2020,37(7):1979 1982.)[5]ChenXu,XuHongteng,ZhangYongfeng.Sequentialrecommenda
tionwithusermemorynetworks
[C]//Procofthe11thACMInterna tionalConferenceonWebSearchandDataMining.NewYork:ACMPress,2018:108 116.[6]TangJiaxi,WangKe.Personalizedtop Nsequentialrecommendation
viaconvolutionalsequenceembedding
[C]//Procofthe11thACMInternationalConferenceonWebSearchandDataMining.NewYork:ACMPress,2018:565 573.[7]HidasiB,KaratzoglouA,BaltrunasL,etal.Session basedrecom
mendationswithrecurrentneuralnetworks[EB/OL].(2016)[2020 06 21].https://arxiv.org/abs/1511.06939.[8]WuChaoyuan,AhmedA,BeutelA.Recurrentrecommendernet
works[C]//Procofthe10thACMInternationalConferenceonWeb
SearchandDataMining.NewYork
:ACMPress,2017:495 503.(下转第1380页)
·5731·第5期沈学利,等:融合自注意力机制与长短期偏好的序列推荐模型   

本文发布于:2024-09-21 15:26:31,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/471935.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:用户   推荐   序列   模型   项目   注意力
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议