一种基于评论文本的组推荐方法

著录项
  • CN202010515465.6
  • 20200609
  • CN111666496A
  • 20200915
  • 中森云链(成都)科技有限责任公司
  • G06F16/9535
  • G06F16/9535 G06K9/62 G06N3/04 G06N3/08

  • 四川省成都市高新区益州大道北段366号1栋19层
  • 四川(51)
摘要
本发明属于计算机技术推荐方法领域,涉及一种基于评论文本的组推荐方法。针对组推荐系统中存在的数据稀疏和冷启动问题,本文通过利用评论文本中包含的丰富的信息,来挖掘组用户的隐式偏好和物品的潜在特征表达,可以提高组推荐系统的推荐准确率。在本发明中,我们通过使用卷积神经网络来学习挖掘组和物品间的高阶非线性特征。另一方面,我们注意到组成员内不同用户对组决策结果的影响是不同的。因此,我们通过使用注意力机制来动态挖掘组内用户的影响力权重,重构组的特征表达,使组内所有用户最大程度上满意组推荐结果。
权利要求

1.本发明开发了一种用于小组的推荐方法,随着大数据时代的高速发展,推荐系统已广泛的使用到我们生活的各个领域,推荐系统可以有效的帮助用户过滤不相关的信息,到自己感兴趣的信息,而且通过使用推荐系统可以分析和挖掘用户和物品的相关信息,提高信息的利用率,相对于传统个性化推荐系统主要针对单个用户进行推荐,随着社交网络的盛行和普及,旨在对多个用户形成的小组进行推荐的组推荐系统已成为当前研究的热点之一,例如,一个团体一起去旅行、一少年一起参加聚会活动、一研究者一起研究论文等,基于个性化推荐和组推荐的差异性,传统的个性化推荐方法不能有效地应用于组推荐中,因此,本发明的研究方向在于如何有效的提高组推荐系统的推荐性能,现有的组推荐系统主要存在以下三大缺点:①现有的组推荐系统中仍存在数据稀疏和冷启动问题,如何有效缓解组推荐系统中存在的数据稀疏问题是当前研究的难点之一;②现有的组推荐模型无法捕获组和物品间高阶非线性特征;③目前,组推荐系统的研究中主要通过预定义或概率模型来计算组内成员影响力权重,而缺乏有效的方法来动态捕捉组内成员的影响力,根据以上缺点本发明提出的解决方法是:①在现实生活中,少量的评论可以告诉我们关于用户或项目的更多信息,并且当评论和评分数量相同时使用评论比使用评分收集到的信息更多,本发明通过采集评论文本中的隐含信息来缓解数据稀疏问题;②本发明通过使用卷积神经网络来学习挖掘组和物品间的高阶非线性特征,提高组推荐系统的推荐准确率;③本发明提出使用注意力机制从用户和项目的评论信息中动态捕获组用户的影响力权重;为了给小组推荐一个合适的物品列表,本发明进行推荐过程主要为:聚类分组、提取组的方面偏好表达、提取物品的方面特征表达、高阶非线性特征的学习,

其中高阶非线性特征的学习过程主要通过使用一个卷积神经网络来学习,本发明中使用了两个LDA主题模型来分别学习:用户方面偏好表达和物品方面特征表达。

2.根据权利要求1所述的一种基于评论文本的组推荐方法,其步骤包括:

a.采集用户历史评论数据,进行数据预处理:由于本发明中采集的数据集中的评论文本信息为英文评论,本发明中使用的数据预处理方法主要包括:删除停用词、删除空格、删除标点符号和一些特殊字符、词干提取、词形还原、大小写的替换、拼写检查更正等;

b.提取方面信息:本发明通过使用LDA主题模型来提取评论数据中的方面信息,数据集中包括用户评论数据集和物品评论数据集,用户评论数据集中的每一条代表某个用户对所有项目的评论文本的集合,物品评论数据集中的每一条代表所有用户对某个项目的评论文本的集合;

b1.提取用户的方面偏好表达:pu代表用户u的方面偏好表达

b2.提取物品的方面特征表达:qi代表物品i的方面特征表达

b3.本发明通过利用图2和图3两个LDA主题模型来分别获取用户的偏好特征表达和所有项目的方面特征表达,在使用LDA主题模型提取主题特征时,本发明将定义用户和项目都包含k个主题,因此本发明中,获得用户方面偏好矩阵为m×k阶、物品的方面特征矩阵为n×k阶;

c.聚类分组:根据已有的组推荐系统研究可以发现,当用户与组中的成员越相似时,组推荐的效果也就越好,因此,本发明进行分组时考虑的就是将具有较高相似性的用户分到同一组,最普遍的分组方法就是根据用户常用的物品来估算用户与用户之间的相似性,然后进行分组,本发明采用了K-means聚类算法进行聚类分组,K-means聚类算法的输入为用户方面偏好矩阵,输出为用户分组信息,本发明中定义的分组数为K个小组;

d.提取组的方面偏好表达:考虑到小组决策是组用户之间动态相互作用的过程,并且组中的每个成员都可以对最终的决策结果做出贡献,本发明使用注意力机制来动态挖掘组用户的影响力权重,从而调整组的方面偏好表达;

其中,pu代表用户u的方面偏好表达;qi代表物品i的方面特征表达;v,W都是注意力网络的权值;b为注意力网络的偏置;φf为注意力网络的激活函数;ηui为归一化后的组用户u对物品i的注意力权重;代表小组g对物品i的方面偏好表达;

e.高阶非线性特征的学习:本发明采用卷积神经网络来学习组和物品间的高阶非线性特征,卷积神经网络的输入为组和物品的特征交互矩阵,输出为组对物品的预测评分;

本发明中定义卷积神经网络的输入矩阵为,卷积隐藏层的个数为h,则第i层的卷积特征表示如下所示:

其中,K'为卷积核;*为卷积操作;b'i为第i层的偏置项;Ei为第i个卷积隐藏层的输出;φf为激活函数;

第h层卷积特征为Eh,然后经过全连接层得到向量x,那么预测层的输出为:

其中,w表示输出层的网络参数。

3.根据权利要求1所述的基于评论文本的组推荐方法,其特征在于:所述评估推荐模型的好坏用MAE和RMSE表示,其计算公式如下:

其中n'为测试集中物品个数,为用户u所属的小组g对物品i的预测评分,yui为测试集中用户u对项目i的真实评分。

说明书
技术领域

本发明属于计算机技术推荐方法领域,涉及一种评论文本的组推荐方法。

现有的组推荐研究工作提出了两个假设:其一,组的决策行为依赖于组内的每个成员,但是各组成员对决策行为的影响力存在一定程度上的差异;其二,用户作为单独的个体和在用户体环境中的决策行为可能会不同。针对第一个假设,生活中存在诸多例子。比如,通过某社交平台结识的组用户 {Bob,Cruise,Louis}计划结伴出游,用户Bob曾经前往欧洲一些国家进行旅行,Cruise曾经前往非洲进行旅行,而Louis以往则更多地尝试国内旅游景点的旅行。因此该组在决定是否选择国内的景点作为旅游目的地时,相对于Bob 和Cruise,Louis对组的决策行为的影响力更大,因为历史上他有过国内旅行的经历,这会帮助他们在考虑是否选择国内景点的决策上更加专业。另外一个生活实例可以验证假设二的合理性,比如在出行方面,单独出行时我们可能会选择共享单车或公共交通,而多人结伴出行时我们可能会选择更加适合团队出行的方式。

近年来,推荐系统逐渐成为人们在海量数据中发现有价值信息的重要工具.在目前的研究中,大部分的推荐算法是针对单独用户设计的,实际中还有很多应用是针对多人进行推荐,例如,针对多人的电视节目推荐或者旅游地点推荐.在这些情景下,根据适合单独用户的推荐算法无法给多人产生满意的推荐结果,因为一个用户满意的推荐结果对其他人来说很可能不是太好的选择.因此,如何选择推荐内容使组内每个组员都满意或者接受是面向组的推荐算法需要解决的主要难题.

根据组推荐过程中偏好融合的时机,偏好融合方法可以分为模型融合和推荐融合。模型融合方法根据组成员的用户偏好模型融合生成组偏好模型,然后基于组偏好模型生成组推荐;推荐融合方法先利用传统推荐算法对每个组成员生成推荐,然后将所有组成员的推荐结果融合得到组推荐结果。本发明提出的算法属于模型融合。

在传统的面向单个用户的个性化推荐系统中,已经存在一些研究工作提出了基于神经网络的推荐模型。基于神经网络的推荐模型可以在一定程度上弥补传统的矩阵分解模型以及因子分解机模型在表征学习能力方面存在的不足。所以,本发明的主要工作是将深度神经网络模型用于组推荐,提升组推荐的质量。

为了解决现有技术存在的问题,本发明提出了一种新颖的基于深度神经网络的组推荐,该模型使用了卷积神经网络来学习组和物品间高阶非线性关系,并提出了使用注意力机制动态捕捉用户在组中的影响力权重。该模型的主要思想是从历史的评论文本数据中挖掘组内成员的影响力差异,从而动态地构建组的表达,并借助卷积神经网络的表征学习能力自动地学习高阶非线性特征,以此提升组推荐模型的推荐性能。

为实现本发明的目的,本发明的方面信息是通过文本主题模型LDA获取的,并且本发明考虑到当用户与组中的成员越相似时,组推荐的效果也就越好。因此,本发明进行分组时将具有较高相似性的用户分到同一组。本发明将获取的每个小组的组用户方面偏好表达和物品方面特征表达中的每一送到注意力机制中构建组表达,然后将组表达和物品方面特征表达送到卷积神经网络中进行评分预测,再根据预测评分为组推荐喜欢的物品。本发明的组推荐包括以下步骤:

a.从互联网中采集需要用到的数据集,并对数据集进行预处理,生成用户行为数据存放到用户行为信息数据库。

b.提取方面信息:本发明通过使用LDA主题模型来提取评论数据中的方面信息。使用文本主题模型LDA从评论数据集中获取各个主题以及每个主题的主题词。每个主题代表一个方面。在本发明中一共有k个方面。数据集中包括用户评论数据集和物品评论数据集。用户评论数据集中的每一条代表某个用户对所有项目的评论文本的集合。物品评论数据集中的每一条代表所有用户对某个项目的评论文本的集合。

c.本发明中的数据集是未分组的数据集,此时我们需要通过未分组的用户进行分组,在分组过程中我们有以下实施方式:

c1.考虑到组规模会对组推荐产生影响,我们可以对未分组的用户分取不同规模大小的组然后根据实验对比获取最佳规模的组。

c2.考虑到组内相似性对组推荐的影响,我们可以通过分取高相似度的组、低相似度的组和随机组三个分组模式对用户进行分组人后分、根据实验结果的对比获取最佳相似度的组。

c3.本发明中我们可以预定义组大小,然后根据k-mean聚类算法对未分组的用户进行聚类分组,然后将分组信息存储到数据库中。

d.考虑到小组决策是组用户之间动态相互作用的过程,并且组中的每个成员都可以对最终的决策结果做出贡献。本发明使用注意力机制来动态挖掘组用户的影响力权重,从而调整组的方面偏好表达。

其中,pu代表用户u的方面偏好表达;qi代表物品i的方面特征表达;v,W都是注意力网络的权值;b为注意力网络的偏置;φf为注意力网络的激活函数;ηui为归一化后的组用户u对物品i的注意力权重;代表小组g对物品i的方面偏好表达。

e.本发明学习组和物品间的非线性特征的方案有以下几种:

e1.将组的方面偏好表达和物品的方面特征表达进行全连接送到多层神经网络中学习组和物品间的非线性特征

e2.将组的方面偏好表达和物品的方面特征表达进行点集送到多层神经网络中学习组和物品间的非线性特征

e3.将组的方面偏好表达、物品的方面特征表达、组的方面偏好表达和物品的方面特征表达点集后的特征向量,三者拼接送到多层神经网络中学习组和物品间的非线性特征

e4.将组的方面偏好表达和物品的方面特征表达进行外积得到的特征矩阵送到卷积神经网络来学习组和物品间的高阶非线性特征。卷积神经网络的输入为组和物品的特征交互矩阵,输出为组对物品的预测等级。

本发明中定义卷积神经网络的输入矩阵为,卷积隐藏层的个数为h,则第i层的卷积特征表示如下所示:

其中,K'为卷积核;*为卷积操作;bi'为第i层的偏置项;Ei为第i个卷积隐藏层的输出;φf为激活函数;

第h层卷积特征为Eh,然后经过全连接层得到向量x,那么预测层的输出为:

其中,w表示输出层的网络参数。

f.通过获取的组预测评分矩阵,为小组推荐满意的商品。

g.本章发明的主要目的是为小组对目标项目进行评分预测,我们希望模型预测的评分最接近训练集中的真实评分,是模型的损失最小。

其中,为用户u所属的小组g对物品i的预测评分,ygi为测试集中小组g对项目i的真实评分。

其中,yui为用户u对项目i的真实评分,|g|为小组g中成员总个数。

i.本发明中所述评估推荐模型的好坏的评价指标为:MAE和RMSE

i1.平均绝对误差(MAE):绝对误差的平均值,用来度量真实评分和预测评分间的平均绝对偏差,MAE越小,准确度越高。

i2.均方根误差(RMSE):类似于MAE,用来度量真实评分与预测评分之间偏差。RMSE的值真实评分与预测评分之间的误差越小,预测越准确

其中n'为测试集中物品个数,为用户u所属的小组g对物品i的预测评分, yui为测试集中用户u对项目i的真实评分。

图1为本发明的模型示意图,图2为用户主题特征提取流程,图3为物品主题特征提取流程。

下面结合附图,详细描述本发明的技术方案:

a.从互联网中采集需要用到的数据集,获取用户历史评论集,生成组:据我们所知,现有的数据集要么只有个体用户的评论和评分信息,要么组的成员信息和组的频分信息,缺乏我们所需要的数据集。因此我们可以先获取只有个体用户的评论信息的数据集,并对数据集进行预处理,生成用户行为数据存放到用户行为信息数据库。

b.本发明中我们预定义组大小,然后根据k-mean聚类算法对未分组的用户进行聚类分组,然后将分组信息存储到数据库中。

c.方面信的息提取:通过使用现有的文本主题模型,如LDA;获取评论数据集的各个主题以及每个主题的主题词。在本发明中我们定义了两种度量指标:用户方面偏好和物品方面质量,来分别衡量用户对物品特定方面的偏好和物品特定方面的评论感情。

d.组员影响力:根据组员分组信息和用户方面偏好,通过利用注意力机制从历史的交互评论数据中捕捉用户的影响力差异,获取的组成员影响力。

e.利用步骤d中获取的组成员影响力,重新构建组的方面偏好表达。

f.将组的方面偏好表达和物品的方面特征表达进行外积得到的特征矩阵送到卷积神经网络来学习组和物品间的高阶非线性特征。卷积神经网络的输入为组和物品的特征交互矩阵,输出为组对物品的预测评分。

本文发布于:2024-09-24 10:26:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/73051.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议