一种基于逻辑回归的文献推荐系统的排序方法与流程



1.本发明涉及个性化推荐技术领域,尤其涉及一种基于逻辑回归的文献推荐系统的排序方法。


背景技术:



2.从知识服务平台上阅读、下载文献是各大学术研究人员获取知识的重要途径。知识服务平台上有海量的文献,这些数据具有丰富的发掘价值和预测潜力;但面对大量的文献,用户筛选出匹配的信息所花费的成本更高了。应用数据挖掘技术发掘文献特征和用户兴趣特点,使用机器学习技术推荐文献,能快速从纷繁复杂的文献中获取有效的信息,让用户在搜索和分类结果之外发现更感兴趣、更个性化的文献补充。通过系统引导用户发现信息,让用户发现一些新颖和令人惊喜的内容;靠知识内容留人,提升用户粘性;合理利用流量,提升平台收益。
3.现有知识服务平台上的文献推荐打分策略,特征简单,过于依靠人工策略,缺少数学依据。而深度学习模型虽然在较多领域效果显著,但需新增过多的工程设计和代码,才能上线部署,还会增加较多线上延时,无法迅速迭代。逻辑回归模型结构简单,采用梯度下降的方式寻求最优解,效果显著并且训练和工程开销小。


技术实现要素:



4.为解决上述技术问题,本发明的目的是提供一种基于逻辑回归的文献推荐系统的排序方法。
5.本发明的目的通过以下的技术方案来实现:
6.一种基于逻辑回归的文献推荐系统的排序方法,包括:
7.步骤a分析推荐应用场景,确立学习目标;
8.步骤b分析用户日志分布,试验并确定采样方案;
9.步骤c获取特征数据,构建特征数据集合;
10.步骤d分析文献侧、机构侧、作者侧以及交互特征,进行特征筛选;
11.步骤e将文献推荐作为分类问题,采用逻辑回归模型训练;
12.步骤f 划分同等流量,将训练好的模型进行线上评估。
13.与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
14.1、对文献信息和用户行为进行详细地特征相关性分析,构建能提升文献推荐效果的有效特征。
15.2、采用文献侧、学者侧、机构侧以及上下文等多个维度数据,构建丰富的特征体系;采用实时画像,及时捕捉用户偏好。更能代表用户兴趣,使得推荐列表更准确。
16.3、将逻辑回归用于文献推荐系统,模型简单并且训练开销小,易于工程化和并行化,能迅速迭代并获得线上效果。
附图说明
17.图1是基于逻辑回归的文献推荐系统的排序方法流程图;
18.图2是基于逻辑回归的文献推荐系统的排序方法示意图;
19.图3是部分特征相关性分析示例图;
20.图4是逻辑回归模型的计算逻辑图。
具体实施方式
21.为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
22.如图1所示,为基于逻辑回归的文献推荐系统的排序方法,包括:
23.1)分析推荐应用场景,确立学习目标
24.用户在使用学术类数字资源平台时,对于曝光的文献列表中感兴趣的内容,可能产生点击、下载、收藏和关注等行为。在平台上下载文献会带来一定的经济收益,而现在的页面设计,下载行为是基于点击行为的,用户产生点击后才会下载,当点击量提升后下载量才有提升的可能;另外下载行为非常稀疏,数据噪声大,容易过拟合。因此将点击行为作为正样本,仅曝光的文献作为负样本,使用模型拟合点击率。
25.2)分析用户日志分布,实验并确定采样方案
26.获取用户行为日志并清洗,分析样本数据分布。从推荐日志中直接获取的数据,用户的点击文献数量相比于曝光给用户的文献数量是较为稀疏的,导致正负样本比例失衡,正样本数量过少,很容易导致模型过拟合,利用失衡的数据训练即便离线评估表现优异,但上线后实际效果并不理想。所以在采样获取训练样本时,正样本全部保留,负样本只取有点击行为的用户产生的曝光数据,舍弃无点击行为用户的所有行为日志数据。
27.3)获取文献、机构、作者以及用户数据,构建特征数据集合
28.文献数据包含文献发表时间、下载量、被引量、相关度、影响因子等信息;机构数据包含机构专业领域、发文量、下载量(排名)、被引量(排名)、项目数量、科研人员数量等信息;作者数据包含作者发文总量、核心期刊发文量、被引量、h指数、g指数等信息;用户数据包含兴趣爱好等基本信息以及操作文献、操作时间等行为日志信息;构建特征数据集合包括:对文献、机构、作者、用户基本信息建模得到单边特征,对用户行为日志建模得到双边特征。
29.数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近这个上限而已,所以丰富的特征在排序系统中至关重要。获取丰富的特征数据的步骤如下:
30.第一步获取文献侧特征
31.文献侧特征包含基础特征、统计特征和类别特征。文献基础特征包含发表时间、下载量、被引量、相关度、影响因子等,统计特征包含一段时间内推荐侧(推荐系统中文献)的浏览率、下载率、收藏率等,类别特征包含文献类型、行业类型、学科类型等。
32.第二步获取学者侧和机构侧特征
33.学者侧特征包含发文总量、核心期刊论文数、被引量、作者指数等属性。通过将文献的第一作者与学者库中的相应字段关联,获取学者侧多个特征。机构侧特征包含各专业领域发文量、下载量(排名)、被引量(排名)、项目数量、科研人员数量等属性。通过将文献所
属的机构和学科类型,与机构库中的相应字段关联,获取机构侧各专业领域的多个属性;一篇文献属于多个机构的多个学科时,取第一个机构,机构下各个学科的属性平均值,作为特征。例如:文献i属于d1、d2两所机构,同时文献i又是s1、s2两个学科相关的文献,第一个机构d1中学科s1和学科s2对应的下载量分别是n1和n2,则取(n1+n2)/2作为机构下载量特征值。
34.第三步获取交互类特征
35.用户和文献的交互类特征是最能反映用户个性化的特征,包含用户对行业、学科、期刊、文献的偏好。基于多个时间窗口构建用户和文献交互类特征,例如构造用户近三个月浏览是否核心期刊的交互特征的步骤为:首先,获取用户近三个月浏览核心期刊的次数和非核心期刊的次数,如果浏览核心刊的数量大于浏览非核心刊,则认为用户对核心刊更感兴趣,将用户对核心刊的偏好存入用户画像中;其次,对于召回集合中的文献,是核心刊则该特征为1,是非核心刊则为0,非期刊文献则为缺失值。当窗口较小时、用户重复率低时,效果不明显;采用最近三个月的偏好,效果较好。说明在一定时间范围内,用户兴趣累积越丰富推荐依据越强效果越好。当然最近一周、一个月等的偏好也会被考虑在内作为近期或长期偏好特征,由模型学习这些偏好的重要程度生成模型参数。
36.处理获取到的特征,包含数值特征的归一化,例如将下载量、被引量等归一化到0-1之间;分类特征的编码,例如将是否核心期刊等进行哑编码;以及缺失值填充,例如用0填充缺失数据等。将以上处理后的特征构建为特征数据集合,作为特征分析和构建训练数据的基础。
37.4)分析文献侧、机构侧、作者侧以及交互特征,进行特征筛选
38.特征的相关性分析是为了获取更好训练数据特征的一种典型方法。首先对收集到的三类特征数据进行预处理,主要是去除异常值、去除远离数据分布的噪声数据等;其次,对于连续性特征,例如下载量、被引量等连续数值数据,计算特征与正负样本标签之间的皮尔逊相关系数,目的是问了通过相关系数值,分析特征与拟合目标之间的相关性;结果如图3所示,是部分数值特征相关性分析示例图,例如更新时间、下载量、被引量、相关度等相关性高的特征保留作为排序特征进行训练。
39.两个变量x、y之间的皮尔逊相关系数为两个变量之间的协方差和标准差的商,公式如下:
[0040][0041]
通过估算实际特征和标签样本的协方差和标准差,可得到样本的相关系数,上式可以表示如下。其中n为样本量,和分别为特征样本和标签样本的均值,分子为两个样本的协方差,分母为样本标准差的乘积。
[0042][0043]
对于无序分类特征,例如文献类型、行业类型、兴趣词等类别数据,采用卡方检验
reciprocal rank)进行评估。计算公式为:
[0057]
auc=p(p
正样本
>p
负样本
)
[0058][0059]
auc表示分类器对随机抽出的样本,预测得到正样本的概率大于负样本概率的概率。mrr中n表示推荐文献个数,ranki表示用户真实点击文献的位置。
[0060]
线上评估采用小流量实验的方式,将用户公平的哈希分为多组流量,一部分流量作为实验组,划分同等的流量作为对照组,通过两组实验的人均点击率和人均转化率等指标评价模型好坏。当离线评估有提升时,上线小流量实验。2021年底在个人知网网页推荐平台,相同特征情况下,使用逻辑回归模型的人均点击率,相对于原排序方法显著提升大于30%。
[0061]
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

技术特征:


1.一种基于逻辑回归的文献推荐系统的排序方法,其特征在于,包括以下步骤:步骤a分析推荐应用场景,确立学习目标;步骤b分析用户日志分布,试验并确定采样方案;步骤c获取特征数据,构建特征数据集合;步骤d分析文献侧、机构侧、作者侧以及交互特征,进行特征筛选;步骤e将文献推荐作为分类问题,采用逻辑回归模型训练;步骤f划分同等流量,将训练好的模型进行线上评估。2.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述步骤b包括:获取用户行为日志并清洗,分析样本数据分布;在采样获取训练样本时,采用有点击行为用户的相关数据,包括所有曝光文献数据和用户行为日志。3.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述步骤c中特征数据包括文献侧、机构侧、作者侧及用户数据;其中,文献侧包含文献发表时间、下载量、被引量、相关度、影响因子;机构侧包含机构专业领域、发文量、下载量、被引量、项目数量、科研人员数量;作者侧包含作者发文总量、核心期刊发文量、被引量、h指数、g指数;用户数据信息包含兴趣爱好以及操作文献、操作时间;构建特征数据集合是指对文献、机构、作者、用户基本信息建模得到单边特征,对用户行为日志建模得到双边特征。4.如权利要求3所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,获取特征数据的步骤包括:c1获取文献侧特征;c2获取学者侧和机构侧特征;c3基于多个时间窗口构建用户和文献交互类特征。5.如权利要求2所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述c1中:文献侧特征包含基础特征、统计特征和类别特征,其中,文献基础特征包含发表时间、下载量、被引量、相关度、影响因子;统计特征包含一段时间内推荐侧的浏览率、下载率、收藏率;类别特征包含文献类型、行业类型、学科类型。6.如权利要求2所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述c2中:通过将文献的第一作者与学者库中的相应字段关联,获取学者侧多个特征,学者侧特征包含发文总量、核心期刊论文数、被引量、作者指数;通过将文献所属的机构和学科类型,与机构侧中的相应字段关联,获取机构侧各专业领域的多个特征;机构侧特征包含各专业领域发文量、下载量被引量、项目数量、科研人员数量。7.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述d包括:对收集到的三类特征数据进行预处理,包括去除异常值、去除远离数据分布的噪声数据;所述三类特征数据包括文献侧特征数据、机构侧特征数据和作者侧特征数据;对于连续性特征,计算特征向量与正负样本标签向量之间的皮尔逊相关参数,分析特
征与拟合目标之间的相关性。8.如权利要求6所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,特征向量x和标签向量y之间的皮尔逊相关系数为两个变量之间的协方差和标准差的商,计算公式为:通过估算实际特征和标签样本的协方差和标准差,可得到样本的相关系数,上式可以表示如下,其中n为样本量,和分别为特征样本和标签样本的均值,分子为两个样本的协方差,分母为样本标准差的乘积:对无序分类特征,该分类特征包括文献类型、行业类型、兴趣词类别数据采用卡方检验方法;通过卡方检验方法计算分类特征样本和标签样本之间的相关性,统计量计算公式如下:其中,r为分类的个数,核心期刊特征r;m
i
为实验出现的次数,即每种分类实际观测的点击频数,n
i
为每种分类的样本量,n
i
p为根据理论概率值计算出来的点击次数,即期望点击频数,p可以由样本整体点击率计算得到;假设h0:特征与点击行为之间无相关性;当χ2值过大,就认为原假设h0不为真;给定显著水平α=0.05,当χ2大于时,拒绝原假设,认为特征与标签具有相关性。9.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述e具体包括:e1将处理好的特征向量(x1,x2,...,x
n
)输入逻辑回归模型,其中x
i
为特征值;通过乘以不同的权重(w1,w2,...,w
n
),来表示各特征的重要性程度,对各特征加权求和后,输入sigmoid函数,得到用户点击物品的概率:e2确定逻辑回归的优化目标,引入损失函数去评价模型的好坏;根据梯度下降算法到损失函数的最小值,损失函数取得最小时的权重w即为需要的函数;e3对于候选文献集,经过逻辑回归的推断,得到预测的点击概率p,利用概率值进行排序,得到文献推荐列表,对于特征x、权重w和正负样本标签y,预测的点击概率可以表示为:p(y|x;w)=(f
w
(x))
y
(1-f
w
(x))
1-y
。10.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法,其特征在于,所述f包括:将训练好的模型进行评估,通过离线测试采用roc曲线下面积auc和平均倒数秩mrr进行评估;计算公式为:
auc=p(p
正样本
>p
负样本
)auc表示分类器对随机抽出的样本,预测得到正样本的概率大于负样本概率的概率;mrr中n表示推荐文献个数,rank
i
表示用户真实点击文献的位置。

技术总结


本发明公开了一种基于逻辑回归的文献推荐系统的排序方法,包括分析推荐应用场景,确立学习目标;分析用户日志分布,试验并确定采样方案;获取特征数据,构建特征数据集合;分析文献侧、机构侧、作者侧以及交互特征,进行特征筛选;将文献推荐作为分类问题,采用逻辑回归模型训练;划分同等流量,将训练好的模型进行线上评估。本发明能够利用文献、用户、上下文等多种不同特征,通过预测正样本的概率对文献进行个性化排序;具有可解释性强和数学含义支撑,效果显著并且训练和工程开销小等优点,是一种投入小、见效快的方案。见效快的方案。见效快的方案。


技术研发人员:

张良 江程 肖银涛

受保护的技术使用者:

同方知网数字出版技术股份有限公司

技术研发日:

2022.11.29

技术公布日:

2023/2/23

本文发布于:2024-09-20 15:26:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/59036.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   文献   样本   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议