一种基于逻辑回归的文献推荐系统的排序方法与流程

1.本发明涉及个性化推荐技术领域，尤其涉及一种基于逻辑回归的文献推荐系统的排序方法。

背景技术：

2.从知识服务平台上阅读、下载文献是各大学术研究人员获取知识的重要途径。知识服务平台上有海量的文献，这些数据具有丰富的发掘价值和预测潜力；但面对大量的文献，用户筛选出匹配的信息所花费的成本更高了。应用数据挖掘技术发掘文献特征和用户兴趣特点，使用机器学习技术推荐文献，能快速从纷繁复杂的文献中获取有效的信息，让用户在搜索和分类结果之外发现更感兴趣、更个性化的文献补充。通过系统引导用户发现信息，让用户发现一些新颖和令人惊喜的内容；靠知识内容留人，提升用户粘性；合理利用流量，提升平台收益。
3.现有知识服务平台上的文献推荐打分策略，特征简单，过于依靠人工策略，缺少数学依据。而深度学习模型虽然在较多领域效果显著，但需新增过多的工程设计和代码，才能上线部署，还会增加较多线上延时，无法迅速迭代。逻辑回归模型结构简单，采用梯度下降的方式寻求最优解，效果显著并且训练和工程开销小。

技术实现要素：

4.为解决上述技术问题，本发明的目的是提供一种基于逻辑回归的文献推荐系统的排序方法。
5.本发明的目的通过以下的技术方案来实现：
6.一种基于逻辑回归的文献推荐系统的排序方法，包括：
7.步骤a分析推荐应用场景，确立学习目标；
8.步骤b分析用户日志分布，试验并确定采样方案；
9.步骤c获取特征数据，构建特征数据集合；
10.步骤d分析文献侧、机构侧、作者侧以及交互特征，进行特征筛选；
11.步骤e将文献推荐作为分类问题，采用逻辑回归模型训练；
12.步骤f 划分同等流量，将训练好的模型进行线上评估。
13.与现有技术相比，本发明的一个或多个实施例可以具有如下优点：
14.1、对文献信息和用户行为进行详细地特征相关性分析，构建能提升文献推荐效果的有效特征。
15.2、采用文献侧、学者侧、机构侧以及上下文等多个维度数据，构建丰富的特征体系；采用实时画像，及时捕捉用户偏好。更能代表用户兴趣，使得推荐列表更准确。
16.3、将逻辑回归用于文献推荐系统，模型简单并且训练开销小，易于工程化和并行化，能迅速迭代并获得线上效果。
附图说明
17.图1是基于逻辑回归的文献推荐系统的排序方法流程图；
18.图2是基于逻辑回归的文献推荐系统的排序方法示意图；
19.图3是部分特征相关性分析示例图；
20.图4是逻辑回归模型的计算逻辑图。
具体实施方式
21.为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。
22.如图1所示，为基于逻辑回归的文献推荐系统的排序方法，包括：
23.1)分析推荐应用场景，确立学习目标
24.用户在使用学术类数字资源平台时，对于曝光的文献列表中感兴趣的内容，可能产生点击、下载、收藏和关注等行为。在平台上下载文献会带来一定的经济收益，而现在的页面设计，下载行为是基于点击行为的，用户产生点击后才会下载，当点击量提升后下载量才有提升的可能；另外下载行为非常稀疏，数据噪声大，容易过拟合。因此将点击行为作为正样本，仅曝光的文献作为负样本，使用模型拟合点击率。
25.2)分析用户日志分布，实验并确定采样方案
26.获取用户行为日志并清洗，分析样本数据分布。从推荐日志中直接获取的数据，用户的点击文献数量相比于曝光给用户的文献数量是较为稀疏的，导致正负样本比例失衡，正样本数量过少，很容易导致模型过拟合，利用失衡的数据训练即便离线评估表现优异，但上线后实际效果并不理想。所以在采样获取训练样本时，正样本全部保留，负样本只取有点击行为的用户产生的曝光数据，舍弃无点击行为用户的所有行为日志数据。
27.3)获取文献、机构、作者以及用户数据，构建特征数据集合
28.文献数据包含文献发表时间、下载量、被引量、相关度、影响因子等信息；机构数据包含机构专业领域、发文量、下载量(排名)、被引量(排名)、项目数量、科研人员数量等信息；作者数据包含作者发文总量、核心期刊发文量、被引量、h指数、g指数等信息；用户数据包含兴趣爱好等基本信息以及操作文献、操作时间等行为日志信息；构建特征数据集合包括：对文献、机构、作者、用户基本信息建模得到单边特征，对用户行为日志建模得到双边特征。
29.数据和特征决定了机器学习算法的上限，而模型和算法只是不断逼近这个上限而已，所以丰富的特征在排序系统中至关重要。获取丰富的特征数据的步骤如下：
30.第一步获取文献侧特征
31.文献侧特征包含基础特征、统计特征和类别特征。文献基础特征包含发表时间、下载量、被引量、相关度、影响因子等，统计特征包含一段时间内推荐侧(推荐系统中文献)的浏览率、下载率、收藏率等，类别特征包含文献类型、行业类型、学科类型等。
32.第二步获取学者侧和机构侧特征
33.学者侧特征包含发文总量、核心期刊论文数、被引量、作者指数等属性。通过将文献的第一作者与学者库中的相应字段关联，获取学者侧多个特征。机构侧特征包含各专业领域发文量、下载量(排名)、被引量(排名)、项目数量、科研人员数量等属性。通过将文献所
属的机构和学科类型，与机构库中的相应字段关联，获取机构侧各专业领域的多个属性；一篇文献属于多个机构的多个学科时，取第一个机构，机构下各个学科的属性平均值，作为特征。例如：文献i属于d1、d2两所机构，同时文献i又是s1、s2两个学科相关的文献，第一个机构d1中学科s1和学科s2对应的下载量分别是n1和n2，则取(n1+n2)/2作为机构下载量特征值。
34.第三步获取交互类特征
35.用户和文献的交互类特征是最能反映用户个性化的特征，包含用户对行业、学科、期刊、文献的偏好。基于多个时间窗口构建用户和文献交互类特征，例如构造用户近三个月浏览是否核心期刊的交互特征的步骤为：首先，获取用户近三个月浏览核心期刊的次数和非核心期刊的次数，如果浏览核心刊的数量大于浏览非核心刊，则认为用户对核心刊更感兴趣，将用户对核心刊的偏好存入用户画像中；其次，对于召回集合中的文献，是核心刊则该特征为1，是非核心刊则为0，非期刊文献则为缺失值。当窗口较小时、用户重复率低时，效果不明显；采用最近三个月的偏好，效果较好。说明在一定时间范围内，用户兴趣累积越丰富推荐依据越强效果越好。当然最近一周、一个月等的偏好也会被考虑在内作为近期或长期偏好特征，由模型学习这些偏好的重要程度生成模型参数。
36.处理获取到的特征，包含数值特征的归一化，例如将下载量、被引量等归一化到0-1之间；分类特征的编码，例如将是否核心期刊等进行哑编码；以及缺失值填充，例如用0填充缺失数据等。将以上处理后的特征构建为特征数据集合，作为特征分析和构建训练数据的基础。
37.4)分析文献侧、机构侧、作者侧以及交互特征，进行特征筛选
38.特征的相关性分析是为了获取更好训练数据特征的一种典型方法。首先对收集到的三类特征数据进行预处理，主要是去除异常值、去除远离数据分布的噪声数据等；其次，对于连续性特征，例如下载量、被引量等连续数值数据，计算特征与正负样本标签之间的皮尔逊相关系数，目的是问了通过相关系数值，分析特征与拟合目标之间的相关性；结果如图3所示，是部分数值特征相关性分析示例图，例如更新时间、下载量、被引量、相关度等相关性高的特征保留作为排序特征进行训练。
39.两个变量x、y之间的皮尔逊相关系数为两个变量之间的协方差和标准差的商，公式如下：
[0040][0041]
通过估算实际特征和标签样本的协方差和标准差，可得到样本的相关系数，上式可以表示如下。其中n为样本量，和分别为特征样本和标签样本的均值，分子为两个样本的协方差，分母为样本标准差的乘积。
[0042][0043]
对于无序分类特征，例如文献类型、行业类型、兴趣词等类别数据，采用卡方检验
reciprocal rank)进行评估。计算公式为：
[0057]
auc＝p(p
正样本
＞p
负样本
)
[0058][0059]
auc表示分类器对随机抽出的样本，预测得到正样本的概率大于负样本概率的概率。mrr中n表示推荐文献个数，ranki表示用户真实点击文献的位置。
[0060]
线上评估采用小流量实验的方式，将用户公平的哈希分为多组流量，一部分流量作为实验组，划分同等的流量作为对照组，通过两组实验的人均点击率和人均转化率等指标评价模型好坏。当离线评估有提升时，上线小流量实验。2021年底在个人知网网页推荐平台，相同特征情况下，使用逻辑回归模型的人均点击率，相对于原排序方法显著提升大于30％。
[0061]
虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

技术特征：

1.一种基于逻辑回归的文献推荐系统的排序方法，其特征在于，包括以下步骤：步骤a分析推荐应用场景，确立学习目标；步骤b分析用户日志分布，试验并确定采样方案；步骤c获取特征数据，构建特征数据集合；步骤d分析文献侧、机构侧、作者侧以及交互特征，进行特征筛选；步骤e将文献推荐作为分类问题，采用逻辑回归模型训练；步骤f划分同等流量，将训练好的模型进行线上评估。2.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法，其特征在于，所述步骤b包括：获取用户行为日志并清洗，分析样本数据分布；在采样获取训练样本时，采用有点击行为用户的相关数据，包括所有曝光文献数据和用户行为日志。3.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法，其特征在于，所述步骤c中特征数据包括文献侧、机构侧、作者侧及用户数据；其中，文献侧包含文献发表时间、下载量、被引量、相关度、影响因子；机构侧包含机构专业领域、发文量、下载量、被引量、项目数量、科研人员数量；作者侧包含作者发文总量、核心期刊发文量、被引量、h指数、g指数；用户数据信息包含兴趣爱好以及操作文献、操作时间；构建特征数据集合是指对文献、机构、作者、用户基本信息建模得到单边特征，对用户行为日志建模得到双边特征。4.如权利要求3所述的基于逻辑回归的文献推荐系统的排序方法，其特征在于，获取特征数据的步骤包括：c1获取文献侧特征；c2获取学者侧和机构侧特征；c3基于多个时间窗口构建用户和文献交互类特征。5.如权利要求2所述的基于逻辑回归的文献推荐系统的排序方法，其特征在于，所述c1中：文献侧特征包含基础特征、统计特征和类别特征，其中，文献基础特征包含发表时间、下载量、被引量、相关度、影响因子；统计特征包含一段时间内推荐侧的浏览率、下载率、收藏率；类别特征包含文献类型、行业类型、学科类型。6.如权利要求2所述的基于逻辑回归的文献推荐系统的排序方法，其特征在于，所述c2中：通过将文献的第一作者与学者库中的相应字段关联，获取学者侧多个特征，学者侧特征包含发文总量、核心期刊论文数、被引量、作者指数；通过将文献所属的机构和学科类型，与机构侧中的相应字段关联，获取机构侧各专业领域的多个特征；机构侧特征包含各专业领域发文量、下载量被引量、项目数量、科研人员数量。7.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法，其特征在于，所述d包括：对收集到的三类特征数据进行预处理，包括去除异常值、去除远离数据分布的噪声数据；所述三类特征数据包括文献侧特征数据、机构侧特征数据和作者侧特征数据；对于连续性特征，计算特征向量与正负样本标签向量之间的皮尔逊相关参数，分析特
征与拟合目标之间的相关性。8.如权利要求6所述的基于逻辑回归的文献推荐系统的排序方法，其特征在于，特征向量x和标签向量y之间的皮尔逊相关系数为两个变量之间的协方差和标准差的商，计算公式为：通过估算实际特征和标签样本的协方差和标准差，可得到样本的相关系数，上式可以表示如下，其中n为样本量，和分别为特征样本和标签样本的均值，分子为两个样本的协方差，分母为样本标准差的乘积：对无序分类特征，该分类特征包括文献类型、行业类型、兴趣词类别数据采用卡方检验方法；通过卡方检验方法计算分类特征样本和标签样本之间的相关性，统计量计算公式如下：其中，r为分类的个数，核心期刊特征r；m
i
为实验出现的次数，即每种分类实际观测的点击频数，n
i
为每种分类的样本量，n
i
p为根据理论概率值计算出来的点击次数，即期望点击频数，p可以由样本整体点击率计算得到；假设h0：特征与点击行为之间无相关性；当χ2值过大，就认为原假设h0不为真；给定显著水平α＝0.05，当χ2大于时，拒绝原假设，认为特征与标签具有相关性。9.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法，其特征在于，所述e具体包括：e1将处理好的特征向量(x1，x2，...，x
n
)输入逻辑回归模型，其中x
i
为特征值；通过乘以不同的权重(w1，w2，...，w
n
)，来表示各特征的重要性程度，对各特征加权求和后，输入sigmoid函数，得到用户点击物品的概率：e2确定逻辑回归的优化目标，引入损失函数去评价模型的好坏；根据梯度下降算法到损失函数的最小值，损失函数取得最小时的权重w即为需要的函数；e3对于候选文献集，经过逻辑回归的推断，得到预测的点击概率p，利用概率值进行排序，得到文献推荐列表，对于特征x、权重w和正负样本标签y，预测的点击概率可以表示为：p(y|x；w)＝(f
w
(x))
y
(1-f
w
(x))
1-y
。10.如权利要求1所述的基于逻辑回归的文献推荐系统的排序方法，其特征在于，所述f包括：将训练好的模型进行评估，通过离线测试采用roc曲线下面积auc和平均倒数秩mrr进行评估；计算公式为：
auc＝p(p
正样本
＞p
负样本
)auc表示分类器对随机抽出的样本，预测得到正样本的概率大于负样本概率的概率；mrr中n表示推荐文献个数，rank
i
表示用户真实点击文献的位置。

技术总结

本发明公开了一种基于逻辑回归的文献推荐系统的排序方法，包括分析推荐应用场景，确立学习目标；分析用户日志分布，试验并确定采样方案；获取特征数据，构建特征数据集合；分析文献侧、机构侧、作者侧以及交互特征，进行特征筛选；将文献推荐作为分类问题，采用逻辑回归模型训练；划分同等流量，将训练好的模型进行线上评估。本发明能够利用文献、用户、上下文等多种不同特征，通过预测正样本的概率对文献进行个性化排序；具有可解释性强和数学含义支撑，效果显著并且训练和工程开销小等优点，是一种投入小、见效快的方案。见效快的方案。见效快的方案。