首页 > 学术百科

一种文章阅读量的预测方法及系统[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202010065180.7

(22)申请日 2020.01.20

(71)申请人中国人民大学

地址 100872 北京市海淀区中关村大街59

号中国人民大学

(72)发明人窦志成　文继荣　

(74)专利代理机构北京纪凯知识产权代理有限

公司 11245

代理人王胥慧

(51)Int.Cl.

G06Q 10/04(2012.01)

G06Q 50/00(2012.01)

G06F 16/35(2019.01)

G06K 9/62(2006.01)

(54)发明名称一种文章阅读量的预测方法及系统(57)摘要本发明涉及一种文章阅读量的预测方法及系统，其特征在于，包括以下内容：1)在文章数据集上分别训练XGBoost分类模型和XGBoost回归模型；2)获取待测文章的文章特征；3)采用训练后的XGBoost分类模型，根据待测文章的文章特征，判断待测文章是否为超级文章，若是，则该待测文章的阅读量预测值为超过10万；若不是，则进入步骤4)；4)采用训练后的XGBoost回归模型，根据待测文章的文章特征，确定待测文章的阅

读量预测值，本发明能够减少作者的文章修改时间、提高作者和相关工作人员的工作效率，并获得更高的阅读量，可以广泛应用

于数据预测领域中。权利要求书3页说明书7页附图4页CN 111260145 A 2020.06.09

C N 111260145

1.一种文章阅读量的预测方法，其特征在于，包括以下内容：

1)在文章数据集上分别训练XGBoost分类模型和XGBoost回归模型；

2)获取待测文章的文章特征；

3)采用训练后的XGBoost分类模型，根据待测文章的文章特征，判断待测文章是否为超级文章，若是，则该待测文章的阅读量预测值为超过10万；若不是，则进入步骤4)；

4)采用训练后的XGBoost回归模型，根据待测文章的文章特征，确定待测文章的阅读量预测值。

2.如权利要求1所述的一种文章阅读量的预测方法，其特征在于，所述步骤1)的具体过程为：

1.1)根据文章的发布时间，将文章数据集划分为训练集、验证集和测试集，且每一集合之间没有重叠；

1.2)确定文章数据集中各文章的样本正负，其中，文章为超级文章，则表示为正样本；文章为非超级文章，则表示为负样本；

1.3)在文章数据集上训练XGBoost分类模型；

1.4)在文章数据集上训练XGBoost回归模型。

3.如权利要求2所述的一种文章阅读量的预测方法，其特征在于，所述步骤1.3)的具体过程为：

1.3.1)构建XGBoost分类模型，其中，XGBoost分类模型的分类任务采用的评价指标包括准确率、精确率、召回率和F1分数；

1.3.2)通过训练集中表示为正样本的文章和部分表示为负样本的文章训练XGBoost分类模型；

1.3.3)在验证集调整XGBoost分类模型的参数，在测试集测试XGBoost分类模型，得到训练后的XGBoost分类模型。

4.如权利要求2所述的一种文章阅读量的预测方法，其特征在于，所述步骤1.4)的具体过程为：

1.4.1)构建XGBoost回归模型，其中，XGBoost回归模型的评价指标包括平均绝对误差MAE、均方根误差RMSE和决定系数R2：

其中，y i表示第i篇文章的目标值；表示第i篇文章的预测值；n表示文章的数量；

其中，表示目标值的平均值；V ariance表示所有文章目标值的方差；

1.4.2)将训练集中文章的文章特征作为样本、文章的阅读量作为标签训练

XGBoost回归模型；

1.4.3)在验证集调整XGBoost回归模型的参数，在测试集测试XGBoost回归模型，得到训练后的XGBoost回归模型。

5.如权利要求1所述的一种文章阅读量的预测方法，其特征在于，所述文章特征包括历史信息特征，历史信息特征包括待测文章所属的历史发文频率和历史阅读量，其中：

历史发文频率为在时间t内o在文章a前的发文总数；

历史阅读量为时间t内o所获阅读量的总数、平均数、方差和中位数。

6.如权利要求1所述的一种文章阅读量的预测方法，其特征在于，所述文章特征包括标题特征，标题特征包括标题基本组成、情感属性和标题实体，其中：标题基本组成为文章标题的标题长度、单词个数和数字个数；

情感属性为采用情感分类模型对文章的标题进行情感分类得到的情感属性，包括积极、消极和中性；

标题实体为文章标题中出现的地名、人名和机构名。

7.如权利要求1所述的一种文章阅读量的预测方法，其特征在于，所述文章特征包括正文特征，正文特征包括正文基本组成、正文实体、组成元素、平均段落长度、文章所属话题，其中：

正文基本组成为文章正文的文章长度、单词个数和数字个数；

正文实体为文章正文中出现的地名、人名和机构名；

组成元素为文章正文的段落数、图片数、网页链接数和音乐视频数；

平均段落长度为文章正文中各段落的平均词数；

文章所属话题为采用分类模型对文章正文的主题进行分类得到的话题类别。

8.如权利要求1所述的一种文章阅读量的预测方法，其特征在于，所述文章特征包括“标题党”特征，“标题党”特征包括标题是否含糊不清、标点符号、疑问词数、指代词数、程度副词数和情感词数，其中：

标题是否含糊不清为文章标题中是否存在不明确的代词；

标点符号为文章标题中标点符号“？”和“！”的个数；

疑问词数、指代词数、程度副词数和情感词数为文章标题中出现的疑问词数、指代词数、程度副词数和情感词数。

9.如权利要求1所述的一种文章阅读量的预测方法，其特征在于，所述文章特征包括时间特征，时间特征包括文章发布时间、时间阅读量和抓取间隔，其中：文章发布时间为文章发布的包括月、日、时间和星期数；

时间阅读量为文章发布时间同一小时和星期数的平均阅读量和方差；

抓取间隔为文章的发布时间与抓取阅读量时间之间的时间间隔。

10.一种文章阅读量的预测系统，其特征在于，该系统包括：

模型训练模块，用于在文章数据集上分别训练XGBoost分类模型和XGBoost回归模型；

数据获取模块，用于获取待测文章的文章特征；

超级文章预测模块，用于采用训练后的XGBoost分类模型，根据待测文章的文章特征，

判断待测文章是否为超级文章；

阅读量预测模块，用于采用训练后的XGBoost回归模型，根据待测文章的文章特征，确定待测文章的阅读量预测值。

一种文章阅读量的预测方法及系统技术领域

[0001]本发明涉及一种预测方法，具体是关于一种文章阅读量的预测方法及系统。

背景技术

[0002]自从进入到网络2.0时代，对于网络上某些特定内容受欢迎程度的研究工作逐渐增多，这些工作的研究对象主要包括网上新闻、网上视频以及用户在社交平台上发表的内容。对于网上新闻而言，现有的工作通常将评论数作为受欢迎程度的衡量标准，且将预测评论数的任务分为先判断这个新闻是否能够收到评论、再基于此定性预测评论数的高低两个阶段。为更进一步地估计评论数，新闻发布后短时间内观察到的评论数被用于预测后续可能获得的总评论数的分布情况。对于网上视频来说，大部分工作以其播放量作为衡量标准，且利用历史的播放量信息来对当前视频进行预测。此外，还有一些工作关注于用户在社交平台上发布的内容，例如Facebook、Twitter等，通过社交平台上的好友关系和社交网的网络结构，对发布内容的受关注程度进行预测。到目前为止，这些现有工作取得一定的效果。

[0003]然而，现有的预测某特定内容受欢迎程度的方法主要关注于网页新闻、视频和用户在社交平台上

发布的内容，无法运用到在文章阅读量的预测，主要体现在：1)文章阅读量的预测一般希望在文章发布前即能预测其阅读量，但是目前的方法几乎均是在内容发布后展开预测，并需要使用到内容发布后观测到的信息；2)在能够获得的数据中，无法得到用户与之间的关联关系，用户的社交好友关系也是未知的，因此无法根据算法构建一个社交关系网络来对阅读量进行预测。因此，需要一种仅基于有限的信息在文章发布前对阅读量进行预测的方法。

发明内容

[0004]针对上述问题，本发明的目的是提供一种在文章发布前对阅读量进行预测的文章阅读量的预测方法及系统。

[0005]为实现上述目的，本发明采取以下技术方案：一种文章阅读量的预测方法，其特征在于，包括以下内容：1)在文章数据集上分别训练XGBoost分类模型和XGBoost回归模型；2)获取待测文章的文章特征；3)采用训练后的XGBoost分类模型，根据待测文章的文章特征，判断待测文章是否为超级文章，若是，则该待测文章的阅读量预测值为超过10万；若不是，则进入步骤4)；4)采用训练后的XGBoost回归模型，根据待测文章的文章特征，确定待测文章的阅读量预测值。

[0006]进一步地，所述步骤1)的具体过程为：1.1)根据文章的发布时间，将文章数据集划分为训练集、验证集和测试集，且每一集合之间没有重叠；1.2)确定文章数据集中各文章的样本正负，

其中，文章为超级文章，则表示为正样本；文章为非超级文章，则表示为负样本；1.3)在文章数据集上训练XGBoost分类模型；1.4)在文章数据集上训练XGBoost回归模型。

说　明　书

1/7页CN 111260145 A

本文发布于:2024-09-20 14:21:40，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/790191.html

上一篇：中国企业的专利行为特征事实以及来自创新政策的影响

下一篇：2009 版 - 国家技术发明奖推荐书