首页 > 专利学习

一种基于数据挖掘技术的图书推荐系统设计

著录项

申请号 CN201910684619.1
申请日 20190727
公开（公告）号 CN110413889A
公开日 20191105
申请（专利权）人长沙开雅电子科技有限公司
主分类号 G06F16/9535
分类号
G06F16/9535 G06F16/9536 G06F16/958
地址湖南省长沙市长沙高新开发区尖山路39号长沙中电软件园总部大楼6楼601室
国省代码湖南(43)

摘要

本发明专利涉及一种基于数据挖掘技术的图书推荐系统设计，本发明提出一种多算法并行的混合推荐方法来产生推荐结果，满足业务需求。本发明将推荐技术应用于图书馆系统，是图书馆实现信息服务的有效手段，可以有效提高图书馆的服务质量和图书资源的利用率。

权利要求



1.本发明专利涉及一种基于数据挖掘技术的图书推荐系统设计，本发明专利涉及一种基于数据挖掘技术的图书推荐系统设计，本发明提出一种多算法并行的混合推荐方法来产生推荐结果，满足业务需求。

2.根据权利要求1所述的一种基于数据挖掘技术的图书推荐系统设计，其特征在于，本系统将混合推荐系统分为以下四大模块：

（1）猜你喜欢模块，猜你喜欢模块根据用户的实时收藏记录进行实时计算，并实时推荐计算结果到前端进行展示；

（2）相似图书模块，相似图书模块是根据图书自身的属性进行推荐，对图书之间的相似度进行度量和智能排序，结合用户的离线浏览数据进行计算并最终在前端进行展示；

（3）相似用户模块，相似用户模块是利用用户本身的收藏、浏览等行为数据实时推荐与其相似的用户；

（4）日志分析模块，日志分析模块通过对用户在平台产生的浏览记录进行离线分析、挖掘和计算，向其推荐图书和相似用户。

3.根据权利要求1所述的一种基于数据挖掘技术的图书推荐系统设计，其特征在于，猜你喜欢模块通过Redis发布订阅模式监听主题对象，当用户在前端产生行为时触发猜你喜欢模块并进行实时计算，结果会直接插入redis中。

4.根据权利要求1所述的一种基于数据挖掘技术的图书推荐系统设计，其特征在于，相似图书模块，系统每日会定期计算当前日期前30天的用户浏览图书数据并和库内所有图书计算相似度后插入redis数据库中。

5.根据权利要求1所述的一种基于数据挖掘技术的图书推荐系统设计，其特征在于，本发明采用基于图书本身内容的推荐算法来作为推荐的底层数据，基于内容算法的本质是用图书自身的属性作为参数进行关联和计算。

说明书

一种基于数据挖掘技术的图书推荐系统设计

技术领域

本发明涉及信息化领域，具体涉及一种基于数据挖掘技术的图书推荐系统设计。

背景技术

随着信息技术和互联网的发展，人们逐渐从信息匮乏的时代走入了信息过载的时代。在这个时代，无论是信息消费者还是信息生产者都遇到了很大的挑战：作为信息消费者，如何从大量信息中到自己感兴趣的信息是一件非常困难的事情；作为信息的生成者，如何让自己生产的信息脱颖而出，受到广大用户的关注，也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。推荐系统的主要任务就是联系用户和信息，一方面帮助用户发现对自己有价值的信息，另一方面让信息能够展现在对它感兴趣的用户面前，从而实现信息消费者和信息生产者的双赢。

发明专利内容

本发明专利涉及一种基于数据挖掘技术的图书推荐系统设计，本发明提出一种多算法并行的混合推荐方法来产生推荐结果，满足业务需求。

本发明将推荐技术应用于图书馆系统，是图书馆实现信息服务的有效手段，可以有效提高图书馆的服务质量和图书资源的利用率。

具体实施方式

进一步的，本系统根据业务场景，将混合推荐系统分为以下四大模块：

（1）猜你喜欢模块，猜你喜欢模块是整个系统最核心也是最重要的业务子模块之一，根据用户的实时收藏记录进行实时计算，并实时推荐计算结果到前端进行展示；

（3）相似用户模块，相似用户模块是利用用户本身的收藏、浏览等行为数据实时推荐与其相似的用户；

（4）日志分析模块，日志分析模块通过对用户在平台产生的浏览记录进行离线分析、挖掘和计算，向其推荐图书和相似用户。

进一步的，日志分析模块和猜你喜欢模块互为一个完备事件组，对于没有强行为的用户，可以通过日志分析得到精确的推荐结果。

进一步的，猜你喜欢模块通过Redis发布订阅模式监听主题对象，当用户在前端产生行为时触发猜你喜欢模块并进行实时计算，结果会直接插入redis中。

进一步的，猜你喜欢算法借鉴了协同过滤的基本思想，大幅提升计算的效率来保证用户喜欢一本图书后，结果反馈的实时性和准确性。同时算法还读取了用户的历史收藏数据来组成共同的索引向量，以保证该向量能最大程度的反应当前用户的偏好。

进一步的，本系统采用了基于用户的协同过滤算法来产生推荐结果。根据算法的基本原理，可以把算法的实施分为四个阶段：（1）用户相似性计算；（2）选择近邻；（3）预测评分；（4）推荐。基于协同过滤的推荐算法，实施简单有效，可以发现用户潜在的但自己尚未察觉的兴趣偏好。

进一步的，相似图书模块，在整个大数据推荐系统中处于离线部分，系统每日会定期计算当前日期前30天的用户浏览图书数据并和库内所有图书计算相似度后插入redis数据库中。

进一步的，相似图书算法借鉴了基于内容推荐算法的思想，利用余弦相似度计算稀疏矩阵得到相似度矩阵。本系统选用余弦相似度进行度量，好处在于余弦相似度可以在任何维度的向量中进行比较。尤其在高维空间中表现突出。因为图书内容属于文本向量，分词后维度很高，所以在图书推荐算法设计时，距离的度量均采用余弦相似度进行度量。

进一步的，基于内容的信息推荐方法的理论依据主要来自于信息检索和信息过滤，所谓的基于内容的推荐方法就是根据用户过去的浏览记录来向用户推荐用户没有接触过的推荐项。主要是从两个方法来描述基于内容的推荐方法：启发式的方法和基于模型的方法。启发式的方法就是用户凭借经验来定义相关的计算公式，然后再根据公式的计算结果和实际的结果进行验证，然后再不断修改公式以达到最终目的。而对于模型的方法就是根据以往的数据作为数据集，然后根据这个数据集来学习出一个模型。一般的推荐系统中运用到的启发式的方法就是使用tf-idf的方法来计算，然后再根据被推荐项中的权重高的关键字来作为推荐项的属性特征，然后再将这个两个向量最相近的的项推荐给用户。在计算用户特征向量和被推荐项的特征向量的相似性时，一般使用的是cosine方法，计算两个向量之间夹角的cosine值。

进一步的，TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上是：TF * IDF，TF词频（Term Frequency），IDF逆向文件频率（InverseDocument Frequency）。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。

进一步的，日志分析主要针对没有显性数据的用户，如没有收藏、点赞、评分等显性行为。通过分析其浏览行为来进行推荐的方式。对于本系统，每日会定时分析当天用户的浏览日志，通过智能算法对当天用户感兴趣的图书进行建模分析，做出图书推荐。

进一步的，日志分析模块主要是为了保证业务逻辑上的完备性，对于平台用户，可能很大一部分都不会产生显性数据，对于之前的猜你喜欢模块是无法进行图书和相似用户推荐。通过引入用户的浏览日志，可以有效解决这一问题，保证了业务的完备性。

进一步的，本系统通过网络采集和抓取海量和图书相关的用户数据、用户收藏数据、用户评分数据、用户评论、美文等数据，通过清洗、去重、归一化等处理后，作为系统自身冷启动的原始数据。

进一步的，本发明采用基于图书本身内容的推荐算法来作为推荐的底层数据，基于内容算法的本质是用图书自身的属性作为参数进行关联和计算。比如对于图书的作者、标签、评论、美文等信息通过分词或建立主题模型组成一条向量来代表图书本身，这样就可以通过向量之间的计算等价代换到图书之间、用户之间相似度间的度量。

进一步的，对于新书和热门模块，系统会根据用户浏览、收藏、评分、点赞等信息进行智能排序、智能推荐。一方面，系统实时抓取版署新出版图书信息，满足新书速递的要求，另一方面，系统会根据新书本身的内容和网络数据对新书进行综合排序，智能推荐给读者用户。

以上所述仅为本发明专利的较佳实施例而已，并不用以限制本发明专利，凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明专利的保护范围之内。

本文发布于:2024-09-23 20:18:49，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/70722.html

上一篇：无水泥的偏高岭土-磷石膏基新型泡沫混凝土及制备方法与流程

下一篇：高强度石英纤维织物及其制备方法与流程

标签：一种基于数据挖掘技术的图书推荐系统设计

留言与评论（共有 0 条评论）