一种基于自然语言处理的文本主题聚类算法[发明专利]

专利名称:一种基于自然语言处理的文本主题聚类算法专利类型:发明专利
发明人:梁天恺,曾碧
申请号:CN201810741538.6
申请日:20180705
公开号:CN109241275A
公开日:
20190118
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于自然语言处理的文本主题聚类算法,首先形成针对本发明的中文语料库;其次,针对该中文语料库中文本进行数据预处理以降低后续算法的计算成本;接着,实现新颖的中文分词以及文本词项的特征向量化算法,实现评论文本的词项从词项文本空间到向量空间的转化;然后,将针对生成的文本词项向量空间进行降维压缩,实现文本词项向量空间到文本主题空间的转换;最后,将根据生成的文本主题模型进行文本主题聚类,以得到进行评论的用户对某商品的关注点,并最终给出针对某商品的一些改进方向,以求产品愈来愈接近大部分用户的需求,如质量方面或价格方面需要进行改进等类似的建议。
申请人:广东工业大学
地址:510006 广东省广州市越秀区东风东路729号
国籍:CN
代理机构:广州粤高专利商标代理有限公司
代理人:林丽明

本文发布于:2024-09-21 22:47:40,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/414408.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   进行   主题   空间   专利   算法
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议