互联网在线评论文本意见挖掘系统设计

科技创新导报 Science and Technology Innovation Herald
106
16660/jki.1674-098X.2007-5640-2362
互联网在线评论文本意见挖掘系统设计①
刘一利1  朱潼昕2  施凡1
(1.国防科技大学电子对抗学院  安徽合肥  230031;2.武警警官学院22队  四川成都  610001)
摘  要:互联网在线评论文本意见挖掘是当今研究的一个热点。针对巨量数据在线评论文本进行实时意见挖掘需求,本文使用有监督的意见挖掘算法,使用朴素贝叶斯模型设计了一个高速评论文本意见挖掘系统。系统采用模块化设计理念,支持模块的灵活组合和模块技术的独立升级。通过实验,系统可有效对选取的餐饮评论信息集进行有效分类。cp25
关键词:在线  评论文本  意见挖掘  系统设计
中图分类号:F719                              文献标识码:A                    文章编号:1674-098X(2020)11(a)-0106-04
The Design of Internet Online Comment Text Opinion Mining
System
LIU Yili 1  ZHU Tongxin 2  SHI Fan 1
(1.School of Electronic Warfare, National University of Defense Technology, Hefei, Anhui Province, 230031 China; 2. Team 22 of CAPF Police Academy, Chengdu, Sichuan Province, 610001 China)Abstract: Online comment text mining is a hot research topic nowadays. According to the requirement of real-time opinion mining for large amount of online comment text, this paper uses supervised opinion mining algorithm and naive Bayesian model to design a high-speed comment text opinion mining system. The system adopts the modular design concept to support the f lexible combination of modules and the independent upgrade of module technology. Through the experiment, the system can effectively classify the selected catering comment information set.
Key Words: Online; Commentary text; Opinion mining; System design
①作者简介:刘一利(1983—),男,汉族,河南商丘人,硕士,讲师,研究方向为机器学习。
库存物资
随着计算机网络技术的快速发展和使用成本的快速降低,互联网的普及率迅速提升。互联网正深刻的
改变着我们的生产、生活模式。作为互联网的重要应用,电子商务和社交网站迅速普及,针对商品、微博、新闻等发表评论已经成为一种潮流,越来越多的人喜欢通过发表在线评论表达自己的意见。由于互联网的评论数据巨大,仅通过人工阅读的方式难以有效挖掘互联网用户的意见倾向,通过自动化方法可有效提升对在线评论文本意见挖掘的速度,具有重要的应用价值。本文设计的互联网在线评论文本意见挖掘系统基于机器学习方法可实现对在线评论文本意见的自动化挖掘,可用于用户商品智能、舆情监控和民意调查等领域。
1  相关研究
意见挖掘(Opinion Mining)被称为评论挖掘,也称
为情感分析(Sentiment Analysis ),通过对发表的评论文本分析,挖掘意见倾向,是赞成还是反对。意见挖掘涉及多个领域知识,包括自然语言处理、概率统计、关联规则和机器学习等知识,是一个综合的研究领域。唐晓波等为了解决微博评论文本隐式特征的识别问题,提出一种基于特征本体的评论情感分析方法[1]。杨春晓等通过构建卷烟在线评论情感词典的方法,提出了卷烟情感指数计算模型[2]。王娜娜等提出一种基于评价单元五元组的情感分析方法。通过联合无监督和有监督学习方法构建评价词表和评价对象词表判断文本情感类别[3]。李晓东等通过使用技术指标表示数值价格数据,用情感向量表示文本新闻文章使用全连接神经网络模型进行了股票价格预测的研究[4]。Naresh等运用多种机器学习模型对twitter数据集进行
科技创新导报 Science and Technology Innovation Herald
107
了文本意见挖掘,通过对比得出决策树模型具有较高的正确率[5]。有监督的意见挖掘机器学习算法在评论文本意见挖掘方面,不需要语言学专业知识的约束,具有较好的分类效果,但其需要大量的带有标注信息的训练数据。本文基于有监督的意见挖掘算法,提出了模块化的在线评论文本意见挖掘系统设计方法。该方法支持不同模块的灵活组合,单个功能模块可以灵
活选择优化算法。
2  系统设计
互联网在线评论文本意见挖掘系统采用模块化的设计方法,分为人机接口模块、评论文本爬取模块、文本特征提取模块、自动分类模块和数据存储模块。人机接口模块支持设置目标网站URL、爬取条数、线程
数等参数,将文本意见挖掘结果通过图表、表格等方
图1  系统框架图编号评论
1还赠送了两个红茶,味道也不错分量足
2来了很多次了。味道不错3总来吃很好很好加油
4
问店家有没有鹌鹑蛋,结果根本没有量子态隐形传输技术
表1  评论文本示例
图2  模型训练步骤
式输出给用户;评论文本爬取模块使用Scrapy网络爬虫框架,支持对目标网站评论文本实现异步高并发爬取,可高效爬取大批量评论文本数据;文本特征提取模块可对中文文本实现智能分词处理,并对分词进行预处理,并进行向量化处理;自动分类模型基于机器学习算法,系统使用朴素贝叶斯(Native Bayes)算法,模型通过对训练数据进行学习,达到学习指标后,可实现对文本向量化处理后数据的智能分类;数据存储模块实现数据的存储和管理。系统框架如图1所示。
2.1 文本特征提取
从互联网爬取的评论文本不能被计算机程序直接理解,需要对其进行分词处理,并将分词进行向量化转换,实现自然语言到数值变量的转换,数值变量可直接作为自动分类模块的输入。从支付宝网站口碑应用爬取评论文本示例如表1所示。
(1)文本分词。
系统采用python的jieba分词模块完成对评论文本的分词处理,jieba分词模块支持精确模式、全模式和搜索引擎模式。精确模式寻求将句子精确分开;全模式把句子中所有的成词都扫描出来;搜索引擎模式,在精确模式的基础上,对长词再次切分,提升查全率。以表1评论1为例,精确模式分词为:“还/
马赛国际公寓赠送/了/两个/红茶/,/味道/也/不错/分量/足”,全模式分词为:“还/赠送/了/两个/红茶/,/味道/也/不错/错分/分量/足”,搜索引擎模式分词为:“还/赠送/了/两个/红茶/,/味道/也/不错/分量/足”。能够较好的将句子中的词语分开,但其中“还”、“了”、“也”等语气词在评论文本意见挖掘中起不到分类的效果,本系统使用从互联网下载的“哈工大停用词表”去除语气词、特殊符号等停用词。
(2)分词向量化。
将文本词语转换为计算机能够理解的数字,对文本进行向量化处理。针对系统具体的应用场景,构建词汇表,将分词后的文本词和词汇表进行对照,若词汇表中单词在文本中出现,词汇向量该位就设为1,未出现就设为0。这样每一个文本都能够转换为一个包含0、1元素的多维向量。我们运用sklearn库中CountVectorizer方法将文本转化为词向量。
2.2 文本自动分类
系统文本自动分类模块使用朴素贝叶斯分类算法完成文本数据自动分类。使用训练数据对模型进行训练,将训练数据进行合理划分,模型经训练达到指标要求后,结束训练,可对未知文本进行分类。
(1)朴素贝叶斯分类算法。
朴素贝叶斯分类算法是一种基于概率的机器学习模型,根据人们对事物的先验知识和条件概率结合起
来,推导事物发展变化的后验概率。设有训练数据B={b1,b2,...,b n},训练数据的特征属性为X={x1,x2,...,x n},类别集合为C={c1,c
2
},后验概率公式如下所示
[6]
由训练数据,
可得出和,最后可得出未知数据属于各类别的概率大小,将其归于概率大的类别。
(2)模型训练过程。
模型训练步骤如图2所示。
将数据集进行合理划分,按照一定比例将数据集划分为训练数据和测试数据。使用训练数据训练模型,用测试数据来验证模型的正确率和召回率,判断模型训练效果。如果训练效果达到要求,停止训练,模型训练完成。如果达不到要求,返回重新训练模型,直到达到要求。
3  结果分析
为了验证系统对评论文本意见挖掘的有效性,
择从互联网爬取的2000条美食评论作为数据集。将
图3  实验精确率和召回率
(下转115页)
科技创新导报Science and Technology Innovation Herald
108
Hierarchical Scheduling of Real-Time Tasks over Linux-based Virtual Machines[J].The Journal of Systems&Software,2018.
[3] 洪允德,何晓东.虚拟机技术在计算机网络安全实
验教学中的应用[J].计算机安全,2014(10):53-55. [4] 王晓浩.基于虚拟化资源的网络模拟技术的研究与
实现[D].北京:北京邮电大学,2016.[5] 刘若琳.网络攻防虚拟场景构建技术的研究与实现
[D].北京:北京邮电大学,2019.
[6] 侯海燕.虚拟化技术在计算机网络应用实践教学的
应用[J].电脑知识与技术,2020,16(14):185-186. [7] 徐云才,黄清,刘延艳,等.基于Vm wa r e虚拟化技
术的高校计算资源构建[J].网络安全技术与应用,2019(11):92-93.
(上接108页)
数据集按照7:3的比例划分为训练集和测试集。本文使用python的sklearn模块实现朴素贝叶斯模型的快速构建,进行5次独立实验,正确率和召回率如图3所示。
从图3所示的测试结果看出,系统对美食评论文本数据集进行了5次独立实验,精确率分别为88.9%、90.0%、88.9%、88.5%、87.7%,平均值为88.8%;召回率分别为86.0%、84.5%、84.2%、81.7%、83.0%,平均值为83.8%。分类结果的精确率和召回率均在80%以上,具有较好的分类效果。
4  结语
如今,随着互联网服务的快速普及,互联网中各种应用的在线评论文本数量呈指数增长,通过设计在线评论文本意见挖掘系统可有效提升对大数据文本评论信息的有效挖掘。通过实验分析,系统能够较
为有效的对美食评论数据进行意见挖掘。下一步还要针对多种类型的评论信息展开实验,进一步提升系统的泛化能力。参考文献
[1] 唐晓波,兰玉婷.基于特征本体的微博产品评论情
感分析[J].图书情报工作,2016, 60(16):121-127. [2] 杨春晓,张鹤馨,黄家雯,等.卷烟在线评论的文本情
感分析[J].中国烟草学报, 2020,26(2):96-99.
[3] 王娜娜,李向前.文本情感倾向性分析[J].计算机应
用,2017(7):11-15.
[4] X i a o d o n g L i,Pa n g ji n g Wu,We n p e n g Wa n g.
Incorporating stock prices and news sentiments
f o r s t o c k m a r k e t p r e d i c t i o n:A c a s e o f
H o n g K o n g[J].I n f o r m a t i o n P r o c e s si n g a n d
Management,2020,57(5).
[5] A.N a r e s h,P.Ve n k a t a K r i s h n a.A n e f f i c i e n t释永修
a p p r o a c h f o r s e n t i m e n t a n a l y s i s u s i n g
小渊优子
mach ine lea r n ing a lgor it h m[J].Evolut iona r y Intelligence,2020(prepublish).
[6] 曾政多.基于Naive Bayes的P2P平台评论研究[J].现
代计算机,2019(20):10-13.
1.文中涉及的量和单位应按《中华人民共和国法定计量单位》规定执行,并用规定缩写符号表示。
2.每一个组合单位符号中,斜线不得多于1条,如每天每千克体重用药剂量应写成mg/(g·d)。
3.量符号均应使用斜体,如m(质量)、t(时间)、V(体积)等,且应注意某些希腊字母与拉丁(或英文)的区别。
4.图、表中的量和单位应量符号在前,单位符号在后。单位符号前的数字最好为0.1~1000间的
整数或小数,避免使用分数。当过大或过小时,应改用适当词头中M、P或10n、10-n表示,但应遵
守有效数和修约规则。
5.当表示变动范围时,范围号“~”前后两数字中的%、‰或10n、10-n均应同时写出,不能省略
前者只写后者。
论文写作知识——计量单位和符号
科技创新导报Science and Technology Innovation Herald115

本文发布于:2024-09-24 16:31:47,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/36450.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   评论   挖掘   意见   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议