基于产品评论挖掘的竞争产品优势分析_翟东升

收稿日期:2012-09-19
修回日期:2012-10-23
基金项目:国家社会科学基金重大项目
“新兴技术未来分析理论方法与产业创新研究”(编号:11&ZD140);国家科技支撑计划“面向企业创新应用链的知识管理体系建设与集成应用示范”
(编号:2012BAH34F00)。作者简介:翟东升(1963-),男,博士,教授,研究方向:信息管理与决策支持;徐颖(1987-),女,硕士研究生,研究方向:信息管理与信息系统;黄鲁成(1956-),男,博士,教授,研究方向:技术创新管理、研发管理;赵京(1961-),男,博士,教授,研究方向:计算机辅助创新技术的
应用。
基于产品评论挖掘的竞争产品优势分析
!
翟东升
黄鲁成
(北京工业大学经济与管理学院
北京100124)
如今网络已经成为信息交换的工具,网络中出现了大量的用户评论信息,利用产品评论挖掘技术获取竞争
产品的情报数据,对于企业和用户都具有重要意义。利用已有的研究成果,将产品评论挖掘应用于竞争产品的优势分析之中。并以手机为例,以iPhone4和N8作为研究对象,经过数据采集、预处理、建立产品特征集合和评论观点集合、评论观点的极性与强度判断等工作,量化用户观点,以4种图表形式显示结果,并根据图表分析竞争产品的优势及需要改进的方向。关键词
产品评论挖掘
竞争产品
竞争情报
优势分析图表分析
中图分类号
TP391.1
文献标识码
A
文章编号1002-1965(2013)02-0045-07
The Advantage Analysis of Competitive Product Based on
Product Reviews Mining
Zhai Dongsheng
Xu Ying
Huang Lucheng
Zhao Jing
(School of Economics and Management ,Beijing University of Technology ,Beijing
100124)
Abstract
Nowadays the network has become a tool for information exchange and huge amount of user comments appeared in it.Using
product reviews mining technique to acquire competitive product information data is of great significance for both enterprises and users.This paper ,using the existing research results ,applied product reviews mining in the advantage analysis of competitive products.Taking cell phone as an example ,using iPhone4and N8as the research objects ,through data collection ,pretreatment ,setting up product feature set and commentary views set ,and analyzing the polarity and strength of reviews ,users'views were quantified and the results were dis-played with four charts ,then the competitive product advantage and the direction to improve were analyzed.Key words
product reviews mining
competitive products
competitive intelligence
advantage analysis
chart analysis
0引言
网络改变了消费者表达自我意见的渠道,例如可以在网站、论坛、讨论组、博客及微博上表达他们对产品的观点。通过这种方式,我们可以在短时间内获得更多有意义的、可测量的信息情报资源。本文内容即是采用产品评论挖掘技术,利用网络资源来帮助我们有效地获得用户使用产品后的反馈信息,以便企业或更多的用户了解竞争产品优势,
企业可对用户的需求和产品的改进方向做出有效反应,用户可针对自身需求寻到适合自己的产品。
在竞争对手或竞争企业的评论挖掘中,有如下研究。黄晓斌、周珍妮
[1]
分析了观点挖掘在竞争对手分
析中的作用,并构建了一个基于观点挖掘的竞争对手分析模型,利用这个模型可以挖掘出哪些产品互为竞争对手。施国良、
程楠楠[2]
将产品评论挖掘应用于企
业竞争中,
并从行业监测、用户研究、企业自身、竞争对手四个方面探讨了产品评论挖掘在企业竞争情报中的具体应用。张玉峰、何超
[3]
将网络评论挖掘融入企业
竞争情报分析中,
构建了基于网络评论挖掘的动态竞争情报分析模型,并阐述了模型中各个模块的主要功能及其实现策略。
第32卷第2期2013年2月
情报杂志
JOURNAL OF INTELLIGENCE
Vol.32No.2Feb.2013
本文利用前人的研究成果,将产品评论挖掘技术应用于手机竞争产品领域。本文以苹果、诺基亚公司
的两个竞争产品,即苹果iPhone4手机与诺基亚N8手机作为研究对象。主要工作有三个:一是构建了常用于手机评价的网络用语词典,二是构建了用于手机用户评论挖掘结果分类的正则表达式,三是根据挖掘结果量化的图表,
分析了iPhone4和N8的各项产品特征的优势以及需要改进的方向。
1研究框架
本文研究过程大致可分为四大部分,网络评论信
息采集、数据预处理(包含四部分,即数据清理、分词、词性标注、删除停用词)、评论挖掘(包含四部分,即产品特征提取、
评论观点抽取、评论观点的极性判断、极性强度判断)、挖掘结果汇总。研究路线如图1所示。
2挖掘过程及关键点分析
2.1
数据预处理
数据预处理包含四个部分,即数
据清理、分词、词性标注、删除停用词等。
2.1.1
数据清理。网络评论存在许多问题,比如
网络语言形式接近于口语,不断出现的网络新鲜词汇等等,所以网络产品评论信息的数据清理尤为重要。数据预处理需要删除大量的无用信息、重复信息和非评论信息等,提取出用户对产品特征有意义的观点。
2.1.2分词。词语是最小的能够独立使用的有
意义的语言成分,分词的好坏直接决定了计算机对文本语义分析的准确性。
2.1.3
词性标注。词性标注是产品评论挖掘的
基础,通过词性标注,可以判断评论语料是属于特征词、观点词,还是程度词,从而帮助我们提取出
产品特征和用户评论观点,
并对用户观点的极性进行判断。2.1.4
删除停用词。评论语料中经常存在很多
出现频率高,但是实际意义并不大的词汇,如“的”、“在”、“了”、“呢”等等,称之为停用词。删除停用词会提高评论预料的分析效率和效果。
对于中文的数据预处理过程,可以使用武汉大学ROST 虚拟学习团队发布的ROST Content Mining 内容挖掘系统和中国科学院计算机所研发的ICTCLAS 中文分词工具对评论进行初步的预处理。2.2
评论挖掘过程
评论挖掘部分共分为四个阶
段,即产品特征提取、评论观点抽取、评论观点的极性判断、极性强度的确定。
2.2.1
产品特征提取。产品特征抽取的目的是,
将用户评价的产品特征提取出来,其产品特征包括产品的部件、部件的属性或功能等。产品特征可分为显式特征和隐式特征,对隐式特征的提取技术尚不成熟,故目前大部分产品特征提取都只考虑显式特征。对竞争产品的特征抽取,
需要考虑特征覆盖了所有竞争产
图1研究路线
·64·情报杂志第32卷
品,这样,最后的分析才能从一点出发,有所比较。
2.2.2评论观点抽取。评论观点抽取的目的是,将能够反映用户观点的词汇抽取出来,这些词汇是对产品特征的观点表达,经常是带有情感彩的主观词汇,如“外观有一定创新”,“创新”即是用户对“外观”的评论观点。
2.2.3评论观点的极性及强度判断。评论观点极性及强度判断是指,确定用户观点的极性,如褒义、贬义或中性,以及用户表达的情感程度的强弱。
判断评论观点的极性,有两种方法,即基于词典的方法和基于语料的方法。基于词典的方法需要建立一个情感极性词典,以获得一个词的极性。基于语料的方法是在大量语料基础上,分析词之间的语法形式或共现形式来判断词的极性。
用户在评价产品时,不但表达的情感倾向性不同,而且表达的情感强度也是不同的。例如“电池不耐用
”和“电池真的很不经用啊,玩的狠点一天都坚持不到!”,这两句评论同样评价的是手机的电池问题,但是第二句评论明显比第一句表达的情感重。为了说明产品之间、功能之间的差异性,通过量化用户评论极性程度就可以很好的展现它们的差异性。
极性强度的程度我们可以从两种词性进行讨论。首先,形容词本身具有极性程度。形容词是产品评价中必定出现的词性,其极性程度是有差别的。例如“完美的系统优化和操作体验”和“系统操作流畅”,这两句评论评价的都是系统操作体验问题,“完美”的情感强度明显比“流畅”的情感强度强,“完美”不仅包括“流畅”这一种体验,还包括“稳定”、“开放”等。其次是程度副词。程度副词是指修饰形容词的词汇,例如“稍微”、“十分”、“极其”等,这些都是程度副词,都表示了其修饰的形容词的程度。蔺璜和郭姝慧[4]总结了程度副词的特点及分类,如表1所示。
表1程度副词分类表
相对程度副词
极量高量中量低量
最为最更更为更加越越
发倍加格外愈加
愈越加
较比较较
建设工程消防监督管理规定
为还
稍稍稍
稍微稍许
绝对程度副词
极量高量中量低量
极极其极为极端极度很挺老非常特别
相当好十分甚为
多蛮何其
不大不很
不甚
有点有些
极性强度的确定,可以使用词频逆向文档频率(term frequency-inverse document frequency,TF-IDF)进行计算。
词频逆向文档频率是一种用于资讯检索和文本挖
掘的常用加权技术。其主要思想是,如果某一词汇在一篇评论中出现的频率很多,而在所有语料中出现的次数很少,则认为这一词汇具有很好的类别区分能力,具有较大的重要性。词频逆向文档频率(TF-IDF)实际上是由词频(Term Frequency,TF)和反文档频率(Inverse Document Frequency,IDF)组成的。
词频(TF)是指,某一个已知词汇在该评论中出现的频率。对于在某一特定评论中的词汇t
i
来说,它的重要性可表示为:
tf
ij
=
n
ij
k
n
kj
以上式子中分子n
ij
是词汇t
微电影 青春期i
在评论d
j
中的出现次
数,而分母则是在评论d
j
中所有词汇出现次数之和。
逆向文档频率(IDF)是指,一个词汇的普遍重要
性度量。某一特定词汇t
i
11眼的逆向文档频率idf
i
,可以由
总文档数目N除以包含该词汇的文档数目{j:t
i
∈d
j
},再将得到的商取对数,得到:
idf
i
=log
N
{j:t
i
∈d
j
其中,{j:t
i
∈d
j
}为包含词汇t
i
的文档数目(即n
ij ≠0的文档数目),如果该词汇不在语料库中,就会导
致被除数为零,因此一般情况下使用1+{j:t
i
∈d
j
}。
最后,词频逆向文档频率的权值为:
tf-idf
ij
=tf
ij
ˑidf
i
2.3挖掘结果汇总评论挖掘结果汇总是指,利用统计数学、图表等形式对挖掘结果进行直观地显示。
2.3.1挖掘结果显示原理。利用RegexBuddy软件,按照正则表达式规则,可以将语料按照产品特征及其褒贬倾向性进行分类,并自动生成文本文件。正则表达式是指,在编写处理字符程序或网页时,用来描述符合某些较为复杂规则的字符串的工具,即记录文本规则的代码。正则表达式常用的字符如表2所示。
量化用户观点极性原理是,按照词频逆向文档频率的方法确定词的极性强度,再将同一产品特征的句子的得分相加,最后得出平均值,将此结果利用图表形式显示。
2.3.2句式分析。利用正则表达式对标注好的评论语料进行匹配,就要了解评论语料的句子形式。通常,中文句式按照结构划分可分为简单句和复杂句。简单句一般是由“主语+谓语”为基本形式,宾语、表语、定语、状语及补语作为补充。复杂句是由两个或两个以上的简单句组成,因而可以直接分析简单句。网络用户评价中,肯定句、否定句和比较句是比较常用的句式。
·
74
·
第2期翟东升,等:基于产品评论挖掘的竞争产品优势分析
表2正则表达式常用字符
元字符限定符反义代码代码说明代码说明代码说明
.匹配除了换行符以外的任意字
*重复零次或多次\W
匹配任意不是字母数字下划
线、汉字的字符
\w匹配字母、数字、下划线、汉字+重复一次或多次\S匹配任意不是空白符的字符\s匹配任意空白符?重复零次或一次\D匹配任意非数字的字符
\d匹配数字{n}重复n次\B 匹配不是单词开头或结束的位置
\b匹配单词的开始或结束{n,}重复n次或多次[^x]匹配除了x以外的任意字符
^匹配字符串的开始{n,m}重复n到m次
$匹配字符串的结束
肯定句是对事物做出肯定判断的句子。肯定句式
比较简单,通常是以“主语+谓语”或“主语+系动词
+表语”形式出现,而网络中经常出现缺省情况,如
“给力的屏幕,丰富的软件……”,这种情况下就要按
照“褒义词+产品特征”处理。
通常,否定句的表现形式为带否定词的句子。否
定词在句中是非常重要的,它的运用使句子的语义呈
现相反的意思。否定词在句子中有两种表现形式,第
一种是修饰形容词的,如“好-不好”、“强大-不强
大”,其等同于带有“不”的极性词;另一种是在句中修
饰动词的,如“软件不是很人性化”,其否定的对象是
谓语“人性化”。否定词表如表3所示。
表3否定词表
不不会不可不可能不是不能不足不足以不至不至于不善不善于不
大可能无从无法无能无可能没有没法难以才怪错
一般情况下,带否定词的句子观点极性,可以总结
为:“否定词+褒义观点词=贬义态度”、“否定词+贬
义观点词=褒义态度”。
对于比较句,在产品评论中,尤其是对竞争产品进
行评价时,比较句是经常出现的句式。其根据句式结
构的不同,会出现不同的观点极性。比如下面一条关
于苹果iPhone4的手机评论:“电池虽然容量不高,但
是比安卓的电池耐用很多。”这条评论对iPhone4手机
和安卓手机的电池进行了比较,如果根据“否定词+
褒义观点词=贬义态度”这样的规则进行判断,那么
就会对用户的态度进行误判。黄鑫[5]根据刘颖[6]和
车竞[7]的研究,总结了句子的比较类型,将比较词分
成了肯定比较词和否定比较词,当使用肯定比较词时
表示对“比较主体+观点词”成肯定关系,否定比较词
则表示对“比较主体+观点词”成否定关系。比较词slm
分类如表4所示。
表4比较词分类表
肯定比较词否定比较词
比,较,更,比较,相比,比起,不逊于,还是,优于,好于,好过,胜过,超过,强过没,不比,难比,不如,不及,没有,
逊于,弱于,差于,比不上,比不过,
比不了
而对于比较主客体和比较词、观点词极性的关系,
对结果的影响可以从表5得出:
表5比较主客体、比较词、观点极性对结果的影响
(比较主体:A;比较客体:B)
例句比较词观点极性结果对A的观点极性
A比B的屏幕流畅肯定褒义A>B褒义
A比B的屏幕迟钝肯定贬义A<B贬义
A没有B的屏幕流畅否定褒义A<B贬义
A没有B的屏幕迟钝否定贬义A>B贬义
3实验与结果分析
3.1网络评论信息采集两种手机的产品评论信
息全部来自中关村在线网站,采集时间截止到2012年
7月22日19点18分,共采集到253条关于苹果
iPhone4的信息,388条关于诺基亚N8的信息,数据包
括发布时间及评论内容等。据此得到的信息,分别构
建了产品评论语料库,即iPhone4评论语料库及N8评
论语料库。
3.2数据预处理经过数据清理后,共计有228条
关于苹果iPhone4的信息,362条关于诺基亚N8的信
息。利用ICTCLAS中文分词工具和ROST Content
Mining内容挖掘系统进行分词、词性标注、删除停用
词之后,可进入挖掘关键步骤。
3.3评论挖掘
3.3.1产品特征提取。本文将从两方面提取产
品特征。首先,提取产品固有属性,这部分特征由产品
规格说明书中提取。手机产品特征词汇集合为F1=
{报价,外观,屏幕,操作系统,CPU,内存,电池,输入,
拍照,视频,音频,应用程序,网络,数据接口,附件}
其次,挖掘用户网络评论特征,这部分由网络用户
评论中提取。对苹果iPhone4及诺基亚N8手机评论
进行词频统计,根据词频出现频率,我们可以得到词频
大于10的且能够反映出产品特征词汇的名词集合
F2
iPhone4
={屏幕,软件,游戏,电池,价格,信号,外观,系
统,应用,程序,上网,分辨率,做工,手感,设计,拍照,
视频,处理器,摄像头,内存,音乐,音质,摄像,外形,铃
·
84
·情报杂志第32卷
声,彩,输入,界面,画面,输入法,电影,价钱,相机,闪光灯,耳机,服务,价位},F2
N8
={电池,系统,软件,屏幕,游戏,价格,拍照,外观,照相,分辨率,摄像头,视频,相机,上网,内存,音乐,手感,闪关灯,镜头,输出,信号,设计,音质,外形,耳机,摄像,应用,程序,做工,处理器,价位,界面,音效,拍摄,外壳,操作系统,电影,容量,导航,声音,接口,键盘,颜,照相机,材质,网页,桌面,触摸屏,彩,价钱,网络,浏览器,造型,画面,地图}
最终的产品特征集合为F=F1∪F2
iPhone4∪F2
N8
合并和扩展同义特征词,如价格={报价、价钱、价位、价格}等,如表6所示。
表6产品评论中的特征词及同义特征词归类特证词同义特征词
价格报价、价钱、价位
外观造型、设计、外形、外壳、颜、做工、手感、尺寸、重量、材质
屏幕触摸屏、分辨率、彩
操作系统系统、界面、画面、桌面
处理器CPU
内存容量、RAM、ROM
电池耗电、耗电量、待机时间
输入输入法、键盘
拍照相机、摄像、拍摄、照相机、摄像头、镜头、像素、闪关灯
视频电影
音频音乐、音质、音效、声音、铃声
应用程序应用、程序、软件、导航、网页、浏览器、地图、游戏
网络信号、上网
数据接口接口、输出
附件耳机
服务
最后得到产品特征集合为F={价格,外观,屏幕,操作系统,处理器,内存,电池,输入,拍照,视频,音频,应用程序,网络,数据接口,附件,服务}
3.3.2评论观点抽取。与产品特征抽取相似,根据“苹果iPhone4及诺基亚N8手机评论”词频统计文档词频出现的频率,我们可以得到能够反映出用户观点的词汇,构成评论观点集合。
3.3.3评论观点极性及强度判断。本文采用基于词典的方法对评论观点进行极性判断。根据本文所涉领域和网络用语语言形式的特殊化,本文构建了常用于手机评价的网络用语词典。
首先,从中关村在线网站上抽取关于手机的2836条评论(不包含iPhone4及N8的评论),构成评论语料库,根据词频总结了214个常用于手机评价的网络词汇,其中褒义词131个,贬义词83个。
其次,使用2007年发布的《知网》情感分析用词语集(beta版),将214个常用词汇根据词汇语义相似度计算[8 10]拓展为包含2846个词汇的词典,其中褒义词1921个,贬义词925个。
将极性词典中的褒义词用“/PRO”标注,贬义词以“/CON”标注。评论语料中评论观点词汇褒贬极性的词性标注可以利用中国科学院计算机所研发的IC-TCLAS中文分词工具进行标注,这样,评论语料中的观点词将按照词典中的形式进行标注。本文使用词频逆向文档频率对评论观点的极性强度进行计算。3.4挖掘结果显示与分析本文根据上文的句式分析内容,以“屏幕”为例,定义的几种正则表达式如表7所示:
表7定义的正则表达式
褒义贬义
[^,!?;,。、.…\r]*屏幕
[^,!?,。、.…\r]*/PRO
[^,!?,。、.…\r]*/PRO
[^,!?,。、.…\r]*屏幕/n.{2}/w
[^,!?;,。、.…\r]*屏幕
[^,!?,。、.…\r]*/CON
[^,!?,。、:.…\r]*/CON
[^,!?,。、:.…\r]*屏幕/n.{2}/
w
可将“屏幕”等产品特征词语进行替换,这样就可以得到尽量多且准确的句式。
按照“产品特征+褒义/贬义”的方法,以iPhone4的“屏幕”这一产品特征为例,显示如表8所示:
表8关于iPhone4“屏幕”的用户褒贬义观点产品特征:屏幕(触摸屏、分辨率、彩)
褒义
1.屏幕清晰度没得说
2.屏幕显示效果优异
3.屏幕材质和分辨率超级强
4.屏幕无敌
5.给力的屏幕
6.屏幕也很好
四川达县县委书记7.屏幕细腻
8.屏幕比三星9系强的不是一点半点吧
9.屏幕很完美
10.屏幕在当时堪称惊艳
……
贬义
1.屏幕不够大气
2.屏幕显示比不上其它的华丽
3.屏幕那玻璃太差了
4.屏幕不够大
5.屏幕格外的小
……
量化用户观点极性强度后,iPhone4和N8的产品特征及其指数如图2、图3、图4所示。
从图2 图4中,我们可以得到iPhone4和N8各产品特征的褒贬义倾向,和它们共同的褒贬义倾向特性。
iPhone4褒义:外观、屏幕、操作系统、处理器、拍照、视频、应用程序;iPhone4贬义:价格、内存、电池、输入、音频、网络、数据接口、附件、服务;N8褒义:外观、屏幕、操作系统、输入、拍照、视频、音频、数据接口、附件;N8贬义:价格、处理器、内存、电池、应用程序、网
·
94
·
第2期翟东升,等:基于产品评论挖掘的竞争产品优势分析
络、服务
。图2Iphone4
用户观点极性强度确定
图3N8
钢芯铝绞线
用户观点极性强度确定
图4
iPhone4和N8用户观点进行极性强度褒贬得分互抵
在外观、屏幕、操作系统、拍照、视频上,两种手机都得到更多的褒义评价;在价格、内存、电池、
网络、服务上,
它们都得到更多的贬义评价。因两种手机用户观点数量不同,所以将用户发表的两种手机各特征的观点极性强度取均值,作对比分析,得到的图表如图5示。
从以上对比图中,我们可以得到两产品的评价两极性,两极性差别大,即某产品在某个特征上的褒义得分大,但贬义得分小,那么该产品的该特征具有非常大的评价差异性,这就需要针对这一产品特征,进一步的分析予以确定。例如进行用户年龄、性别、文化程度、
月收入等方面的调研,予以确定不同的人对该产品特征的不同需求
图5
两种产品的用户意见
在屏幕、内存、电池、拍照、音频、应用程序六个方面,
对iPhone4的评价两极性相比N8更大;在附件和服务上,
N8的两极性差别更大。将两种手机的各特征的观点极性强度均值进行褒贬义得分互抵,得到的得分如图6示
图6两种产品的用户意见褒贬互抵
由图中我们可以得到,两产品相比之下,某产品的优势在哪些方面,即得分高的为产品特征优势。也可以结合图4利用以下公式,得出该产品的最大亮点,及急需改善的特征:
最大亮点产品X =褒义特征产品X ∩优势特征产品X 急需改善产品X =贬义特征产品X ∩优势特征产品Y
由图中所示,我们可以看到,iPhone4与N8相比,iPhone4的优势,集中在价格、外观、屏幕、操作系统、处理器、输入、视频、网络;N8的优势在于内存、电池、拍照、音频、应用程序、数据接口、附件、服务。
外观、屏幕、操作系统、处理器、视频是iPhone4的最大亮点,以上提到的得到的贬义的几个方面里,在内存、电池、音频、数据接口、附件、服务上要更加注意;拍照、音频、数据接口、附件四方面是N8的最大亮点;而在价格、处理器、网络上要更加注意。3.5
抽全率与抽准率
利用人工识别的方法,将上
·05·情报杂志第32卷

本文发布于:2024-09-24 13:20:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/211268.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:评论   产品   观点   特征   挖掘
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议