基于电商评论的网购商品特征提取及价格预测

DOI:10.16660/jki.1674-098X.2012-5640-2493
基于电商评论的网购商品特征提取
及价格预测①
高能镍碳超级电容器
普晟昱
(数学与统计学院  南京信息工程大学  江苏南京  210044)
摘  要:随着电子商务的不断革新,网购消费者在众多同类型商品中挑选一件物美价廉的商品需要耗费大量时间和精力。本文以京东商城羽毛球商品为例,通过LDA主题模型从畅销商品的电商评论中挖掘用户购买羽毛球商品的需求信息,据此提取商品特征作为建立模型所需的解释变量,建立对商品价格的回归预测模型。得出结论,基于电商评论提取商品特征建立价格预测模型的方法可以较准确地预测商品平均价格,优化消费者购买决策过程,提升电商平台运营服务能力。
关键词:电商评论  LDA主题分析  特征提取  价格预测  随机森林
中图分类号:F713.36                          文献标识码:A                    文章编号:1674-098X(2021)02(a)-0124-06
Feature Extraction and Price Forecasting of Online Commodities
Based on E-commerce Comments
PU Chengyu
(School of Mathematics and Statistics, Nanjing University of Information Science & Technology, Nanjing,
Jiangsu Province, 210044 China)Abstract: With the continuous innovation of e-commerce, online shopping consumers need to spend a lot of time and energy to choose a product attractive in price and quality among many similar products. Taking the badminton commodities of Jingdong Mall as an example, this paper uses the LDA theme model to mine the demand information of users to buy badminton commodities from the e-commerce comments of popular commodities, and then extracts the commodity features as the explanatory variables needed to build the model and establishes a regression prediction model for commodity prices. The conclusion is that the method of building a price prediction model based on the extraction of commodity features based on e-commerce comments can forecast the average price of commodities more accurately, optimize the purchasing decision-making process of consumers, and improve the operation and service capability of the e-co
探空气球
mmerce platform.Key Words: E-commerce comments; LDA theme analysis; Feature extraction; Price forecasting; Random forest
①基金项目:国家自然科学基金面上项目:超高维复杂数据统计降维研究(项目编号:11771215),2018.1-2021.12。作者简介:普晟昱(1996—),男,硕士,研究方向为大数据分析。
栓剂模具随着电子商务技术的不断革新,网络购物现如今已经成为百姓购物的主要方式之一。截至2020年6月,我国网络购物用户规模达7.49亿,较2018年底增长1.39亿[1]。电子商务的开放性和便利性让消费者用户足不出户就能“货比三家”,买到物美价廉的商品,商家也能获取到传统线下运营模式不能比拟的市场规模,
越来越多的商家进驻电商平台使得商品数量和类型呈现井喷式增长。研究发现,用户是否购买商品,主要取决于在线商品性价比与消费者需求诉求[2]。从消费者的角度来看,繁多的同类型商品给消费者的选择带来困难,挑选一件性价比高的商品需要耗费用户大量的时间与精力。从电商平台的角度看,改善用户选择流
程,提升用户购物体验能够显著提升平台用户忠诚度和推广购买转化率。
数据挖掘在电子商务领域的应用越来越广泛,在电子商务智能推荐服务中的关联规则算法[3],基于电
商产品评论数据的文本挖掘方法[4],针对不同消费体网购决策影响因素研究的聚类分析算法[5]等在电商大数据发展中起到重要作用。目前学者在针对电子商务领域的用户评论研究大多集中于评论本身所包含的信息,鲜有学者将电商评论挖掘出的信息更进一
步运用到回归预测模型中。如严建援等针对在线评论内容对评论有用性的影响的研究[6],李涵昱等针对商品评论进行的情感倾向性分析研究[7],国显达等提出Gaussian LDA主题模型挖掘京东商城等在线评论中用户所表达可能的主题的研究[8]。
本文以京东商城的羽毛球商品为例,基于畅销商品评论挖掘用户需求,提取商品特征作为模型解释变量,建立商品价格的回归预测模型。
为用户购买高性价比羽毛球商品提供参考,
也为电商平台改善用户体验
图1  基于电商评论的网购商品价格预测模型
图2  LDA模型结构示意图
图3  评论预处理步骤及示例
提供思路。1  研究方法介绍
1.1 基于电商评论的商品特征提取及价格预测模型
本文提出了基于电商评论的网购商品价格预测模型,主要包括六个步骤,如图1所示。
(1)畅销商品评论抓取:抓取评论过万的畅销商品的最近评论,包含评论的内容、评论所属商品等信息。
(2)评论文本处理:包括文本去重、机械压缩去词、短句删除和文本分词等步骤。
(3)LDA主题分析获取用户需求:运用基于Gibbs 抽样的LDA主题模型分析店商评论中用户可能的多个主题倾向,即用户需求。
(4)商品特征抓取:根据得到的用户需求在电商平台中抓取所有与之相关的商品特征数据,作为预测模型的解释变量,包括商品价格、店铺类型、评论数量等信息。
(5)变量预处理:对响应变量和解释变量进行预处理,包括正则表达式处理、缺失值处理和异常值处理等。
(6)建立商品价格预测模型:建立预测模型、评价模型。
1.2 LDA主题模型
LDA主题模型是Blei等于2003年提出的无监督生成式主题模型[9],假设待分析文档集D 由M 个文档组成,即()1
2
,,,M
D d d d = ;其中每个文档j
d 由j
N
个词
图4  用户评论词云图
图5  十折CV平均困惑度和平均对数似然值
主题1主题2主题3主题4主题5主题6主题7主题词快递材质耐打服务品牌做工羽毛高频特征词
程度比较耐用服务便宜做工质量配送材质耐打手感品牌喜欢羽毛羽毛球好毛一直羽毛球好耐用慢容易外观活动红双喜还行手感收到特别之前一个好评满意鸭毛
表1  LDA主题词表
成,即
(),,,,1,2,,d w w w j M
==
;M 个文档共分布了K 个主题
,1,2,,i z i K = 。
对于分布方面LDA模型假设主题在文档中的分布服从一个参数为θ的多项分布,词在主题中的分布服从一个参数为φ的多项分布,参数θ和φ分别来自服
从超参数α和β的狄利克雷先验分布。则可定义一篇文档的生成过程如下:对于某个文档j d ,首先从主题分布()Multi θ中抽取一个主题z ,再从主题z对应的词分
布()Multi φ中抽取一个单词w ,如此重复
j
织物柔软剂
N 次即得到文
档j d
。该生成过程可由图2中的模型结构示意图表示。
图6  商品特征—用户需求对照图
描述类别变量字段名称类型取值店铺x 1店铺类型分类型{旗舰店, 专营店, 专卖店}x 2是否京东自营分类型{是, 否}x 3店铺星级数值型范围[0, 5]售后
x 4物流履约分数数值型范围[0, 10]x 5售后服务分数
数值型范围[0, 10]商品
y 价格
数值型单位:元,范围[14.2, 350]x 6商品评价分数数值型范围[0, 10]x 7评论数分类型{销量较差、畅销商品等}x 8商品毛重数值型单位:克,范围[100,350]x 9球速分类型{74#~78#}
x 10球头材质分类型{双拼球头, 全天然软木球头等}x 11羽毛材质分类型{鹅毛, 水鸭毛, 豚鸭毛等 }x 12形状分类型{大方, 拉直, 全圆等}x 13上市时间分类型{2018年春季, 2018年冬季等}x 14品牌分类型{川崎, 亚狮龙, 尤尼克斯等}
表2  变量说明表
随机森林
支持向量回归多元线性回
归RMSE
21.49532.92635.905MAPE
21.141
28.895
44.069
表3  模型泛化能力评估
图7  解释变量重要性条形图
在文档 条件下生成词W 1的概率可以表示为:
()()()1|||K
i j i j s P w d P w z s P z s d ===
×=∑
纱窗角码
(1)
其中()|i P w z s =表示词w 1属于第s 个主题的概率,
()
|j P z s d =表示第S 个主题在文档d j 中的概率。
基于该原理,利用Gibbs采样算法对参数θ和φ进行估计即可得到主题s z
在文档j d 中的多项分布和词i w 在主题s z 中的多项分布[10]:
()(),,,,,,11j s s s i i j s
s i K
V j s s s i i s i n n n n αβθφαβ==++==    ++
∑∑, (2)
其中,,j s n 表示文档j d 中包含的主题s z 的个数;,s i n 表示词i w 在主题s z 中出现的次数。预付费智能电表
2  实例分析
2.1 畅销商品的评论获取
本文数据来源于京东商城体育用品分类下的羽毛球商品,利用八爪鱼网络爬虫工具爬取用户评论数据。考虑到评论过万的畅销商品包含优质评论的数量更多,更有利于从中提取用户需求信息,因此分别抓取这些畅销商品的最近评论,共收集到13419条评论数据,包含评论的内容、评论所属商品、评
论时间等信息。
2.2 商品评论文本处理
文本预处理方法中的文本去重、机械压缩去词和短句删除被广泛运用于电商评论分析中,图3所示为上述预处理方法的步骤和示例。预处理后的评论语料用Jieba分词中的混合模型进行分词,它结合使用最大概率法和隐式马尔科夫模型,对中文文本的分词效果好。分词后的文本还需删除停用词,即删除“我”、“的”、“说”等不包含实际意义的词,以提升分析效率,减少噪声。经过上述评论文本的处理后,根据每个词在所有评论中出现的频率做出如图4所示的词云图,图中词的字体越大表示该词在所有文本中出现的频次越高。
2.3 LDA主题分析获取用户需求
由图4的用户评论词云图可以看出,经过分词后的评论确实能够反映出用户对于产品的需求,例如商品的包装、外观,球的飞行、速度、羽毛,物流情况等,因此进一步采用LDA主题分析模型将用户需求信息提取出来。本文用R软件topicmodels包中基于Gibbs抽样的LDA模型实现用户评论的主题分析。LDA主题模型建立的关键是确定主题数量,运用十折交叉验证方法计算平均困惑度和平均对数似然值,结果见图5。根据极小化困惑度和极大化对数似然值下减少主题数的原
则确定提取主题数为15。
经LDA主题分析后输出每个主题对应的前十个高频特征词,限于篇幅,仅于表1中列出7个主题(每个主题5个词)的结果。结合实际意义,将每个主题对应的高频特征词分别总结凝练为一个主题词来概括表示该主题,如表1主题1中所示的高频特征词“配送、慢、收到”等词表达了用户对快递配送的需求,因此将该主题归为“快递”需求。依此类推本文分别得到的15个主题词(即用户需求)为快递、材质、耐打、服务、评价、做工、羽毛、球头、手感、包装、球速、飞行、品牌、店铺和售后。
2.4 商品特征抓取和变量预处理
在LDA主题模型确定的15个用户需求指导下,可以有目的性地从消费者的角度提取商品特征作为预测模型的解释变量,优化模型的变量选择过程。综合考虑专业运动员对羽毛球性能的解释和商品特征数据的易获取性,诸如表1中用户需求“售后”可由“售后服务分数”来反映;用户需求“耐打”主要取决于羽毛球的羽毛材质和库存存放时间长短即上市时间;用户需求“飞行”主要由羽毛球的羽毛材质、形状、球头材质和商品毛重等多重因素决定等等。本文利用八爪鱼爬虫工具从电商平台商品详情网页中共提取到14个反映用户需求的商品特征作为模型解释变量,商品特征与用户需求的对应关系如图6所示。
由于商品名称的特殊性,所爬取到的商品详情信息中存在“羽毛球拍”、“羽毛球服”等无关商品信息,本文利用自然语言处理的正则表达式将这些信息剔除。另外为了分析的量纲一致性,商品售卖单位统一
为市面常售的12只一桶装的鹅毛或鸭毛材质羽毛球。经初步筛选后,共保留1620条羽毛球商品详情数据。对于数值型变量缺失情况采用均值填充;分类型变量缺失情况将其他变量作为解释变量,缺失变量作为响应变量建立随机森林模型,用预测值填充缺失值。对于数据偏斜很大的评论数变量进行离散化,将评论数0~50记为销量较差、50~200为销量一般、200~1000为销量较好、1000~10000为销量很好、大于10000为畅销商品。预处理后的变量类型和取值见表2。2.5 商品价格预测模型
根据LDA主题分析提取的解释变量对羽毛球商品价格建立回归预测模型。考虑商品特征中同时包含数值型变量和分类型变量,为确定合适的预测回归模型,本文分别选用统计上常用的集成学习、核方法和

本文发布于:2024-09-25 07:19:03,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/252288.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:评论   商品   主题   用户
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议