基于手机商品评论文本的情感分析与挖掘
高中议论文素材-两会召开时间2017
企业技术实践2019年第5期(总第451期)
基于手机商品评论文本的情感分析与挖
掘
王洋
(上海迪生通讯电脑有限公司,上海200433)
【摘要】目的:随着互联网
技术的发展和智能设备的普及,电商平台出现了大量商品评论信息,分析
和挖掘商品评论文本的情感,对
于研究用户需求、商品口碑具有极其重要的价值。方法:文章利用编程
语言python获取电商平台的
商品评论信息,采用算法与人工相结合的方式,从数据预处理、特征词表
的构建、修饰词表和情感词表的
扩充等方面分析商品的评论信息和用户对相应属性的评价观点。结果:
实现了商品属性和评价情感词的抽
取和分类,实现了商品评论的情感倾向性分析,深入了解用户需求和
产品口碑。局限:依赖情感词典进行
情感分析,为取得更加精确的结果,情感词典需要不断完善。
【关键词】情感分析;产品评论;文本挖掘
【中图分类号】TP391.1【文献标识码】A【文章编号】1674-0688(2019)05-
0130-03
1背景介绍和研究目的
智能手机作为最主要的智能移动终端,深刻地影响着人<
br>们生活的方方面面。有报告显示,2017年上半年,中国手机
市场出货量达2.81亿部,智能
手机用户规模达到6.55亿人
[1]
。
消费者面对日益同质化的手机难以选择,同时
手机厂商也难
以捕捉用户需求,从而进行针对性的产品更新和升级。
情感分析又称为情感挖掘、
意见抽取、倾向性分析,是
指通过用户对某一事件或商品的评论文本进行分析、归纳,
进而发现
其观点和倾向性情感
[2]
。基于手机评论文本的情感分
析,能有效地解决上述问题,
对研究消费者需求和推动产品
更新换代具有积极的指导意义。
公式为I=琢×茁。其中,琢表示
情感词的强度,茁表示情感词的
极性值。根据自定义补充的情感词典,琢的取值为1~7。茁的
取值为-1、0、1,分别表示负面情感、中性情感和正面情感。
结合程度副词、否定词,将情感词的情
感得分进一步优化,
酌i
最终公式为E
i
=(-1)
P
i<
br>I
i
M
i
。其中,E
i
为最终情感词得分,酌
为否定词的数目,决定情感词的词极性。P表示程度副词的强
度,数值越大,则强度越高。
3
实证研究
3.1数据收集与处理
本研究通过python从“京东商城”爬取iPhoneX、
i-
PhoneXR、荣耀Magic2、华为P30Pro、小米9、OPPO
R15x、v
ivoiQOO、荣耀Play、vivoZ3和荣耀8X10款手
机的相关评论,共10000条评论
数据,在去除重复评论后共
获得9470条样本评论数据。将抓取的评论内容进行去停用
词、分
词等预处理,再运用TF-IDF算法进行关键词提取。
word2vec词向量分类结合人工筛选,抽
取归纳手机属性和
近义词,并对评论数据按手机属性计算情感得分。
2情感分析方法
(
1)数据的获取与预处理。本文利用编程语言python,
从电商平台“京东商城”抓取了手机产品的
评论文本,包括会
员姓名、评价内容、追评内容、评价时间等字段,考虑到抓取
数据存在冗余和
无效数据,必须对抓取到的数据进行预处理,
包括对获取的数据进行冗余的删除、字符的过滤、词形的转
换
等,然后借助中文分词工具Jieba去除停用词和分词。
(2)词典构建。本文以中文情感
词汇本体库为基础词典
进行情感词典的扩建,该词典由大连理工大学构建。本研究
中规定情感词
的极性取值:-1为贬义、0为中性、1为褒义,
以便更好地计算评论中的情感强度。同时,通过人工添
加的
方式补充手机评论领域特定的情感词并赋予强度值,例如人
工添加“发烫”并赋值为-1,
进行情感词典的补充。借鉴高
宁
[3]
对于程度副词与否定副词共现的研究,同时参考
施寒潇
[4]
、
梅莉莉
[5]
等人的研究,建立情感词典、程度副词
词典和否定词
词典。分词后的评论文本结合以上3个词典计算出每个属性
的情感倾向。
(3)细粒度情感计算模型。计算情感词I的情感强度值的
3.2爆款手机影响因素的建立
词云
图的制作(如图1所示),通过对预处理后的评论文
本提取高频词,并绘制词云图,可以直观地展示出评
论重点,
有助于手机特征的总结归纳。
从词云图和高频词中归纳消费者购买手机的主要关注点<
br>发现有七大属性,并基于word2vec词向量分类与人工筛选
图1词云图
【作者简介
】王洋,男,安徽休宁人,本科,任职于上海迪生通讯电脑有限公司,研究方向:电商平台商品评论的情感分析。
130
qiyekejiyufazhan