单位文秘网 2022-02-16 08:11:48 点击: 次
信息。
随着商品评论情感分类中文本表示方法、分类算法改进复杂度的增加,分类准确率有一定提高,但是模型训练时间会变长,算法复现应用难度较大。本文在当前主要的文本表示、分类算法的基础上,从降低模型复杂度,减少模型训练时间和降低实现难度的角度,以京东电商网站的商品评论为语料,选择不同的文本表示方法与分类算法进行组合,开展文本情感分类模型的构建、训练与评估的应用研究。
1 商品评论情感分类相关研究
目前已有商品评论情感分类相关研究成果揭示了情感分析技术的3种主要类别:
(1)基于规则的情感分类。通过制定语义规则,结合语料库和情感词典来抽取文本中的情感信息,再计算相应的情感倾向。如王志涛等对微博的情感分析是通过建立句型分析规则、句间关系分析规则、词语多元组分析规则来制定语义规则[3]。这类情感分析技术的关键在于各种规则的制定。而规则的制定又依赖于情感词典和分类目标的确立,这要耗费大量时间和人力。因此,目前该方法使用较少。
(2)基于机器学习的情感分类。运用机器学习方法,通过已知文本特征建立情感分类模型,再利用模型对未知文本进行情感分类。基于机器学习的情感分类关键在于特征和分类算法选取,尤其是特征选取。已有研究在对商品评论进行情感分析时,主要应用的机器学习分类算法有:朴素贝叶斯NB[4-5]、SGD 算法[5-6]、支持向量机SVM[7]、最近邻算法KNN[8]和随机森林RF等。它们的特征提取方式也不尽相同,但均是依赖情感词典进行提取。
(3)基于深度学习方法的情感分类。随着深度学习的发展,现有很多深度学习方法已应用到情感分类领域,如胡朝举等融合情感标签改进Word2vec词向量作为情感文本表示方法[9]、金志刚等将深度学习Bi-LSTM模型提取社交媒体用户评价情感的抽象特征[10]、刘全等提出一种RCNN-HLSTM的深度分层网络模型进行情感分析[11]、Yoon K提出TextCNN模型用于文本分类[12]等。浅层机器学习方法特征选择具有局限性,而深度学习方法不必单独构建情感词典,不受人为因素影响,它能自动从数据中学习提取特征形成研究热点。
深度学习主要利用词嵌入技术(如Word2vec[13]、GloVe、FastText、WordRank和text2vec等)进行文本信息的词向量表示,可计算词语间的语义关联,更有利于文本抽象特征学习,并有大量优秀的深度神经网络分类算法(如多层全连接神经网络MLP,卷积神经网络CNN、TextCNN[12],循环神经网络RNN、LSTM、GRU、Bi_GRU、Bi_LSTM,以及各种改进型神经网络算法等)可使用。研究重点为基于上述经典的文本表示方法和分类算法进行改进融合,如胡朝举等融合情感标签改进Word2vec词向量作为文本表示方法,将融合attention的Bi_LSTM与 CNN并联接受词向量输入,输出合并后再次融合attention,再连接LSTM,最终输出句子向量[14],但这种分类算法比较复杂。类似算法融合改进研究较多[10-12,15-18]。
上述(1)基于规则的情感分类、(2)基于机器学习的情感分类都要依赖情感词典去表示情感特征,因此情感词典的质量直接影响特征提取质量。加上情感词典构建需要人们的先验知识,构建过程容易受到人为因素影响。且情感词典通用性并不好,某一领域的特征集不一定适应另一个领域。所以,前两种分类方法并未成为情感分析研究的主流,(3)基于深度学习方法的情感分类中的文本表示与分类算法改进融合才是当前研究的热点。随着文本表示方法和分类算法改进复杂度的增加,分类准确率也许有一定提高,但是模型训练时间会变长,算法复现应用难度较大。
2 研究思路与框架
(责任编辑:单位文秘网) )地址:https://www.kgf8887.com/show-123-99194-1.html
版权声明:
本站由单位文秘网原创策划制作,欢迎订阅或转载,但请注明出处。违者必究。单位文秘网独家运营 版权所有 未经许可不得转载使用