Research on micro-blog sentiment orientation analysisbased on improved dependency parsing
基于改进依赖分析的微博情感倾向性分析(IEEE2013)
文章基于分析微博文本的特性,提出了一个新的改进依赖分析方法分析来分析微博的情感倾向性。改进的算法包括表情符号和标点符号的情感倾向性分析,通过基于距离语法结构核心情感词的距离来进行情感倾向性分析。
方法:算法通过语法依赖结构决定关键情感词,然后根据依赖关系和微博句子结构词、表情和标点符号距离的语法结构学习它们的情感值,最终决定文本句子情感倾向。
微博特点:(1)文本长度短,结构不标准。微博文本长度通常限制在140字左右,句子结构随意;(2)内容的呈现不是标准化的,微博广泛使用网络语言,表情符号,没有规范标点和习语的使用;(3)话题的强交互,许多微博是话题的评论,需要根据上下文系统分析。
文本情感分析根据文本大小可以划分为单词级,句子级和篇章级;根据不同的分析目的可以分为主客观分析(作者对客观事物的分析)和主观分析(作者自己的体验);根据处理方法的可以分为基于词典的情感分析和基于机器学习(SVM方法,神经网络和朴素贝叶斯方法)的情感分析;根据是否有人工参与可以分为非监督和监督分类方法,区别在于是否需要人工情感标记。
算法主要的改进是通过依赖分析,围绕情感词,进行情感倾向性分析。
改进的中文依赖分析算法(ICDP)的步骤:首先,基于情感词典给定情感值,然后学习各种单词,表情和标点句子情感值,最后规范化情感倾向,获得平均值来决定文本情感倾向。
基本的中文依赖分析算法
语法分析是基于一个给定的语法系统,自动产生句子的语法结构,分析句子的语法单元和它们的关系,转化为一棵结构分析树。中文文本的语法分析基于中文表意语言和它的写作形式。句子结构比英文更复杂,所以应该首先分析句子,决定单词属性。
依赖分析是一种基于语法规则的分析方法。语法分析的规则是基于人工语法规则,建立语法知识库,通过限制和观察建立语法结构,最终完成分析树。有3种方法:自顶向下,自底向上和二者的结合,参考文献指出二者结合的方法理论上最接近人的语法分析处理方法。
24种相互依赖关系参考文献已经建立。在依赖语法理论,相互依赖即单词的主导和受控关系。
通常的分析算法和主要技术步骤:(1)句子的分词和判断(判断词性)。(2)计算单词倾向性。主要基于情感词典,如HowNet情感倾向性判断,来决定句子中的积极、消极词和主导评价信息词。(3)语法结构分析。通过依赖分析得到结构分析树。(4)计算修饰符倾向。通过分析结构树计算句子中描述的单词,副词,从属词的情感倾向。(5)计算句子情感。分析文本陈述,根据规范化平均处理方法的句子关键词关系决定文本情感倾向。
改进的中文依赖分析
由于微博文本的非标准化语言结构和广泛使用的标点和符号,通常的分析方法不能满足情感分析的高标准要求。
改进的中文依赖性分析算法主要在三个方面改进:(1)增加标点和符号的情感倾向性分析。(2)改进为计算关键情感词的情感倾向性而不是每个词。(3)通过单词和关键情感词之间的语法结构距离决定情感倾向性。
符号的倾向性分析:通过微博应用平台上表情符号的分析和机器学习方法,获得表情符号情感倾向性值“Ee”,这些值记录到新的情感词典。对于标点,通过不同表述的分析,如感叹句,疑问句,修辞问题等,分析情感因子“λi”。假设文本情感倾向性值是Ei,则符号词的情感值为:Ef=(Ei+Ee)·λi。
分析结构,决定关键情感词,其步骤:(1)根据句子中的核心词(谓语),查找下一个依赖词。(2)判断依赖词是否是形容词或者是名词,否则前往第1步。(3)根据情感词典决定它是否是情感词,否则前往第1步,直到找到情感词“Wm”。(4)当依赖关系是独立子句IC或者从属子句DC,认为IC,DC的从属词为核心词,继续步骤1,决定情感词子句Wh。(5)主从句是根据词的从属关系结构决定,根据主从连接决定主从句和从属子句,决定情感相关倾向率λh。
然后考虑主从句和从属子句的关系,句子情感倾向性值:Eh=E(W1)+E(W2)·λ2h…+E(Wi)▪ λih。E(W1),E(Wi)通过主从句和第i个从句计算,W1,Wi是情感词的主要倾向性值,从句才要乘以从句情感比例λh,参考文献给出了8个基本类型主从句的相关情感比例。
单词语法距离的情感分析:语法距离主要用于依赖分析,主要考虑分析树中两个词的检索序列差异的绝对值。这里关注副词相对于关键情感词的语法距离。根据树结构依赖性的分析,句子中的两词只有一条可行的路径,然后词和关键情感词的句子语法距离计算方法为:路径上边的依赖语法距离之和。假定句子情感倾向性原值为E0,考虑带有影响情感权重λi的副词的语法距离,则句子情感倾向性值为E0与m个λi除以di商的乘积(i=1,…,m,m为副词数)。
文章随机选择了1000条新浪微博来验证算法,选取准确率P,召回率R和F值作为评价指标。如果情感极性值大于0,短文本为积极的,小于0则消极的,等于0文本为中立的。
结论:改进依赖分析算法,引入标点的情感分析,通过词与关键情感词的语法距离分析,效果比通常的依赖分析好,特别是对于短微博。
原文链接:https://www.f2er.com/javaschema/284525.html