失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 情感词典构建

情感词典构建

时间:2022-07-06 08:58:19

相关推荐

情感词典构建

新博客:程序员小G​​​​​​​

看到一篇文章写的很清楚简洁,直接转了。

------------------------------------------------------------------------------------------------------------------------

某主席说,“没有情感词典的“使用该情感词典进行情感分析”都是耍流氓。”

某帝说,“要有情感词典。” 好吧,那就把情感词典拿出来好了。 情感词典包括①基础情感词典、②拓展情感词典和③领域情感词典。 一、基础情感词典:知网(Hownet)情感词典+台湾大学简体中文情感极性词典(NTSUSD) 基础情感词典包括了一些被广泛认同的情感词,比如”好“,”漂亮“,”差“,”烂“这些词。有研究者已经帮我们整理了这么一份情感词典。一个是著名的知网(Hownet)情感词典,还有一个是台湾大学简体中文情感极性词典。 知网的情感词典包含如下内容: 值得注意的是,知网(Hownet)里面的情感词有很多是莫名其妙的,比如”噲“、”媢“、”媢嫉“、”忺“这些都不知道从哪里冒出来的词,是需要人工判断手动删除的。 p.s. 停用词表一般使用哈工大的停用词表,网上有下载的资源。 台湾大学简体中文情感极性词典要简洁得多: 把知网(Hownet)里面的正面评价词语、正面情感词语和ntusd的positive词典消重之后组合在一起,成为基础积极情感词典。 把知网的负面评价词语、负面情感词语和ntusd的negative词典消重之后组合在一起,成为基础消极情感词典。 另外需要对知网(Hownet)里面的程度级别词语进行权值的设置。 二、拓展情感词典:哈工大整理同义词词林拓展版 拓展情感词典其实就是把基础情感词典通过同义词词典找到情感词的同义词,这样就拓展了基础情感词典。 同义词词典使用了哈工大同义词词林拓展版,具体内容如下: 三、领域词典:需编写程序,使用PMI互信息计算得出 仅仅依靠基础情感词典来识别一个句子里面的情感词是不足够的。在特定的领域,有些并非基础的情感词也有情绪倾向。比如:”这手机很耐摔啊,还防水”。耐摔、防水就是在手机这个领域有积极情绪的词。 要怎么识别这些词呢?一般使用的方法是PMI(互信息)方法。 互信息的概念可以参见吴军博士《数学之美》一书,这里有网友摘抄的链接。简单的说,如果一个词和积极的词语一起出现的频率高,那么这个词是积极倾向的可能性也会大,反之亦然。所以,只要计算一个词和积极词出现的频率和消极词出现的频率之差,并设定某个阈值,就可以粗略的得知这个词的情感倾向了。 计算共现又可以细分两种方法:一种是利用搜索引擎计算共现值,一种是直接利用语料计算共现值。 具体方法: 1. 先选定核心情感词(可以有多个),该核心情感词的情感必须非常明确,具有代表性。这里暂定积极词为:”好“,消极词为”烂“。 2.1 利用搜索引擎计算共现值。既在搜索引擎中搜索”某个词+好“,记录下网页数量co_pos。然后再搜索”某个词+烂“,记录下网页数量co_neg。再搜索”某个词“,记录下网页数量n。再搜索”好“,网页数量为pos,搜索”烂“,网页数量为neg。由此可利用这些数据来计算积极互信息和消极互信息。最后求两个互信息之差,差为正则积极、为负则消极。 重复计算不同词的互信息之差,最后选分值高的即可组成领域情感词典。 2.2 利用语料库计算共现值。原理一样,在语料库中搜索”某个词+好“,记录下数量。再搜索”某个词+烂“,记录下数量。后面的步骤都和上面一样。 四、最后把三个词典结合起来,形成了完整的情感词典。包括积极情感词典和消极情感词典。 最后必须说明,利用情感词典来判断一个句子的情感是有着明显不足的。 中文有着丰富的语义表达,很多情感都是隐含的,比如:”我昨天吃了这道菜,今天就拉肚子了“。这句话没有一个情感词,但表达的是消极的情绪。还有各种事正话反说的句子,比如:“你说这里的菜很好吃,我只能呵呵了“。如果用词典匹配,有”好吃“,”呵呵“两个积极词,但这句话表达的绝非积极的情绪。 这里就需要更高级复杂的处理方式,要更深入句子的句法,语法了。 ------------------------------------------------------------------------- 地址:/content-319129.html

如果觉得《情感词典构建》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。