摘要:为有效解决中文微博情感数据分布不平衡的分类问题,提出一种融合Affinity Propogation(AP)算法、Word2vec技术和条件随机场(CRF)模型的分类方法。通过AP算法对微博数据进行聚类,将多数类样本按照相似性的度量划分为若干簇类,使类间距离极大化、类内距离极小化。利用欠采样技术构建情感倾向分布平衡的训练集,采用Word2vec计算并求出语义相似度最高的文本来扩展微博句子以增加情感信息,使用CRF模型计算已经平衡并扩展后的训练集标签序列,在数据集情感倾向分布不平衡时也能准确地分类微博情感倾向。实验结果表明,与ACRF方法、CRF方法及SCRF方法相比,该方法在召回率和G均值评价标准上具有更好的效果。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社