摘要:Labeled-LDA模型引入了类别标签信息,较传统的LDA主题模型改进了强制分配主题的问题,但Labeled-LDA模型仍存在一些问题,例如Labeled-LDA在训练主题模型之前没有去除无用词,在训练过程中没有考虑词与各类别的关联度,且Labeled-LDA模型获得的主题分布倾向于高频词,导致主题的表达能力降低等问题。本文提出WLabeled-LDA模型,在训练主题模型之前使用卡方特征来选出好的特征词,训练主题模型时用获得的词对类别的卡方值进行主题模型加权,并使用高斯密度函数对特征词加权来降低高频词对主题表达能力的影响。实验结果显示,此方法能使分类的准确率和召回率得到一定的提高,说明其具有更好的分类效果。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社