社区问答服务中的问题分类任务研究
 
王君泽 黄本雄 胡广 温杰

关键词:短文本分类 Kullback-Leibler Distance 语言模型
 
主要内容:类似“百度知道”这类社区问答服务系统的主要任务之一是对问题进行分类,以便于对用户的提问进行组织。社区问答服务的实际应用需求对问题分类算法提出了高准确性、小计算量、对噪音数据敏感度低等要求。基于KullbackLeibler Distance的分类算法在大规模文本和高维向量分类任务中表现出较高的分类精度,本文在该分类算法的基础上,结合语言模型的思想,提出一种改进的分类算法:ngram KLD。通过在一个大尺度的问答对数据集合上进行的一系列实验,表明ngram KLD算法在问题分类任务中取得了优于传统算法的分类效果,并且在计算复杂度以及对噪声数据敏感度方面都较好地满足了问题分类任务的要求。
 
《计算机工程与科学》  2011,33(1).-143-149
全文下载请进入http://hightech.stlib.cn/tpi_1/sysasp/include/index.asp
仿站