哈萨克语文本分类系统的设计与实现
 
玛依来·哈帕尔 古丽拉·阿东别克

关键词:文本分类 K-最近距离 集中度 分散度
 
主要内容:利用K-最近距离算法对哈萨克语文本进行分类,通过统计词频信息和语言信息相结合的方法选择特征,实现一个哈萨克语文本分类系统。在计算特征权重值时不仅考虑词频,还利用特征的集中度、分散度,经过训练和统计对每一类哈萨克语文本形成特征的权重向量,根据K-最近距离算法判断测试文本的所属类别,实验结果表明该方法可行。
 
《计算机工程》  2011,37(5).-196-198
全文下载请进入http://hightech.stlib.cn/tpi_1/sysasp/include/index.asp
仿站