位置加权文本聚类算法
 
金春霞 周海岩

关键词:文本聚类 文本向量 特征选择 位置加权 簇间相似度
 
主要内容:文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同,提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量,采用层次聚类和K-means文本聚类相结合的改进算法实现文本聚类。实验结果表明,提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度,在稳定性和纯度上都有显著提高,获得了较好的聚类效果。
 
《计算机工程与科学》  2011,33(6).-154-158
全文下载请进入http://hightech.stlib.cn/tpi_1/sysasp/include/index.asp
仿站