加急见刊

基于分布式框架下的中文文本特征分类

张慧芳; 宗彩乐; 张晓琳 内蒙古科技大学信息工程学院; 内蒙古包头014010; 青岛地铁集团有限公司运营分公司; 山东青岛266000

摘要:研究运用复旦中文文本及搜狗中文文档作为研究对象,提高了中文文本分类精确度及召回率,分析得出特征词的最佳贡献值。应用朴素贝叶斯分类方法和改进的TFIDF关键字提取及权重计算,提出TNBIF模型分类方法,在Spark平台上并行分类实现。实验结果表明:应用TNBIF模型实行中文文本分类,精确度高达95.49%,比传统文本分类方法精确度提高5.41%,召回率提高了6.64%。本研究得出最佳贡献值为0.95。

注: 保护知识产权,如需阅读全文请联系电脑与电信杂志社