2017-07 自然语言处理大作业 本次实验的目标是应用不同的机器学习算法对13类新闻文本(如文化、娱乐、政治等)进行分类,比较算法性能,包括准确率和速度,总共爬取了9.8篇新闻文本,约400M,样本类别大致均衡。 在该项目中,用到的传统机器学习方法包括逻辑回归、SVM、感知机以及随机森林,特征取值是tf-idf ,特征选择方法为chi2,或者是word2vec。 深度学习方法有CNN和LSTM,输入特征是word2vec。 结果: 特征为tf-idf的方法中,效果最好的是随机森林算法,准确率为94.9%,其次是SVM。 当传统机器学习方法的特征为word2vec时,除了随机森林,效果均有三、四个点的提高,最好的效果是97%左右。 LSTM的准确率是94.6%,CNN不高,仅有68%左右。
kyla1994/Text-Classification
Folders and files
| Name | Name | Last commit date | ||
|---|---|---|---|---|