Text-Classification

2017-07 自然语言处理大作业本次实验的目标是应用不同的机器学习算法对13类新闻文本（如文化、娱乐、政治等）进行分类，比较算法性能，包括准确率和速度，总共爬取了9.8篇新闻文本，约400M，样本类别大致均衡。在该项目中，用到的传统机器学习方法包括逻辑回归、SVM、感知机以及随机森林，特征取值是tf-idf ，特征选择方法为chi2，或者是word2vec。深度学习方法有CNN和LSTM，输入特征是word2vec。结果：特征为tf－idf的方法中，效果最好的是随机森林算法，准确率为94.9%，其次是SVM。当传统机器学习方法的特征为word2vec时，除了随机森林，效果均有三、四个点的提高，最好的效果是97％左右。 LSTM的准确率是94.6％，CNN不高，仅有68%左右。

Name		Name	Last commit message	Last commit date
Latest commit History 41 Commits
classifiers		classifiers
data crawl		data crawl
data_preprocessing		data_preprocessing
README.md		README.md
report.pdf		report.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Text-Classification

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Text-Classification

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages