9.feature-engineering

一、面向机器学习的特征工程

内容简介

第 1 章从数字数据的基本特征工程开始：过滤，合并，缩放，日志转换和能量转换以及交互功能。

第 2 章和第 3 章深入探讨了自然文本的特征工程：bag-of-words，n-gram 和短语检测。

第 4 章将 tf-idf 作为特征缩放的例子，并讨论它的工作原理。

第 5 章讨论分类变量的高效编码技术，包括特征哈希和 bin-counting。

第 6 章中进行主成分分析，我们深入机器学习的领域。

第 7 章将 k-means 看作一种特征化技术，它说明了模型堆叠的有效理论。

第 8 章都是关于图像的，在特征提取方面比文本数据更具挑战性。在得出深度学习是最新图像特征提取技术的解释之前，我们着眼于两种手动特征提取技术 SIFT 和 HOG。

第 9 章中完成了一个端到端示例中的几种不同技术，为学术论文数据集创建了一个推荐器。

代码修改和整理：黄海广，原文修改成jupyter notebook格式，并增加和修改了部分代码，测试全部通过，所有数据集已经放在百度云下载。

该选择器基于python编写，有五种方法来标识要删除的特征：

如果需要引用这个Repo:

格式： fengdu78, Data-Science-Notes, (2019), GitHub repository, https://github.com/fengdu78/Data-Science-Notes