learn：在实际项目中用到过的知识点（总结）

零、所有项目通用的：

（数据集格式和预测器）

（加载自己的原始数据）

（适合文本分类问题的整个语料库加载）

（5.加载内置公用的数据）

（常见的很多公共数据集的加载，，5. Dataset loading utilities）

（Choosing the right estimator（你的问题适合什么estimator来建模呢））

（一张图告诉你，你的问题选什么estimator好，再也不用试了）

（训练分类器、预测新数据、评价分类器）

（使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调参）

一、文本分类用到的：

（从文本文件中提取特征（tf、idf））

（CountVectorizer、TfidfTransformer）

（CountVectorizer提取tf都做了什么）

（深入解读CountVectorizer都做了哪些处理，指导我们做个性化预处理）

（2.5.2.通过TruncatedSVD实现LSA（隐含语义分析））

（LSA、LDA分析）

（非scikit-learn）（《textanalytics》课程简单总结（1）：两种word relations——Paradigmatic vs. Syntagmatic）

（非scikit-learn）（《textanalytics》课程简单总结（1）：两种word relations——Paradigmatic vs. Syntagmatic（续））

（词粒度关系：Paradigmatic(聚合关系：同性质可相互替代、用基于tfidf的相似度挖掘) vs. Syntagmatic(组合关系：协同出现、用互信息挖掘)）

（非scikit-learn）（特征选择方法（TF-IDF、CHI和IG））

（介绍了TF-IDF在特征选择时的误区、CHI Square和Information Gain在特征选择时的应用）

二、数据预处理用到的（4. Dataset transformations）：

（4.1. Pipeline and FeatureUnion: combining estimators（特征与预测器结合；特征与特征结合））

（特征与预测器结合、特征与特征结合）

（4.2. Feature extraction（特征提取，不是特征选择））

（loading features form dicts、feature hashing、text feature extraction、image feature extraction）

（4.2.3. Text feature extraction）

（text feature extraction）

（4.3. Preprocessing data（standardi/normali/binari..zation、encoding、missing value））

（Standardization, or mean removal and variance scaling（标准化：去均值、除方差）、Normalization（正规化）、FeatureBinarization（二值化）、Encoding categorical features（编码类别特征）、imputation of missing values（归责缺失值））

（4.4. Unsupervised dimensionality reduction（降维））

（PCA、Random projections、Feature agglomeration（特征集聚））

（4.8. Transforming the prediction target (y)）

（Label binarization、Lable encoding（transform non-numerical labels to numerical labels））

三、其他重要知识点：

（2.5. 矩阵因子分解问题）

下午某时，天气晴，我在某地，想念你。

相关文章：

你感兴趣的文章：

标签云：