learn:在实际项目中用到过的知识点(总结)

零、所有项目通用的:

(数据集格式和预测器)

(加载自己的原始数据)

(适合文本分类问题的 整个语料库加载)

(5.加载内置公用的数据)

(常见的很多公共数据集的加载,,5. Dataset loading utilities)

(Choosing the right estimator(你的问题适合什么estimator来建模呢))

(一张图告诉你,你的问题选什么estimator好,再也不用试了)

(训练分类器、预测新数据、评价分类器)

(使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调参)

一、文本分类用到的:

(从文本文件中提取特征(tf、idf))

(CountVectorizer、TfidfTransformer)

(CountVectorizer提取tf都做了什么)

(深入解读CountVectorizer都做了哪些处理,指导我们做个性化预处理)

(2.5.2.通过TruncatedSVD实现LSA(隐含语义分析))

(LSA、LDA分析)

(非scikit-learn)(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic)

(非scikit-learn)(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic(续))

(词粒度关系:Paradigmatic(聚合关系:同性质可相互替代、用基于tfidf的相似度挖掘) vs. Syntagmatic(组合关系:协同出现、用互信息挖掘))

(非scikit-learn)(特征选择方法(TF-IDF、CHI和IG))

(介绍了TF-IDF在特征选择时的误区、CHI Square和Information Gain在特征选择时的应用)

二、数据预处理用到的(4. Dataset transformations):

(4.1. Pipeline and FeatureUnion: combining estimators(特征与预测器结合;特征与特征结合))

(特征与预测器结合、特征与特征结合)

(4.2. Feature extraction(特征提取,不是特征选择))

(loading features form dicts、feature hashing、text feature extraction、image feature extraction)

(4.2.3. Text feature extraction)

(text feature extraction)

(4.3. Preprocessing data(standardi/normali/binari..zation、encoding、missing value))

(Standardization, or mean removal and variance scaling(标准化:去均值、除方差)、Normalization(正规化)、FeatureBinarization(二值化)、Encoding categorical features(编码类别特征)、imputation of missing values(归责缺失值))

(4.4. Unsupervised dimensionality reduction(降维))

(PCA、Random projections、Feature agglomeration(特征集聚))

(4.8. Transforming the prediction target (y))

(Label binarization、Lable encoding(transform non-numerical labels to numerical labels))

三、其他重要知识点:

(2.5. 矩阵因子分解问题)

版权声明:本文为博主原创文章,未经博主允许不得转载。

下午某时,天气晴,我在某地,想念你。

learn:在实际项目中用到过的知识点(总结)

相关文章:

你感兴趣的文章:

标签云: