Kaggle课程 | lecture 1 机器学习算法、工具与流程概述

发布于 2024-08-08 23:30:17

在july的网站购买了kaggle课程，自己学习并作笔记记录，非给july打广告，只是为了不忘记或自己学习查询。

在这里感谢july提供的该课程。

下面开始笔记。

主要内容

应用领域

常用算法

算法之间的联系

工具

常用scikit-learn ,文本分析用gensim，数据处理用Numpy、matplotlib、pandas，深度学习有tensorflow、caffe、keras

解决问题的流程

图中的链接： http://blog.csdn.net/han_xiaoyang/article/details/50469334

http://blog.csdn.net/han_xiaoyang/article/details/52910022

内容很详细，值得一看。

数据预处理

上采样：下采样：数据样本均衡：正例、负例样本量保持均衡，之间数量差别不要太大。

特征工程

这里建议看特征工程三把刀那篇博文： http://www.36dsj.com/archives/69769

特征类型

参考内容： http://scikit-learn.org/stable/modules/preprocessing.html

http://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_extraction

方法

链接：http://scikit-learn.org/stable/modules/feature_selection.html

交叉验证

链接：http://scikit-learn.org/stable/modules/cross_validation.html

模型参数选择

链接：交叉验证http://scikit-learn.org/stable/modules/grid_search.html

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

模型状态评估

用于判断模型是否过拟合还是欠拟合

学习曲线

模型训练后的训练误差和测试误差

模型融合

链接：http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html

Boosting

链接：http://scikit-learn.org/stable/modules/classes.html#module-sklearn.ensemble

#http #scikit-learn #机器学习 #神经网络 #深度学习

评论

暂无数据

为了最终的答案

积分
3
话题
3
评论
1