机器学习笔记-3.3 数据清洗(特征工程)

本系列是笔者在贪心科技-机器学习教程的学习笔记, 补充有python相关的知识.初学机器学习, 还请多多指教. 本章节是3.2 逻辑回归的延续. 主要介绍面对未处理的数据做数据清洗的简单思路, 以及用到的一些python工具使用总结. 数据源:来自UCI机器学习库的葡萄牙银行电话营销数据集, 它是该银行收集的一批客户信息, 数据特征如下: [‘age’, ‘jo …

机器学习笔记-3.1.线性回归

本系列是笔者在贪心科技-机器学习教程的学习笔记, 补充有python相关的知识.初学机器学习, 还请多多指教. 课程来到线性回归和逻辑回归, 虽然工程实现上跟之前的模型一样, 找一个对象, 代入参数, 计算出结果即可. 但是这一部分底层开始会涉及到数学的概念, 多数都是大学时候学过现在忘掉的. 重现捡起来很困难, 但是不能因此就放弃探究. 一点不成熟的小建议就是可以将推导的流程过一次, 细节会有一 …

机器学习笔记-2.kNN

本系列是笔者在贪心科技-机器学习教程的学习笔记, 补充有python相关的知识.初学机器学习, 还请多多指教. 一句话描述kNN算法, 就是找最像目标元素的前k个元素, 以这些元素的多数类别为目标的类别. 换成几何的表述方式,就是在若干维度上, 找到跟目标元素距离最近的k个元素, 以他们的多数分类为目标分类. kNN的实施流程 把一个物体表示成向量 标记号每个物体的标签 计算两个物体之间的距离/相 …

机器学习笔记 – 1.介绍(note)

本系列是笔者在贪心科技-机器学习教程的学习笔记, 补充有python相关的知识.初学机器学习, 还请多多指教. 监督学习 训练数据包含输入和预期输出 分类(枚举值) 回归(数值) 非监督学习 训练数据只有输入,没有预期输出 聚类 关于监督学习与非监督学习, 我的理解是:前者为有多少人工就有多少智能,本质上跟传统数据分析没有差别. 后者的目标更为模糊化, 是实现高级分析智能的基础. 当然在这个阶段对 …

Pandas常见数据结构Series、DataFrame

Series 类似于数组,主要不同在于Series可以支持索引 定义&检索 计算 总的来说Series保留了NumPy的操作,同时保持引用的作用 着重说一下自动对齐功能,再也不用for循环了。可以将两个Series中相同键名的值进行计算,有一方不存在的值为NaN DataFrame 定义&检索 相当于一个二维表,含有行索引和列索引。 注意到这里获取的顺序都是列->行,如果想获 …