机器学习笔记-3.3 数据清洗(特征工程)

本系列是笔者在贪心科技-机器学习教程的学习笔记, 补充有python相关的知识.初学机器学习, 还请多多指教. 本章节是3.2 逻辑回归的延续. 主要介绍面对未处理的数据做数据清洗的简单思路, 以及用到的一些python工具使用总结. 数据源:来自UCI机器学习库的葡萄牙银行电话营销数据集, 它是该银行收集的一批客户信息, 数据特征如下: [‘age’, ‘jo …

机器学习笔记-3.1.线性回归

本系列是笔者在贪心科技-机器学习教程的学习笔记, 补充有python相关的知识.初学机器学习, 还请多多指教. 课程来到线性回归和逻辑回归, 虽然工程实现上跟之前的模型一样, 找一个对象, 代入参数, 计算出结果即可. 但是这一部分底层开始会涉及到数学的概念, 多数都是大学时候学过现在忘掉的. 重现捡起来很困难, 但是不能因此就放弃探究. 一点不成熟的小建议就是可以将推导的流程过一次, 细节会有一 …

机器学习笔记-2.kNN

本系列是笔者在贪心科技-机器学习教程的学习笔记, 补充有python相关的知识.初学机器学习, 还请多多指教. 一句话描述kNN算法, 就是找最像目标元素的前k个元素, 以这些元素的多数类别为目标的类别. 换成几何的表述方式,就是在若干维度上, 找到跟目标元素距离最近的k个元素, 以他们的多数分类为目标分类. kNN的实施流程 把一个物体表示成向量 标记号每个物体的标签 计算两个物体之间的距离/相 …

数学概念-相关系数

相关系数是高中数学涉及到的一个概念, 描述变量之间的线性相关程度, 是一个介于-1~1之间的数值, 数值越大正相关性越强. 但除了线性相关性, 还有其他的相关关系, 本文对几个常用的相关系数做总结介绍. 线性相关系数(皮尔逊pearson相关系数) 定义式: 肯德尔kandall相关系数 肯德尔相关系数, 定义了以下三种相关情况: X1>X2 且 Y1>Y2, 表示关系一致 X1&gt …

机器学习笔记 – 1.介绍(note)

本系列是笔者在贪心科技-机器学习教程的学习笔记, 补充有python相关的知识.初学机器学习, 还请多多指教. 监督学习 训练数据包含输入和预期输出 分类(枚举值) 回归(数值) 非监督学习 训练数据只有输入,没有预期输出 聚类 关于监督学习与非监督学习, 我的理解是:前者为有多少人工就有多少智能,本质上跟传统数据分析没有差别. 后者的目标更为模糊化, 是实现高级分析智能的基础. 当然在这个阶段对 …

机器学习-分类算法[1]决策树

核心概念: 特征、信息增益、信息熵 决策树的核心思路 看过《七龙珠》的朋友肯定对那个小悟空分不清男女的梗印象很深。因为在深山中的他从没见过其他人,更别说女孩。所以当他第一次见到布玛时各种惊讶(也占尽便宜啊,虽然他自己不觉得:) 那么在现实中我们怎样判断一个人是男是女呢?第一步肯定是要接触足够多的男男女女(虽然你可能忘了,但是你也曾经有过跟悟空一样男女不分的小时候)。然后你会根据每个人的一些特征,结 …