决策树
进行高效的决策,自动决定特征的先后顺序
原理详解
已知四个特征:年龄 工作 房子 信用 是否贷款给它
先看年龄 -> 信用->工作 需要看三个特征
先看房子->工作 需要看两个特征
信息论基础
信息
消除随机不定性的东西
例:小明: 年龄“我今年18岁” - 信息
小华:“小明明年19岁” - 不是信息(自己已经可以通过上面的信息推断出,你在教我做事??)
信息的衡量 - 信息量 - 信息熵(消除不定性的东西有多少)
信息熵
决策树的划分依据之一—信息增益
- 定义与公式 信息增益 = 信息熵 - 条件熵
特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差
API
案例一鸢尾花
- 获取数据集
- 划分数据集
- 决策树预估器
- 模型评估
案例二泰坦尼克号乘客生存预测
- 获取数据
- 数据处理
- 缺失数据处理
- 特征值 -》字典类型
- 准备好特征值:目标值
- 划分数据集
- 特征工程:字典特征抽取
- 决策树预估器流程
- 模型评估
决策树可视化
决策树总结
- 优点
- 简单的理解和解释,可视化
- 缺点
- 容易产生过拟合
- 改进
- 剪枝
- 随机森林
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 WangZun233!