avatar

机器学习08_决策树

决策树

进行高效的决策,自动决定特征的先后顺序

原理详解

已知四个特征:年龄 工作 房子 信用 是否贷款给它

先看年龄 -> 信用->工作 需要看三个特征

先看房子->工作 需要看两个特征

信息论基础

信息

消除随机不定性的东西

例:小明: 年龄“我今年18岁” - 信息

​ 小华:“小明明年19岁” - 不是信息(自己已经可以通过上面的信息推断出,你在教我做事??)

信息的衡量 - 信息量 - 信息熵(消除不定性的东西有多少)

信息熵

决策树的划分依据之一—信息增益

  • 定义与公式 信息增益 = 信息熵 - 条件熵

特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差

API

案例一鸢尾花

  1. 获取数据集
  2. 划分数据集
  3. 决策树预估器
  4. 模型评估

案例二泰坦尼克号乘客生存预测

  1. 获取数据
  2. 数据处理
    1. 缺失数据处理
    2. 特征值 -》字典类型
  3. 准备好特征值:目标值
  4. 划分数据集
  5. 特征工程:字典特征抽取
  6. 决策树预估器流程
  7. 模型评估

决策树可视化

决策树总结

  • 优点
    • 简单的理解和解释,可视化
  • 缺点
    • 容易产生过拟合
  • 改进
    • 剪枝
    • 随机森林
文章作者: wangzun233
文章链接: https://wangzun233.top/2020/12/23/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A008-%E5%86%B3%E7%AD%96%E6%A0%91/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 WangZun233