avatar

机器学习01_数据集

数据集

  1. sklearn
  2. kaggle
  3. uci

Scikit-learn

包含

  1. 分类
  2. 回归
  3. 聚类
  4. 降维
  5. 模型选择
  6. 特征功能

sklearn数据集

sklearn.dataets

load_*获取小数据集

fetch_*获取大数据集

  1. sklearn小数据集
    • sklearn.datasets.load_iris()获取鸢尾花数据集
  2. sklearn大数据集
  3. 数据集返回值
def demo():
    iris = load_iris()#获取数据集
    print("鸢尾花数据集:\n",iris)
    print("查看数据集描述:\n",iris["DESCR"])#通过字典键值查看
    print("查看特征值:\n",iris.data,"\n",iris.data.shape)#通过函数值调用
    return None

拿到的数据不能全部用来训练模型,如果全部训练就没有办法评估

数据集划分

训练数据:用于训练,构建模型

测试数据:在模型校验时使用,用于评估模型是否有效

测试集:20%~30%

02

#训练集划分
    # train_test_split函数调用必须要有4个接收值,两个数据集的特征值标签值test_size数据的划分量,random_state随机种子值
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target, test_size = 0.2,random_state = 22)
    print("训练集的特征值:\n",x_train,"\n一共有:\n",x_train.shape)#输出划分后的数据集和统计一共有多少数据

x_train:数据集

x_test:测试集

y_train:数据目标值

y_test:测试目标值

文章作者: wangzun233
文章链接: https://wangzun233.top/2020/12/07/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A001-%E6%95%B0%E6%8D%AE%E9%9B%86/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 WangZun233