数据集
- sklearn
- kaggle
- uci
Scikit-learn
包含
- 分类
- 回归
- 聚类
- 降维
- 模型选择
- 特征功能
sklearn数据集
sklearn.dataets
load_*
获取小数据集
fetch_*
获取大数据集
- sklearn小数据集
sklearn.datasets.load_iris()
获取鸢尾花数据集
- sklearn大数据集
- 数据集返回值
def demo():
iris = load_iris()#获取数据集
print("鸢尾花数据集:\n",iris)
print("查看数据集描述:\n",iris["DESCR"])#通过字典键值查看
print("查看特征值:\n",iris.data,"\n",iris.data.shape)#通过函数值调用
return None
拿到的数据不能全部用来训练模型,如果全部训练就没有办法评估
数据集划分
训练数据:用于训练,构建模型
测试数据:在模型校验时使用,用于评估模型是否有效
测试集:20%~30%
#训练集划分
# train_test_split函数调用必须要有4个接收值,两个数据集的特征值标签值test_size数据的划分量,random_state随机种子值
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target, test_size = 0.2,random_state = 22)
print("训练集的特征值:\n",x_train,"\n一共有:\n",x_train.shape)#输出划分后的数据集和统计一共有多少数据
x_train:数据集
x_test:测试集
y_train:数据目标值
y_test:测试目标值
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 WangZun233!