首页 > 学术百科

Scikit-Learn（1.Sklearn提供的常用数据集-自带的小数据集）

Scikit-Learn（1.Sklearn提供的常⽤数据集-⾃带的⼩数据集）

⼀、⾃带的⼩数据集（packageddataset）：sklearn.datasets.load_

推荐读者阅读⽹站：

1. （l） www.w3cschool/doc_scikit_learn/scikit_learn-modules-generated-sklearn-datasets-load_digits.html

2. （）/docs/0.21.3/47.html

3. /stable/

1)鸢尾花数据集：load_iris（）：⽤于分类任务的数据集新语丝网

数据介绍：

⼀般⽤于做分类测试

有150个数据集，共分为3类，每类50个样本。每个样本有4个特征。

每条记录都有 4 项特征：包含4个特征（Sepal.Length（花萼长度）、Sepal.Width（花萼宽度）、Petal.Length（花瓣长度）、Petal.Width（花瓣宽度）），特征值都为正浮点数，单位为厘⽶。

可以通过这4个特征预测鸢尾花卉属于（iris-setosa（⼭鸢尾）, iris-versicolour（杂⾊鸢尾）, iris-virginica（维吉尼亚鸢尾））中的哪⼀品种。

属性介绍：

见代码注释

代码⽰例：

# 鸢尾花数据集：

from sklearn import datasets

# iris：鸢尾花数据集：--> ⽤于分类

# 有150个数据集，共分为3类，每类50个样本。每个样本有4个特征。

# 加载数据集

iris = datasets.load_iris()# 加载iris数据集

# 打印数据集的相关信息

n_samples,n_features=iris.data.shape

print("共有", n_samples,"个样本, 每个样本有", n_features,"个特征")#输出：共有 150 个样本, 每个样本有 4 个特征print("iris.data.shape --> ",iris.data.shape)# 样本，输出：iris.data.shape --> (150, 4)

print("iris.target.shape --> ",iris.target.shape)# 标签, 输出：iris.target.shape --> (150,)

# print("这是四个特征值:\n",iris.feature_names) # 样本对应的每个特征的意义

# print("iris.target_names --> ",iris.target_names) # 三种鸢尾花数据的具体名字

# print("iris data :\n ",iris.data) # 样本数据（150,4）

# print("iris traget :\n ",iris.target) # 每隔样本对应的标签（150,1）

# print("dict_keys：\n",iris.keys()) #dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename']) # print("查看数据集描述：\n",iris["DESCR"])

# print("鸢尾花数据集：\n",iris)

# 给数据集划分训练集和测试集：

# 当我们得到所有的数据集，不能全部⽤来进⾏训练，要给他划分为训练集和测试集

# train_test_split(数据集的特征值，数据集的标签值，测试集的⼤⼩（float型），随机种⼦（相同的随机种⼦结果相同）) del_selection import train_test_split # 导⼊模块

x_train, x_test, y_train, t_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)

print("训练集样本⼤⼩",x_train.shape)# 输出：训练集样本⼤⼩ (120, 4)

print("训练集标签⼤⼩",y_train.shape)# 输出：训练集标签⼤⼩ (120,)

其他：

参考博客：

2)⼿写数字数据集：load_digits（）:⽤于分类任务或者降维任务的数据集

数据介绍：

⼿写数字数据集：load_digits（）:⽤于分类任务或者降维任务的数据集。

1797张样本图⽚，每个样本有64维特征（8*8像素的图像）和⼀个[0, 9]整数的标签属性介绍：

见代码注释

代码⽰例：

# ⼿写数字数据集：load_digits（）:⽤于分类任务或者降维任务的数据集

# 1797张样本图⽚，每个样本有64维特征（8*8像素的图像）和⼀个[0, 9]整数的标签

import numpy as np

import matplotlib.pyplot as plt

from sklearn.datasets import load_digits

# 加载数据集

digits = load_digits()

n_samples,n_features=digits.data.shape

print("共有 ", n_samples," 个样本数据，每个样本有 ", n_features," 个特征")

print("⼿写数字集的⼤⼩ --> ",digits.data.shape)#(1797, 64)

print("⼿写数字集的形状 --> ", digits.images.shape)#(1797, 8, 8)

# 证明：digits.data 是将 digits.images 按⾏展开成⼀⾏，共有1797⾏

# print(np.all(shape((1797,64)) == digits.data))

徐玉凤# print(np.all(shape((1797,8,8)) == digits.images))

# print(digits.target[63]) # 第63张图的表⽰是多少

# print("digits.keys() --> ",digits.keys()) # digits.keys() --> dict_keys(['data', 'target', 'target_names', 'images', 'DESCR']) # # 显⽰第⼀张图⽚, 也可以⽤： plt.imshow(digits.images[0])

# ay()

# plt.matshow(digits.images[0])

# plt.show()

# 显⽰⼿写数字⽅法⼀：

fig=plt.figure(figsize=(6,6))

fig.subplots_adjust(left=0,right=1,bottom=0,top=1,hspace=0.05,wspace=0.05)

#绘制数字：每张图像8*8像素点

for i in range(64):哥伦比亚大选投票

ax=fig.add_subplot(8,8,i+1,xticks=[],yticks=[])

ax.imshow(digits.images[i],binary,interpolation='nearest')

#⽤⽬标值标记图像

<(0,7,str(digits.target[i]))

plt.show()

# # 显⽰⼿写数字⽅法⼆：

# fig, ax = plt.subplots(

男峰论坛# nrows=2,

# ncols=5,

# sharex=True,

故宫博物院教学设计

# sharey=True, )

# ax = ax.flatten()

# for i in range(10):

# ax[i].imshow(digits.data[i].reshape((8,8)), cmap='Greys', interpolation='nearest')

# plt.show()

库存物资其他：

参考博客：

3)乳腺癌数据集load-barest-cancer（）：简单经典的⽤于⼆分类任务的数据集

⽤的⽐较少，具体⽤法可以见

4)糖尿病数据集：load-diabetes（）：经典的⽤于回归认为的数据集，值得注意的是，这10个特征中的每个特征都已经被处理成0均值，⽅差归⼀化的特征值。

本文发布于:2024-09-21 13:26:20，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/307859.html

上一篇：基于特征聚类和形状分析的线状目标检测

下一篇：基于CT图像的肺实质分割方法[权威资料]

标签：数据样本特征任务图像标签分类训练

留言与评论（共有 0 条评论）