Scikit-Learn(1.Sklearn提供的常用数据集-自带的小数据集)

Scikit-Learn(1.Sklearn提供的常⽤数据集-⾃带的⼩数据集)
⼀、⾃带的⼩数据集(packageddataset):sklearn.datasets.load_
推荐读者阅读⽹站:
1. (l) www.w3cschool/doc_scikit_learn/scikit_learn-modules-generated-sklearn-datasets-load_digits.html
2. ()/docs/0.21.3/47.html
3. /stable/
1)鸢尾花数据集:load_iris():⽤于分类任务的数据集新语丝网
数据介绍:
⼀般⽤于做分类测试
有150个数据集,共分为3类,每类50个样本。每个样本有4个特征
每条记录都有 4 项特征:包含4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度)),特征值都为正浮点数,单位为厘⽶。
可以通过这4个特征预测鸢尾花卉属于(iris-setosa(⼭鸢尾), iris-versicolour(杂⾊鸢尾), iris-virginica(维吉尼亚鸢尾))中的哪⼀品种。
属性介绍:
见代码注释
代码⽰例:
# 鸢尾花数据集:
from sklearn import datasets
# iris:鸢尾花数据集:--> ⽤于分类
# 有150个数据集,共分为3类,每类50个样本。每个样本有4个特征。
# 加载数据集
iris = datasets.load_iris()# 加载iris数据集
# 打印数据集的相关信息
n_samples,n_features=iris.data.shape
print("共有", n_samples,"个样本, 每个样本有", n_features,"个特征")#输出:共有 150 个样本, 每个样本有 4 个特征print("iris.data.shape --> ",iris.data.shape)# 样本,输出:iris.data.shape -->  (150, 4)
print("iris.target.shape --> ",iris.target.shape)# 标签, 输出:iris.target.shape -->  (150,)
# print("这是四个特征值:\n",iris.feature_names) # 样本对应的每个特征的意义
# print("iris.target_names --> ",iris.target_names) # 三种鸢尾花数据的具体名字
# print("iris data :\n ",iris.data) # 样本数据(150,4)
# print("iris traget :\n ",iris.target) # 每隔样本对应的标签(150,1)
# print("dict_keys:\n",iris.keys())  #dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename']) # print("查看数据集描述:\n",iris["DESCR"])
# print("鸢尾花数据集:\n",iris)
# 给数据集划分训练集和测试集:
# 当我们得到所有的数据集,不能全部⽤来进⾏训练,要给他划分为训练集和测试集
# train_test_split(数据集的特征值,数据集的标签值,测试集的⼤⼩(float型),随机种⼦(相同的随机种⼦结果相同)) del_selection import train_test_split # 导⼊模块
x_train, x_test, y_train, t_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
print("训练集样本⼤⼩",x_train.shape)# 输出:训练集样本⼤⼩ (120, 4)
print("训练集标签⼤⼩",y_train.shape)# 输出:训练集标签⼤⼩ (120,)
其他:
参考博客:
1.
2)⼿写数字数据集:load_digits():⽤于分类任务或者降维任务的数据集
数据介绍:
⼿写数字数据集:load_digits():⽤于分类任务或者降维任务的数据集。
1797张样本图⽚,每个样本有64维特征(8*8像素的图像)和⼀个[0, 9]整数的标签属性介绍:
见代码注释
代码⽰例:
# ⼿写数字数据集:load_digits():⽤于分类任务或者降维任务的数据集
# 1797张样本图⽚,每个样本有64维特征(8*8像素的图像)和⼀个[0, 9]整数的标签
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
# 加载数据集
digits = load_digits()
n_samples,n_features=digits.data.shape
print("共有 ", n_samples," 个样本数据,每个样本有 ", n_features," 个特征")
print("⼿写数字集的⼤⼩ --> ",digits.data.shape)#(1797, 64)
print("⼿写数字集的形状 --> ", digits.images.shape)#(1797, 8, 8)
# 证明:digits.data 是将 digits.images 按⾏展开成⼀⾏,共有1797⾏
# print(np.all(shape((1797,64)) == digits.data))
徐玉凤# print(np.all(shape((1797,8,8)) == digits.images))
# print(digits.target[63]) # 第63张图的表⽰是多少
# print("digits.keys() --> ",digits.keys()) # digits.keys() -->  dict_keys(['data', 'target', 'target_names', 'images', 'DESCR']) # # 显⽰第⼀张图⽚, 也可以⽤: plt.imshow(digits.images[0])
# ay()
# plt.matshow(digits.images[0])
# plt.show()
# 显⽰⼿写数字⽅法⼀:
fig=plt.figure(figsize=(6,6))
fig.subplots_adjust(left=0,right=1,bottom=0,top=1,hspace=0.05,wspace=0.05)
#绘制数字:每张图像8*8像素点
for i in range(64):哥伦比亚大选投票
ax=fig.add_subplot(8,8,i+1,xticks=[],yticks=[])
ax.imshow(digits.images[i],binary,interpolation='nearest')
#⽤⽬标值标记图像
<(0,7,str(digits.target[i]))
plt.show()
# # 显⽰⼿写数字⽅法⼆:
# fig, ax = plt.subplots(
男峰论坛#        nrows=2,
#        ncols=5,
#        sharex=True,
故宫博物院教学设计
#        sharey=True, )
# ax = ax.flatten()
# for i in range(10):
#    ax[i].imshow(digits.data[i].reshape((8,8)), cmap='Greys', interpolation='nearest')
# plt.show()
库存物资其他:
参考博客:
1.
3)乳腺癌数据集load-barest-cancer():简单经典的⽤于⼆分类任务的数据集
⽤的⽐较少,具体⽤法可以见
4)糖尿病数据集:load-diabetes():经典的⽤于回归认为的数据集,值得注意的是,这10个特征中的每个特征都已经被处理成0均值,⽅差归⼀化的特征值。

本文发布于:2024-09-21 13:26:20,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/307859.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   样本   特征   任务   图像   标签   分类   训练
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议