加载Scikit-learn自带的数据集

scikit-learn自带少量数据集，比如说用于分类分析的鸢尾花数据集和数码数据集、用于回归分析的波士顿房价数据集。

数据集是一个字典类对象，它包括数据以及描述数据的元数据。这些数据被存放在包含n_samples, n_features数组的.data成员中。对于监督学习问题而言，还包括用于储存标签和结果的.target成员。下面以加载鸢尾花数据集和数码数据集为例：

from sklearn import datasets
iris = datasets.load_iris()        #加载鸢尾花数据集
digits = datasets.load_digits()    #加载数码数据集
'''
数码数据集由1797个8x8图像数据矩阵组成，每个图像数据矩阵都代表一个手写的数字图像。digits.data是数字图像矩阵，digits.target分别表示digits.data数字图像矩阵分别表示的数字。数组都是numpy数组。
'''
print(digits.data)
'''
[[  0.   0.   5. ...,   0.   0.   0.]
 [  0.   0.   0. ...,  10.   0.   0.]
 [  0.   0.   0. ...,  16.   9.   0.]
 ...,
 [  0.   0.   1. ...,   6.   0.   0.]
 [  0.   0.   2. ...,  12.   0.   0.]
 [  0.   0.  10. ...,  12.   1.   0.]]
'''
print(digits.target)
'''
[0, 1, 2, ..., 8, 9, 8]
'''

示例代码：Scikit-learn-essential.py

机器学习基础 互动版

加载Scikit-learn自带的数据集

机器学习基础互动版