回归分析与波士顿房价数据集
什么是支持向量回归
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。比如在中学阶段我们就学过通过最小二乘法回归分析对若干组变量进行线性拟合。现在我们将借助支持向量机进行回归分析。
支持向量其实是表示n维空间内某个n-1维超平面的一组变量。若干组由n个变量组成的数据项,都可以看作n维空间内的点。现在拟合一个n-1维的超平面,使这些点尽可能靠近这个超平面,则该超平面为这些点的支持向量回归面。只要确定n个变量中的任意n-1个变量,就能借助该超平面确定剩余的一个变量。该方法被称为支持向量回归法。
在支持向量机分类时,支持向量要尽可能把不同标签的点分隔开。而在支持向量回归时,则要让支持向量尽可能靠近所有点。
波士顿房价数据集
scikit-learn自带波士顿房价集,该数据集来源于1978年美国某经济学杂志上。该数据集包含若干波士顿房屋的价格及其各项数据,每个数据项包含14个数据,分别是房屋均价及周边犯罪率、是否在河边等相关信息,其中最后一个数据是房屋均价。
加载波士顿房价数据集
from sklearn import datasets #鸢尾花数据集被sklearn的datasets所包含,需要引用
from sklearn.cross_validation import train_test_split
from sklearn.svm import SVR
from numpy import *
house_dataset = datasets.load_boston(); #加载波士顿房价数据集
house_data = house_dataset.data; #加载房屋属性参数
house_price = house_dataset.target; #加载房屋均价