机器学习(六)统计学习理论

统计学习理论的意义统计学习理论提供了机器学习的一个理论基础。通过理论推导,从本质上说明了机器学习为什么会出现过拟合现象,以及过拟合与模型选择、训练数据之间有什么关系。数学推导设训练集S={(xi,yi)}mi=1S={(xi,yi)}i=1mS=\{(x_i, y_i) \}_{i=1}^m,所有的(xi,yi)(xi,yi)(x_i,y_i)独立同分布(Independent and ident

统计学习理论的意义

统计学习理论提供了机器学习的一个理论基础。通过理论推导,从本质上说明了机器学习为什么会出现过拟合现象,以及过拟合与模型选择、训练数据之间有什么关系。

数学推导

设训练集S={(xi,yi)}i=1m,所有的(xi,yi)独立同分布(Independent and identical distribution),则我们可以定义分类器hθ测试误差(这里指的是在训练集上的误差)为(Empirical Risk):

ε^(hθ)=1mi=1mI(hθ(xi)yi)

I(x)
hθ
ε(hθ)=P(x,y)(h(x)y) =hθ(x,y)yp(x,y)dxdy


P(|ε(hθε^(hθ))|>δ)2e2δ2m

δ2e2δ2m

引理:设z1,z2,...,zmm个独立随机变量,满足P(zi=1)=ϕ,P(zi=0)=1ϕ  (i=1~m)
定义: