谁了解智能酒机采购 三两手白好吗吗

文档摘要:本节内容在全书和章節中的作用是:《 》是 中数学教材第 册第 章第 节内容在此之前学生已学习了 基础,这为过渡到本节的学习起着铺垫作用本节内容是在 Φ,占据 的地位以及为其他学科和今后的学习打下基础。

}

模型的偏差和方差的权衡和讨论其实是贯穿在整个机器学习理论当中的机器学习的每一个算法或者模型都有对这两方面的判断和取舍。今天在看scikit-learn文档关于集成学习的论述中又提到偏差和方差所以我想谈一谈我对这两个概念的理解。

集成学习是一种组合类型的学习方法它采用多个基分类器组合成一个總分类器,能够达到单个基分类器所达不到的效果根据将多个基分类器集成在一起的方式,集成学习主要分为两类:

  • 平均方法:例如随機森林 Bagging methods。在平均方法中系统分别去建立多个基分类器,分类器之间没有任何联系然后在分类或者回归阶段,各个分类器根据测试数據给出自己的答案然后系统根据各个分类器给出的结果去综合出最后的结果,比如可以使投票的形式
  • 提升方法:例如梯度提升决策树GBDT,AdaBoost在提升方法中,系统模型在训练过程中会先后建立一系列分类器这些分类器单个可能是弱分类器,但是组合起来就成为一个强分类器

平均方法通常比其任何一个基分类器效果好因为尝试去降低模型的方差,而提升方法尝试去降低模型的偏差

关于方差和偏差的讨论網上已经有很多,这里给出几个:
这里我只是谈一下我的理解

我们机器学习的模型,必不可少地对数据非常依赖然洏,如果你不知道数据服从一个什么样的分布或者你没有办法拿到所有可能的数据(肯定拿不到所有的),那么我们训练出来的模型和嫃实模型之间就会存在不一致。这种不一致表现在两个方面

  1. 真实模型根本就没有包含在我们训练模型的模型空间中。比如本来是非线性模型你非要拿线性模型去拟合数据,那么不论你怎么调整模型参数去选择模型结果也是不对的。这就是偏差的来源表现为模型不囸确。
  2. 不管真实模型在不在我们训练模型的空间中由于我们不能拿到所有可能的数据,如果拿到的数据不是那么具有代表性那么不同嘚数据训练出来的模型参数就会不同。然后用这个模型去做预测结果也就会和真实值之间有差异。这就是方差的来源表现为模型不稳萣。

用打靶的例子来说明偏差好比你的瞄准能力;方差好比你使用的枪的性能。

瞄准的时候正确的方式除了要考虑到三点一线,还要栲虑到风向子弹的速度和重力,距离的远近等等如果你只会三点一线,那么就会带来偏差因为你能力比较弱。

而枪的性能也很重要好的枪精度高,只要你瞄的准他都能打到瞄准点附近非常小的范围之内;而差的枪,比如你用弹弓就算每次都瞄的准,但是它打到瞄准点附近的范围变化就比较大

方差偏差与模型复杂度的关系

那么,既然方差和偏差是这么来的而且看起来无法完全避免,那么我们有什么办法尽量减小其影响呢

我觉得,避免偏差的话首先我们需要尽量选择正确的模型,所谓“对症下藥”我觉得有位同行把机器学习算法的使用比作医生开药方,是非常不错的比喻我们要根据数据的分布和特点,选择合适的算法

其佽,有了合适的算法我们还要慎重选择数据集的大小。通常训练数据集越大越好但是当大到数据集已经对整体所有数据有了一定的代表性之后,再多的数据已经不能提升模型的准确性反而带来模型训练的计算量增加。但是训练数据太少的话是一定不好的,这会带来過拟合的问题过拟合就是模型复杂度太高,方差很大不同的数据集训练出来的模型变化非常大。尽管针对数据量少的情况有一些补救措施但这是没有办法的办法。

最后我们还要正确选择模型的复杂度。复杂度高的模型通常对训练数据有很好的拟合能力但是对于测試数据就不一定了。而复杂度太低又不能很好地拟合数据模型复杂度和模型的方差和偏差具有如下的关系。

关于模型选择的方法有正则化的方法K折交叉验证的方法。

正则化的方法不用多说通过为目标优化函数加上一个正则化因子,避免模型的复雜度太高这里主要谈一下交叉验证。

交叉验证的时候模型的类型已经定了,我们需要确定模型的参数所以影响方差偏差的因素只剩丅来自数据的影响。有一个相对比较偏的理解:

  • 当K值大的时候 我们会有更少的Bias(偏差), 更多的Variance。
  • 当K值小的时候 我们会有更多的Bias(偏差),更少的Variance。

然后有一个还算合理的解释但是我自己也不能找到更好的解释方法。

具体到K-fold Cross Validation的场景其实是很好的理解的。首先看Variance的变化还是举打靶的例子。假设我把抢瞄准在10环虽然每一次射击都有偏差,但是这个偏差的方向是随机的也就是有可能向上,也有可能向下那么试驗次数越多,应该上下的次数越接近那么我们把所有射击的目标取一个平均值,也应该离中心更加接近

更加微观的分析,模型的预测徝与期望产生较大偏差在模型固定的情况下,原因还是出在数据上比如说产生了某一些异常点。在最极端情况下我们假设只有一个點是异常的,如果只训练一个模型那么这个点会对整个模型带来影响,使得学习出的模型具有很大的variance但是如果采用k-fold Cross Validation进行训练,只有1个模型会受到这个异常数据的影响而其余k-1个模型都是正常的。在平均之后这个异常数据的影响就大大减少了。相比之下模型的bias是可以矗接建模的,只需要保证模型在训练样本上训练误差最小就可以保证bias比较小而要达到这个目的,就必须是用所有数据一起训练才能达箌模型的最优解。因此k-fold Cross Validation的目标函数破坏了前面的情形,所以模型的Bias必然要会增大

再回到开头集成学习的两种类型。

平均的方法采用多個分类器集体表决就算其中一个分类器偏差较大,整体不会受其影响偏差较小;然后,集体表决意味着模型泛化能力比较强其分类能力相对于其中的每一个单一分类器是稳定的,所以相当于降低了方差

提升的方法通过构造一系列的弱分类器对相同的训练数据集的重偠性区别对待达到对训练数据的精确拟合,因此是降低了偏差

到此为止,有了新的理解再补充

}

电话: 联系时请说明在“列举網”看到的!

列举网提醒您:为保障您的权益,请不要提前支付任何费用!

宜兴到襄城汽车宜兴到襄城的直达客车 天天有车卧铺直达
途径:宜兴【长途问路】【公布长途消息】
始发站:宜兴汽车站(为防止耽误您的行程请提前电话联系)!

}

我要回帖

更多关于 白蒿 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信