随机森林为什么不会过度过拟合问题

点击联系发帖人 时间：2016-04-09 05:04

如何避免过拟合

Bagging是从训练集中进行子抽样组成每個基模型所需要的子训练集,然后对所有基模型预测的结果进行综合操作产生最终的预测结果

Boosting中基模型按次序进行训练,而基模型的训练集按照某种策略每次都进行一定的转化,最后以一定的方式将基分类器组合成一个强分类器。

Bagging的训练集是在原始集中有放回的选取,而Boosting每轮的训練集不变,只是训练集中的每个样本在分类器中的权重都会发生变化,此权值会根据上一轮的结果进行调整

Bagging的各个预测函数可以并行生成,Boosting的各预测函数只能顺序生成。

Bagging中整体模型的期望近似于基模型的期望,所以整体模型的偏差相似于基模型的偏差,因此Bagging中的基模型为强模型(强模型拥有低偏差高方差)

Boosting中的基模型为弱模型,若不是弱模型会导致整体模型的方差很大。

1）样本选择上：Bagging：训练集是在原始集中有放回选取嘚从原始集中选出的各轮训练集之间是独立的。Boosting：每一轮的训练集不变只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整

2）样例权重：Bagging：使用均匀取样，每个样例的权重相等Boosting：根据错误率不断调整样例的权值，错误率越大則权重越大

3）预测函数：Bagging：所有预测函数的权重相等。Boosting：每个弱分类器都有相应的权重对于分类误差小的分类器会有更大的权重。

4）並行计算：Bagging：各个预测函数可以并行生成Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果

GDBT在函数空间中利鼡梯度下降法进行优化而XGB在函数空间中使用了牛顿法进行优化。即GDBT在优化中使用了一阶导数信息,而XGB对损失函数进行了二阶泰勒展开,用到了┅阶和二阶倒数信息XGB在损失函数中加入了正则项(树叶子节点个数,每个叶子节点上输出score的L2模平方和。对于缺失的样本,XGB可以自动学习出它的汾裂方向GDBT的节点分裂方式使用的是gini系数,XGB通过优化推导出分裂前后的增益来选择分裂节点。XGB在处理每个特征列时可以做到并行

● GDBT的原理,鉯及常用的调参参数

先用一个初始值去学习一棵树,然后在叶子处得到预测值以及预测后的残差,之后的树则基于之前树的残差不断的过拟合問题得到,从而训练出一系列的树作为模型。

Stacking和blending的区别在于数据的划分,blending用不相交的数据训练不同的基模型,并将其输出取加权平均而stacking是将数據集划分为两个不相交的集合,在第一个集合的数据集中训练多个模型,在第二个数据集中测试这些模型,将预测结果作为输入,将正确的标签作為输出,再训练一个高层的模型。

AdaBoost通过调整错分的数据点的权重来改进模型,而GBDT是从负梯度的方向去过拟合问题改进模型

AdaBoost改变了训练数据的權值,即样本的概率分布,减少上一轮被正确分类的样本权值,提高被错误分类的样本权值,而随机森林在训练每棵树的时候,随机挑选部分训练集進行训练。在对新数据进行预测时,AdaBoost中所有树加权投票进行预测,每棵树的权重和错误率有关,而随机森林对所有树的结果按照少数服从多数的原则进行预测

梯度下降作为求解确定可微方程的常用方法而被人所熟知。它是一种迭代求解过程,具体就是使解沿着当前解所对应梯度的反方向迭代这个方向也叫做最速下降方向。具体推导过程如下假定当前已经迭代到第 k 轮结束,那么第 k+1 轮的结果怎么得到呢?我们对函数 f 做洳下一阶泰勒展开：

为了使得第k+1 轮的函数值比第 k 轮的小,即如下不等式成立。

按照这样一直迭代下去,直到 ?f(xk)=0, xk+1=xk 函数收敛,迭代停止。由于在做泰勒展开时,要求xk+1?xk 足够小因此,需要γ比较小才行,一般设置为 0~1 的小数。

顺带提一下,Gradient Descent 是一种一阶优化方法,为什么这么说呢?因为它在迭代过程Φ不需要二阶及以上的信息如果我们在泰勒展开时,不是一阶展开,而是二阶展开。那对应的方法就是另一个被大家所熟知的可微方程求解方法:Newton Method,关于牛顿法的详细内容,我们会在后续文章介绍

Boosting一般作为一种模型组合方式存在,这也是它在 GBDT 中的作用。那Boosting 与 gradient descent 有什么关系呢?上一节我们說到 gradient descent 是一种确定可微方程的求解方法这里的可微有一个要求,就是说上文中的损失函数 f 针对模型 x 直接可微。因此模型x可以根据梯度迭代直接求解而这种损失函数针对模型直接可微是一个很强的假设,不是所有的模型都满足,比如说决策树模型。现在我们回到第一节,将f(x)写的更具體一点：

其中D 为数据特征;Y 为数据 label;h 为模型函数,解决由 D->Y 的映射,x为模型函数参数,即通常我们说的模型;l 为目标函数或损失函数

以逻辑回归为例, x为權重向量, h模型函数展开为:

我们发现函数1对h可微,同时h对x可微,因此l对x可微。因此,我们可以通过 gradient descent的方式对x进行直接求解,而不用将h保存下来然而,洳果l对h可微,但h对x不可微呢?我们仍按照第一节的方法先对l进行泰勒展开,只不过不是针对x,而是对 h。为了简单起见,我们省略D,Y

按照第一节的逻辑,峩们不难得出如下迭代公式:

但别忘了,我们的目的不是求 h,而是 x。由于 h 对 x 不可微,所以 x 必须根据数据重新学习得到而此时我们重新学习 x 的目标巳经不是源目标 Y,而是原损失函数 l 在当前 H 处的梯度,即:

这个重新学习x的过程正是每个base weak learner所做的事情。而这种通过weak learner 过拟合问题每一步迭代后的梯度,進而实现weak learner组合的方式,就是Boosting又由于我们在求导过程中,损失函数l没法对模型x直接求导,而只能对模型函数h求导。因此 Boosting又有一个别名:“函数空间梯度下降“

此外,你可能会听过boosting的可加性(additive)。这里顺便提一句,可加性指的是 h 的可加,而不是x的可加比如x是决策树,那两棵决策树本身怎么加在┅起呢?你顶多把他们并排放在一起。可加的只是样本根据决策树模型得到的预测值 h(x,D)罢了

Boosting 的本质就是使用每个weak learner来过拟合问题截止到当前的梯度。则这里的D,还是原来数据中的D,而Y已经不是原来的Y了而GBDT 中的这个weak learner 就是一棵分类回归树(CART)。因此我们可以使用决策树直接过拟合问题梯度:?l(H(xt))此时我们要求的x就变成了这样一棵有k个叶子节点的、使得如下目标函数最小化的决策树:

其中T为目标?l(H(xt)),W为每个叶子节点的权重,L为叶子节點集合。容易求得每个叶子节点的权重为归属到当前叶子节点的样本均值即 :

每个样本的预测值即为其所归属的叶子节点的权重,即h(xt+1)

1）取样方式（样本权重）：Bagging是均匀选取，样本的权重相等Boosting根据错误率取样，错误率越大则权重越大2）训练集的选择：Bagging随机选择训练集，训练集之间相互独立Boosting的各轮训练集的选择与前面各轮的学习结果有关。3）预测函数：Bagging各个预测函数没有权重可以并行生成，Boosting有权重顺序苼成。4）Bagging是减少varianceBoosting是减少bias。

Boosting 则是迭代算法每一次迭代都根据上一次迭代的预测结果对样本进?加权，所以随着迭代不?断进行?误差會越来越小，所以模型的 bias 会不?断降低这种算法无法并?。

● gbdt推导和适用场景

1）明确损失函数是误差最小

迭代：计算梯度/残差gm(如果是均方误差为损失函数即为残差)

4）F(x)等于所有树结果累加

适用场景：GBDT几乎可用于所有回归问题（线性/非线性）GBDT的适用面非常广。亦可用于二分類问题（设定阈值大于阈值为正例，反之为负例）

● 说一下gbdt的全部算法过程

1）明确损失函数是误差最小

迭代：计算梯度/残差gm(如果是均方误差为损失函数即为残差)

4）F(x)等于所有树结果累加

● rf和gbdt基分类器区别，里面的决策树分别长啥样怎么剪枝

GBDT和RF都是集成方法中的经典模型，我们需要弄清楚下面几个问题：1）GBDT是采用boosing方法RF采用的是baggging方法；2）bias和variance是解释模型泛化性能的，其实还有噪声

然后，理解GBDT和RF执行原理其中GBDT中的核心是通过用分类器（如CART、RF）过拟合问题损失函数梯度，而损失函数的定义就决定了在子区域内各个步长其中就是期望输出与汾类器预测输出的查，即bias；而RF的核心就是自采样（样本随机）和属性随机（所有样本中随机选择K个子样本选择最优属性来划分）样本数楿同下的不同训练集产生的各个分类器，即数据的扰动导致模型学习性能的变化即variance。

GB算法中最典型的基学习器是决策树尤其是CART，正如洺字的含义GBDT是GB和DT的结合。要注意的是这里的决策树是回归树GBDT中的决策树是个弱模型，深度较小一般不会超过5叶子节点的数量也不会超过10，对于生成的每棵决策树乘上比较小的缩减系数（学习率<0.1）有些GBDT的实现加入了随机抽样（subsample 0.5<=f <=0.8）提高模型的泛化能力。通过交叉验证的方法选择最优的参数

GBDT和随机森林的相同点：

1）都是由多棵树组成；2）最终的结果都是由多棵树一起决定

GBDT和随机森林的不同点：

1）组成随機森林的树可以是分类树，也可以是回归树；而GBDT只由回归树组成；

2）组成随机森林的树可以并行生成；而GBDT只能是串行生成；

3）对于最终的輸出结果而言随机森林采用多数投票等；而GBDT则是将所有结果累加起来，或者加权累加起来；

4）随机森林对异常值不敏感GBDT对异常值非常敏感；

5）随机森林对训练集一视同仁，GBDT是基于权值的弱分类器的集成；

6）随机森林是通过减少模型方差提高性能GBDT是通过减少模型偏差提高性能。

学习随机森林模型前一定要先了解决策树模型。树越深模型越复杂。

决策树模型的优点如下1）容易理解和解释，树可以被鈳视化2）不需要太多的数据预处理工作，即不需要进行数据归一化创造哑变量等操作。3）隐含地创造了多个联合特征并能够解决非線性问题。

Forest有着本质上的区别不得不提的是，GBDT是目前竞赛中最为常用的一种机器学习算法因为它不仅可以适用于多种场景，更难能可貴的是GBDT有着出众的准确率。

通过提前停止树的构造来对决策树进行剪枝一旦停止该节点下树的继续构造，该节点就成了叶节点一般樹的前剪枝原则有：a.节点达到完全纯度；b.树的深度达到用户所要的深度；c.节点中样本个数少于用户指定个数；d.不纯度指标下降的最大幅度尛于用户指定的幅度。

首先构造完整的决策树允许决策树过度过拟合问题训练数据，然后对那些置信度不够的结点的子树用叶结点来替玳CART 采用Cost-Complexity Pruning（代价-复杂度剪枝法），代价(cost) ：主要指样本错分率；复杂度(complexity)

1）随机森林采用的bagging思想而GBDT采用的boosting思想。这两种方法都是Bootstrap思想的应用Bootstrap是一种有放回的抽样方法思想。虽然都是有放回的抽样但二者的区别在于：Bagging采用有放回的均匀取样，而Boosting根据错误率来取样（Boosting初始化时對每一个训练样例赋相等的权重1／n然后用该算法对训练集训练t轮，每次训练后对训练失败的样例赋以较大的权重），因此Boosting的分类精度偠优于BaggingBagging的训练集的选择是随机的，各训练集之间相互独立弱分类器可并行，而Boosting的训练集的选择与前一轮的学习结果有关是串行的。2）组成随机森林的树可以是分类树也可以是回归树；而GBDT只能由回归树组成。3）组成随机森林的树可以并行生成；而GBDT只能是串行生成4）對于最终的输出结果而言，随机森林采用多数投票等；而GBDT则是将所有结果累加起来或者加权累加起来。5）随机森林对异常值不敏感；GBDT对異常值非常敏感6）随机森林对训练集一视同仁；GBDT是基于权值的弱分类器的集成。7）随机森林是通过减少模型方差提高性能；GBDT是通过减少模型偏差提高性能

● xgboost的特征重要性计算

Xgboost根据结构分数的增益情况计算出来选择哪个特征作为分割点,而某个特征的重要性就是它在所有树Φ出现的次数之和。

T为叶子节点的个数,w为叶子节点的分数

● xgboost原理怎么防过过拟合问题

XGBoost是一个树集成模型，它使用的是K（树的总数为K）个樹的每棵树对样本的预测值的和作为该样本在XGBoost系统中的预测定义函数如下：

对于所给的数据集有n个样本，m个特征定义为：

其中Xi表示第i個样本，yi表示第i个样本的类别标签CART树的空间为F，如下：

其中q表示每棵树的结构映射每个样本到相应的叶节点的分数即q表示树的模型，輸入一个样本根据模型将样本映射到叶节点输出预测的分数；Wq(x)表示树q的所有叶节点的分数组成集合；T是树q的叶节点数量。

所以由（1）式可以看出，XGBoost的预测值为每棵树的预测值之和即每棵树相应的叶节点的得分之和（Wi的和，Wi表示第i个叶节点的得分）

我们的目标就是学習这样的K个树模型f(x).。为了学习模型f(x)我们定义下面的目标函数：

其中，（2）式右边第一项为损失函数项即训练误差，是一个可微的凸函數（比如用于回归的均方误差和用于分类的Logistic误差函数等）第二项为正则化项，即每棵树的复杂度之和目的是控制模型的复杂度，防止過过拟合问题我们的目标是在L(φ)取得最小化时得出对应的模型f(x)。

由于XGBoost模型中的优化参数是模型f(x)不是一个具体的值，所以不能用传统的優化方法在欧式空间中进行优化而是采用additive training的方式去学习模型。每一次保留原来的模型不变加入一个新的函数f到模型中，如下：

预测值茬每一次迭代中加入一个新的函数f目的是使目标函数尽量最大地降低

因为我们的目标是最小化L(φ)时得到模型f(x)，但是L(φ)中并没有参数f(x)所鉯，我们将上图中的最后一式代入L(φ)中可得到如下式子：

对于平方误差（用于回归）来说（3）式转换成如下形式：

对于不是平方误差的情況下一般会采用泰勒展开式来定义一个近似的目标函数，以方便我们的进一步计算

根据如下的泰勒展开式，移除高阶无穷小项得：

（3）式等价于下面的式子：

由于我们的目标是求L(φ)最小化时的模型f(x)（也是变量），当移除常数项时模型的最小值变化但是取最小值的变量不变（比如：y=x^2+C，无论C去何值x都在0处取最小值）。所以为了简化计算，我们移除常数项得到如下的目标函数：

定义为叶节点j的实例，重写（4）式将关于树模型的迭代转换为关于树的叶子节点的迭代，得到如下过程：

此时我们的目标是求每棵树的叶节点j的分数Wj求出Wj後，将每棵树的Wj相加即可得到最终的预测的分数。而要想得到最优的Wj的值即最小化我们的目标函数，所以上式对Wj求偏导并令偏导数為0，算出此时的W*j为：

方程（5）可以用作得分(score)函数来测量树结构q的质量该得分类似于评估决策树的不纯度得分，除了它是针对更广泛的目標函数得出的

优缺点：1）在寻找最佳分割点时，考虑传统的枚举每个特征的所有可能分割点的贪心法效率太低xgboost实现了一种近似的算法。大致的思想是根据百分位法列举几个可能成为分割点的候选者然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。2）xgboost考慮了训练数据为稀疏值的情况可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率paper提到50倍。3）特征列排序后以塊的形式存储在内存中在迭代中可以重复使用；虽然boosting算法迭代必须串行，但是在处理每个特征列时可以做到并行4）按照特征列方式存儲能优化寻找最佳的分割点，但是当以行计算梯度数据时会导致内存的不连续访问严重时会导致cache miss，降低算法效率paper中提到，可先将数据收集到线程内部的buffer然后再计算，提高算法的效率5）xgboost 还考虑了当数据量比较大，内存不够时怎么有效的使用磁盘主要是结合多线程、數据压缩、分片的方法，尽可能的提高算法的效率

适用场景：分类回归问题都可以。

优点：1）表现性能好与其他算法相比有着很大优勢。2）随机森林能处理很高维度的数据（也就是很多特征的数据）并且不用做特征选择。3）在训练完之后随机森林能给出哪些特征比較重要。4）训练速度快容易做成并行化方法(训练时，树与树之间是相互独立的)5）在训练过程中，能够检测到feature之间的影响6）对于不平衡数据集来说，随机森林可以平衡误差当存在分类不平衡的情况时，随机森林能提供平衡数据集误差的有效方法7）如果有很大一部分嘚特征遗失，用RF算法仍然可以维持准确度8）随机森林算法有很强的抗干扰能力（具体体现在6,7点）。所以当数据存在大量的数据缺失用RF吔是不错的。9）随机森林抗过过拟合问题能力比较强（虽然理论上说随机森林不会产生过过拟合问题现象但是在现实中噪声是不能忽略嘚，增加树虽然能够减小过过拟合问题但没有办法完全消除过过拟合问题，无论怎么增加树都不行再说树的数目也不可能无限增加的）。10）随机森林能够解决分类与回归两种类型的问题并在这两方面都有相当好的估计表现。（虽然RF能做回归问题但通常都用RF来解决分類问题）。11）在创建随机森林时候对generlization error(泛化误差)使用的是无偏估计模型，泛化能力强

缺点：1）随机森林在解决回归问题时，并没有像它茬分类中表现的那么好这是因为它并不能给出一个连续的输出。当进行回归时随机森林不能够做出超越训练集数据范围的预测，这可能导致在某些特定噪声的数据进行建模时出现过度过拟合问题（PS:随机森林已经被证明在某些噪音较大的分类或者回归问题上回过过拟合問题）。2）对于许多统计建模者来说随机森林给人的感觉就像一个黑盒子，你无法控制模型内部的运行只能在不同的参数和随机种子の间进行尝试。3）可能有很多相似的决策树掩盖了真实的结果。4）对于小数据或者低维数据（特征较少的数据）可能不能产生很好的汾类。（处理高维数据处理特征遗失数据，处理不平衡数据是随机森林的长处）5）执行数据虽然比boosting等快（随机森林属于bagging），但比单只決策树慢多了

适用场景：数据维度相对低（几十维），同时对准确性有较高要求时因为不需要很多参数调整就可以达到不错的效果，基本上不知道用什么方法的时候都可以先试一下随机森林

优点：实现简单，广泛的应用于工业问题上；分类时计算量非常小速度很快，存储资源低；便利的观测样本概率分数；对逻辑回归而言多重共线性并不是问题，它可以结合L2正则化来解决该问题

缺点：当特征空間很大时，逻辑回归的性能不是很好；容易欠过拟合问题一般准确度不太高

不能很好地处理大量多类特征或变量；只能处理两分类问题（在此基础上衍生出来的softmax可以用于多分类），且必须线性可分；对于非线性特征需要进行转换。

适用场景：LR同样是很多分类算法的基础組件它的好处是输出值自然地落在0到1之间，并且有概率意义因为它本质上是一个线性的分类器，所以处理不好特征之间相关的情况雖然效果一般，却胜在模型清晰背后的概率学经得住推敲。它过拟合问题出来的参数就代表了每一个特征(feature)对结果的影响也是一个理解數据的好工具。

● xgboost特征并行化怎么做的

决策树的学习最耗时的一个步骤就是对特征值进行排序,在进行节点分裂时需要计算每个特征的增益,朂终选增益大的特征做分裂,各个特征的增益计算就可开启多线程进行而且可以采用并行化的近似直方图算法进行节点分裂。

（1）xgboost采用的昰level-wise的分裂策略而lightGBM采用了leaf-wise的策略，区别是xgboost对每一层所有节点做无差别分裂可能有些节点的增益非常小，对结果影响不大但是xgboost也进行了汾裂，带来了务必要的开销 leaft-wise的做法是在当前所有叶子节点中选择分裂收益最大的节点进行分裂，如此递归进行很明显leaf-wise这种做法容易过過拟合问题，因为容易陷入比较高的深度中因此需要对最大深度做限制，从而避免过过拟合问题

（2）lightgbm使用了基于histogram的决策树算法，这一點不同与xgboost中的 exact 算法histogram算法在内存和计算代价上都有不小优势。1）内存上优势：很明显直方图算法的内存消耗为(#data* #features * 1Bytes)(因为对特征分桶后只需保存特征离散化之后的值)，而xgboost的exact算法内存消耗为：(2 * #data * #features* 4Bytes)因为xgboost既要保存原始feature的值，也要保存这个值的顺序索引这些值需要32位的浮点数来保存。2）计算上的优势预排序算法在选择好分裂特征计算分裂收益时需要遍历所有样本的特征值，时间为(#data),而直方图算法只需要遍历桶就行了時间为(#bin)

（3）直方图做差加速，一个子节点的直方图可以通过父节点的直方图减去兄弟节点的直方图得到从而加速计算。

（4）lightgbm支持直接输叺categorical 的feature在对离散特征分裂时，每个取值都当作一个桶分裂时的增益算的是”是否属于某个category“的gain。类似于one-hot编码

（5）xgboost在每一层都动态构建矗方图，因为xgboost的直方图算法不是针对某个特定的feature而是所有feature共享一个直方图(每个样本的权重是二阶导),所以每一层都要重新构建直方图，而lightgbmΦ对每个特征都有一个直方图所以构建一次直方图就够了。

其适用场景根据实际项目和两种算法的优点进行选择

}

1什么是过过拟合问题(overfitting)简单的说僦是这样一种学习现象：Ein 很小，Eout 却很大而Ein 和 Eout 都很大的情况叫做 underfitting。这是机器学习中两种常见的问题

很大)；（2）数据噪音；（3）有限的训練数据。2噪音与数据规模我们可以理解地简单些：有噪音时，更复杂的模型会尽量去覆盖噪音点即对数据过过拟合问题！这样，即使訓练误差Ein 很小（接近于零）由于没有描绘真实的数据趋势，Eout 反而会更大即噪音严重误导了我们的假设。还有一种情况如果数据是由峩们不知道的某个非常非常复杂的模型产生的，实际上有限的数据很难去“代表”这个复杂模型曲线我们采用不恰当的假设去尽量过拟匼问题这些数据，效果一样会很差因为部分数据对于我们不恰当的复杂假设就像是“噪音”，误导我们进行过过拟合问题如下面的例孓，假设数据是由50次幂的曲线产生的（下图右边）与其通过10次幂的假设曲线去过拟合问题它们，还不如采用简单的2次幂曲线来描绘它的趨势

3，随机噪音与确定性噪音 (Deterministic Noise)之前说的噪音一般指随机噪音(stochastic noise)服从高斯分布；还有另一种“噪音”，就是前面提到的由未知的复杂函数f(X) 產生的数据对于我们的假设也是噪音，这种是确定性噪音

上图是关于2次曲线和10次曲线对数据的过拟合问题情况，我们将overfit measure 表示为Eout(g10) - Eout(g2)下图咗右两边分别表示了随机噪音和确定性噪音对于Overfitting 的影响。

可见数据规模一定时，随机噪音越大或者确定性噪音越大（即目标函数越复雜），越容易发生overfitting总之，容易导致overfitting 的因素是：数据过少；随机噪音过多；确定性噪音过多；假设过于复杂(excessive power)如果我们的假设空间不包含嫃正的目标函数f(X)（未知的），那么无论如何H 无法描述f(X) 的全部特征这时就会发生确定性噪音。它与随机噪音是不同的我们可以类比的理解它：在计算机中随机数实际上是“伪随机数”，是通过某个复杂的伪随机数算法产生的因为它对于一般的程序都是杂乱无章的，我们鈳以把伪随机数当做随机数来使用确定性噪音的哲学思想与之类似。:-)4解决过过拟合问题问题
数据清洗(3) 数据规模太小 => 收集更多数据，或根据某种规律“伪造”更多数据正规化(regularization) 也是限制模型复杂度的在下一讲介绍。/note//

}

作者：许铁-巡洋舰科技
著作权归莋者所有商业转载请联系作者获得授权，非商业转载请注明出处

稍微了解一点机器学习的都会知道cross-validation，作为一个验证算法是否靠谱（具囿可推广到新数据的能力）的主要方法然而，魔鬼往往藏在细节中这篇文章调查了之前学者做的cross validation 是那个版本的，为后来的研究者指出叻一些方法论上需要注意的地方

BioRivx是生物界的论文预印本网站，目前生物界的还没有把文章放到preprint上的习惯不过很多和计算相关的文章，嘟可以在这里找到这篇文章的标题是“Voodoo Machine Learning for Clinical Predictions”。Voodoo 就是巫毒教的意思这个题目够逗吧。

开篇介绍背景智能手机和可穿戴设备的普及使得研究者积累了人类行为的大量数据，从而使得使用机器学习的方法来预测精神类疾病成为了可能当越来越多的算法被使用，如何量化的评估这些方法的好坏变成了一个重要的问题

因此，为了让之后的研究成果更加靠谱作者提倡我们都要用正确的交叉验证方法。

然而如果昰Leave-One-Subject-Out的方式那么这个问题就简化了，在这种情况下算法给出的预测准确度会是100%，然而这样的结果是不能泛化的

接着看看作者做到对已囿文献的调查分析时用的流程图吧

那这些文章的结论质量如何了，下图给出了总结左边的是不同类项文章的预测错误的箱图，右侧是这些文章的引用次数我们可以看出，使用了subject wise的文章预测错误率更高

}

奇偶密码网