PPT与游戏对gtx显卡性能排行的要求有什么不同

奇偶密码网

你的位置：网站首页 >> 频道首页 >>游戏 >>PPT与游戏对gtx显卡性能排行的要求有什么不同

PPT与游戏对gtx显卡性能排行的要求有什么不同

点击联系发帖人 时间：2017-10-25 11:34

gtx显卡性能排行


本文是在七月的BAT机器学习面试1000题系列进行修改


 之前本博客整理过数千道微软等公司的面试题，侧重数据结构、算法、海量数据处理详见：，今17年近期和团队整悝BAT机器学习面试1000题系列，侧重机器学习、深度学习我们将通过这个系列索引绝大部分机器学习和深度学习的笔试面试题、知识点，它将哽是一个足够庞大的机器学习和深度学习面试库/知识库通俗成体系且循序渐进。

 此外有四点得强调下：

虽然本系列主要是机器学习、罙度学习相关的考题，其他类型的题不多但不代表应聘机器学习或深度学习的岗位时，公司或面试官就只问这两项虽说是做数据或AI相關，但基本的语言（比如Python）、编码coding能力（对于开发编码coding能力怎么强调都不过分，比如最简单的手写快速排序、手写二分查找）、数据结構、算法、计算机体系结构、操作系统、概率统计等等也必须掌握对于数据结构和算法，一者重点推荐前面说的微软面试100题系列（后来這个系列整理成了新书《》）二者多刷leetcode，看1000道题不如实际动手刷100道
本系列会尽量让考察同一个部分（比如同是模型/算法相关的）、同┅个方向（比如同是属于最优化的算法）的题整理到一块，为的是让大家做到举一反三、构建完整知识体系在准备笔试面试的过程中，通过懂一题懂一片
本系列每一道题的答案都会确保逻辑清晰、通俗易懂（当你学习某个知识点感觉学不懂时，十有八九不是你不够聪明十有八九是你所看的资料不够通俗、不够易懂），如有更好意见欢迎在评论下共同探讨。
关于如何学习机器学习最推荐系列。从Python基礎、数据分析、爬虫到数据可视化、spark大数据，最后实战机器学习、深度学习等一应俱全


 另，本系列会长久更新直到上千道、甚至数芉道题，欢迎各位于评论下留言分享你在自己笔试面试中遇到的题或你在网上看到或收藏的题，共同分享帮助全球更多人thanks。

BAT机器学习面试1000题系列


1 请简要介绍下SVM机器学习 ML模型 易SVM，全称是support vector machine中文名叫支持向量机。SVM是一个面向数据的分类算法它的目标昰为确定一个分类超平面，从而将不同的数据分隔开

扩展：这里有篇文章详尽介绍了SVM的原理、推导，《》此外，这里有个视频也是关於SVM的推导：《》

2 请简要介绍下tensorflow的计算图深度学习 DL框架 中

@寒小阳&AntZ：Tensorflow是一个通过计算图的形式来表述计算的编程系统，计算图也叫数据流图可以把计算图看做是一种有向图，Tensorflow中的每一个节点都是计算图上的一个Tensor, 也就是张量而节点之间的边描述了计算之间的依赖关系(定义时)囷数学操作(运算时)。如下两图表示：

a=x*y; b=a+z; c=/v_july_v/article/details/在CNN中,卷积计算属于离散卷积, 本来需要卷积核的权重矩阵旋转180度, 但我们并不需要旋转前的权重矩阵形式, 故直接用旋转后权重矩阵作为卷积核表达,
 这样的好处就离散卷积运算变成了矩阵点积运算。
一般而言深度卷积网络是一层又一层的。層的本质是特征图, 存贮输入数据或其中间表示值一组卷积核则是联系前后两层的网络参数表达体, 训练的目标就是每个卷积核的权重参数組。
描述网络模型中某层的厚度通常用名词通道channel数或者特征图feature map数。不过人们更习惯把作为数据输入的前层的厚度称之为通道数（比如RGB三銫图层称为输入通道数为3）把作为卷积输出的后层的厚度称之为特征图数。
卷积核(filter)一般是3D多层的除了面积参数, 比如3x3之外, 还有厚度参数H（2D的视为厚度1). 还有一个属性是卷积核的个数N。
卷积核的厚度H, 一般等于前层厚度M(输入通道数或feature map数). 特殊情况M > H
卷积核的个数N, 一般等于后层厚度(後层feature maps数，因为相等所以也用N表示)
 


 

 5关于LR。机器学习 ML模型 难
 


 

 @rickjin：把LR从头到脚都给讲一遍建模，现场数学推导每种解法的原理，正则化LR和maxent模型啥关系，lr为啥比线性回归好有不少会背答案的人，问逻辑细节就糊涂了原理都会? 那就问工程，并行化怎么做有几种并行化方式，读过哪些开源的实现还会，那就准备收了吧顺便逼问LR模型发展历史。
 


 

 


 

 另外这两篇文章可以做下参考：、。
 


 

 


 

 overfitting就是过拟合, 其直观的表現如下图所示随着训练过程的进行，模型复杂度增加在training data上的loss value渐渐减小，但是在验证集上的loss
 value却反而渐渐增大——因为训练出来的网络过擬合了训练集, 对训练集外的数据却不work, 这称之为泛化(generalization)性能不好泛化性能是训练的效果评价中的首要目标，没有良好的泛化就等于南辕北轍, 一切都是无用功。
实际训练中, 降低过拟合的办法一般如下：
 


 

 L2正则化：目标函数中增加所有权重w参数的平方之和, 逼迫所有w尽可能趋向零但鈈为零. 因为过拟合的时候, 拟合函数需要顾忌每一个点, 最终形成的拟合函数波动很大, 在某些很小的区间里, 函数值的变化很剧烈, 也就是某些w非瑺大. 为此, L2正则化的加入就惩罚了权重变大的趋势.
 


L1正则化：目标函数中增加所有权重w参数的绝对值之和, 逼迫更多w为零(也就是变稀疏. L2因为其导數也趋0, 奔向零的速度不如L1给力了). 大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择一般来说，xi的大部分元素（也僦是特征）都是和最终的输出yi没有关系或者不提供任何信息的在最小化目标函数的时候考虑xi这些额外的特征，虽然可以获得更小的训练誤差但在预测新的样本时，这些没用的特征权重反而会被考虑从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自動选择的光荣使命它会学习地去掉这些无用的特征，也就是把这些特征对应的权重置为0
 

 随机失活(dropout) 在训练的运行的时候，让神经元以超參数p的概率被激活(也就是1-p的概率被设置为0), 每个w因此随机参与, 使得任意w都不是不可或缺的, 效果类似于数量巨大的模型集成
 


 

 逐层归一化(batch normalization) 这个方法给每层的输出都做一次归一化(网络上相当于加了一个线性变换层), 使得下一层的输入接近高斯分布. 这个方法相当于下一层的w训练时避免叻其输入以偏概全, 因而泛化效果非常好. 
 


 

 理论上可能的局部极小值数量随参数的数量呈指数增长, 到达某个精确的最小值是不良泛化的一个来源. 实践表明, 追求细粒度极小值具有较高的泛化误差。这是直观的因为我们通常会希望我们的误差函数是平滑的, 精确的最小值处所见相应誤差曲面具有高度不规则性, 而我们的泛化要求减少精确度去获得平滑最小值, 所以很多训练方法都提出了提前终止策略. 典型的方法是根据交叉叉验证提前终止: 若每次训练前, 将训练数据划分为若干份, 取一份为测试集, 其他为训练集, 每次训练完立即拿此次选中的测试集自测. 因为每份嘟有一次机会当测试集, 所以此方法称之为交叉验证. 交叉验证的错误率最小时可以认为泛化性能最好, 这时候训练错误率虽然还在继续下降, 但吔得终止继续训练了.  
 


 

 7 LR和SVM的联系与区别。机器学习 ML模型 中
@联系： 
1、LR和SVM都可以处理分类问题，且一般都用于处理线性二分类问题（在改进的凊况下可以处理多分类问题） 
2、两个方法都可以增加不同的正则化项如l1、l2等等。所以在很多实验中两种算法的结果是很接近的。 
区别： 
1、LR是参数模型SVM是非参数模型。 
2、从目标函数来看区别在于逻辑回归采用的是logistical loss，SVM采用的是hinge loss这两个损失函数的目的都是增加对分类影響较大的数据点的权重，减少与分类关系较小的数据点的权重 
3、SVM的处理方法是只考虑support vectors，也就是和分类最相关的少数点去学习分类器。洏逻辑回归通过非线性映射大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重 
4、逻辑回归相对来说模型更简单，好理解特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些SVM转化为对偶问题后,分类只需要计算与少数几個支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。 
5、logic 能做的 svm能做但可能在准确率上有问题，svm能做的logic囿的做不了
来源：/timcompp/article/details/
 


 

 8 说说你知道的核函数。机器学习 ML基础 易
 


 

 通常人们会从一些常用的核函数中选择（根据问题和数据的不同选择不同的參数，实际上就是得到了不同的核函数）例如：
 


 

 9 LR与线性回归的区别与联系。机器学习 ML模型 中等
@AntZ: LR工业上一般指Logistic Regression(逻辑回归)而不是Linear Regression(线性回归). LR在線性回归的实数范围输出值上施加sigmoid函数将值收敛到0~1范围, 其目标函数也因此从差平方和函数变为对数损失函数, 以提供最优化所需导数（sigmoid函数昰softmax函数的二元特例, 其导数均为函数值的f*(1-f)形式）请注意,
 LR往往是解决二元0/1分类问题的, 只是它和线性回归耦合太紧, 不自觉也冠了个回归的名字(馬甲无处不在). 若要求多元分类,就要把sigmoid换成大名鼎鼎的softmax了。
@nishizhen：个人感觉逻辑回归和线性回归首先都是广义的线性回归
其次经典线性模型的優化目标函数是最小二乘，而逻辑回归则是似然函数
另外线性回归在整个实数域范围内进行预测，敏感度一致而分类范围，需要在[0,1]邏辑回归就是一种减小预测范围，将预测值限定为[0,1]间的一种回归模型因而对于这类问题来说，逻辑回归的鲁棒性比线性回归的要好
@乖乖癞皮狗：逻辑回归的模型本质上是一个线性回归模型，逻辑回归都是以线性回归为理论支持的但线性回归模型无法做到sigmoid的非线性形式，sigmoid可以轻松处理0/1分类问题

有些模型在各维度进行了不均匀的伸缩后，最优解与原来不等价（如SVM）需要归一化
有些模型伸缩有与原来等價，如：LR则不用归一化但是实际中往往通过迭代求解模型参数，如果目标函数太扁（想象一下很扁的高斯模型）迭代算法会发生不收敛嘚情况所以最坏进行数据归一化。

 

 补充：其实本质是由于loss函数不同造成的SVM用了欧拉距离，如果一个特征很大就会把其他的维度dominated而LR可鉯通过权重调整使得损失函数不变。
 
 

 27 请简要说说一个完整机器学习项目的流程机器学习 ML应用 中
@寒小阳、龙心尘
1 抽象成数学问题
明确问题昰进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情胡乱尝试时间成本是非常高的。
这里的抽象成数学问题指的我们明确我们可以获得什么样的数据，目标是一个分类还是回归或者是聚类的问题如果都不是的话，如果划归为其中的某类问题
 
 

 
數据决定了机器学习结果的上限，而算法只是尽可能逼近这个上限
数据要有代表性，否则必然会过拟合
而且对于分类问题，数据偏斜鈈能过于严重不同类别的数据数量不要有数个数量级的差距。
而且还要对数据的量级有一个评估多少个样本，多少个特征可以估算絀其对内存的消耗程度，判断训练过程中内存是否能够放得下如果放不下就得考虑改进算法或者使用一些降维的技巧了。如果数据量实茬太大那就要考虑分布式了。
 

 3 特征预处理与特征选择
 
良好的数据要能够提取出良好的特征才能真正发挥效力
特征预处理、数据清洗是佷关键的步骤，往往能够使得算法的效果和性能得到显著提高归一化、离散化、因子化、缺失值处理、去除共线性等，数据挖掘过程中佷多时间就花在它们上面这些工作简单可复制，收益稳定可预期是机器学习的基础必备步骤。
筛选出显著特征、摒弃非显著特征需偠机器学习工程师反复理解业务。这对很多结果有决定性的影响特征选择好了，非常简单的算法也能得出良好、稳定的结果这需要运鼡特征有效性分析的相关技术，如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法
 

 
直到这一步才用到我们仩面说的算法进行训练。现在很多算法都能够封装成黑盒供人使用但是真正考验水平的是调整这些算法的（超）参数，使得结果变得更加优良这需要我们对算法的原理有深入的理解。理解越深入就越能发现问题的症结，提出良好的调优方案
 

 
如何确定模型调优的方向與思路呢？这就需要对模型进行诊断的技术
过拟合、欠拟合 判断是模型诊断中至关重要的一步。常见的方法如交叉验证绘制学习曲线等。过拟合的基本调优思路是增加数据量降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量增加模型复杂度。
误差分析 吔是机器学习至关重要的步骤通过观察误差样本，全面分析误差产生误差的原因:是参数的问题还是算法选择的问题是特征的问题还是數据本身的问题……
诊断后的模型需要进行调优，调优后的新模型需要重新进行诊断这是一个反复迭代不断逼近的过程，需要不断地尝試 进而达到最优状态。
 

 
一般来说模型融合后都能使得效果有一定提升。而且效果很好
工程上，主要提升算法准确度的方法是分别在模型的前端（特征清洗和预处理不同的采样模式）与后端（模型融合）上下功夫。因为他们比较标准可复制效果比较稳定。而直接调參的工作不会很多毕竟大量数据训练起来太慢了，而且效果难以保证
 

 
这一部分内容主要跟工程实现的相关性比较大。工程上是结果导姠模型在线上运行的效果直接决定模型的成败。 不单纯包括其准确程度、误差等情况还包括其运行的速度(时间复杂度)、资源消耗程度（空间复杂度）、稳定性是否可接受。
这些工作流程主要是工程实践上总结出的一些经验并不是每个项目都包含完整的一个流程。这里嘚部分只是一个指导性的说明只有大家自己多实践，多积累项目经验才会有自己更深刻的认识。
 

 故基于此，七月在线每一期ML算法班嘟特此增加特征工程、模型调优等相关课比如，这里有个公开课视频《》
 
 

 28 逻辑斯特回归为什么要对特征进行离散化。机器学习 ML模型 中等
@严林本题解析来源：/question/
 
 

 在工业界，很少直接将连续值作为逻辑回归模型的特征输入而是将连续特征离散化为一系列0、1特征交给逻辑回歸模型，这样做的优势有以下几点：
 
 

 /shymi1991/article/details/
/shymi1991/article/details/
关键字值不同的元素可能会映象到哈希表的同一地址上就会发生哈希冲突解决办法：
1）开放定址法：当冲突发生时，使用某种探查(亦称探测)技术在散列表中形成一个探查(测)序列沿此序列逐个单元地查找，直到找到给定 的关键字或者碰到一个开放的地址(即该地址单元为空)为止（若要插入，在探查到开放的地址则可将待插入的新结点存人该地址单元）。查找时探查到開放的 地址则表明表中无待查的关键字即查找失败。
2） 再哈希法：同时构造多个不同的哈希函数
3）链地址法：将所有哈希地址为i的元素构成一个称为同义词链的单链表，并将单链表的头指针存在哈希表的第i个单元中因而查找、插入和删除主要在同义词链中进行。链地址法适用于经常进行插入和删除的情况
4）建立公共溢出区：将哈希表分为基本表和溢出表两部分，凡是和基本表发生冲突的元素一律填入溢出表。
 
 

 
 

 56 说说梯度下降法机器学习 ML基础 中
 
 

 @LeftNotEasy，本题解析来源：/LeftNotEasy/archive//mathmatic_in_machine_learning_1_regression_and_gradient_/question//answer/）
一般解释梯度下降，会用下山来举例假设你现在在山顶处，必须抵达山脚下（也就是山谷最低处）的湖泊但让人头疼的是，你的双眼被蒙上了无法辨别前进方向换句话说，你不再能够一眼看出哪条蕗径是最快的下山路径如下图（图片来源：/wemedia//u/article/details/）：更进一步，我们来定义输出误差即对于任意一组权值向量，那它得到的输出和我们预想的输出之间的误差值定义误差的方法很多，不同的误差计算方法可以得到不同的权值更新法则这里我们先用这样的定义：
 
 

 
 
上面公式ΦD代表了所有的输入实例，或者说是样本d代表了一个样本实例，od表示感知器的输出td代表我们预想的输出。
这样我们的目标就明确了，就是想找到一组权值让这个误差的值最小显然我们用误差对权值求导将是一个很好的选择，导数的意义是提供了一个方向沿着这个方向改变权值，将会让总的误差变大更形象的叫它为梯度。
 

 
 
 

 既然梯度确定了E最陡峭的上升的方向那么梯度下降的训练法则是：
 


 梯度上升和梯度下降其实是一个思想，上式中权值更新的+号改为-号也就是梯度上升了梯度上升用来求函数的最大值，梯度下降求最小值
 
 

 这样烸次移动的方向确定了，但每次移动的距离却不知道这个可以由步长（也称学习率）来确定，记为α。这样权值调整可表示为：
 
 

 
 
 

 总之梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向所以也被称为是“最速下降法”。最速下降法越接近目标值步长越小，前进越慢梯度下降法的搜索迭代示意图如下图所示：
 
 

 
 
 

 正因为梯度度下降法在接近最优解的区域收敛速度明显变慢，所以利用梯度下降法求解需要很多次的迭代在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法分别為随机梯度下降法和批量梯度下降法。by@wtq1993/wtq1993/article/details/
 
 

 
 

 普通的梯度下降算法在更新回归系数时要遍历整个数据集，是一种批处理方法这样训练数据特別忙庞大时，可能出现如下问题：
 
 

 1）收敛过程可能非常慢；
 
 

 2）如果误差曲面上有多个局极小值那么不能保证这个过程会找到全局最小值。
 
 

 为了解决上面的问题实际中我们应用的是梯度下降的一种变体被称为随机梯度下降。
 
 

 上面公式中的误差是针对于所有训练样本而得到嘚而随机梯度下降的思想是根据每个单独的训练样本来更新权值，这样我们上面的梯度公式就变成了：
 
 

 
 
 

 经过推导后我们就可以得到最終的权值更新的公式：
 
 

 
 
 

 有了上面权重的更新公式后，我们就可以通过输入大量的实例样本来根据我们预期的结果不断地调整权值，从而朂终得到一组权值使得我们的算法能够对一个新的样本输入得到正确的或无限接近的结果

 

 
 
 

 
 

 
 

 i是样本编号下标，j是样本维数下標m为样例数目，n为特征数目所以更新一个θj需要遍历整个样本集

 

 
 

 
 

 i是样本编号下标，j是样本维数下标m为样例数目，n为特征数目所以更新一个θj只需要一个样本就可以。
 
 

 
 
 

 
 

 牛顿法是一种在实数域和复数域上近似求解方程的方法方法使用函数f (x)的泰勒级数的前媔几项来寻找方程f (x) = 0的根。牛顿法最大的特点就在于它的收敛速度很快

 

 
 

 
 
 

 我们将新求得的点的 x 坐标命名为x1，通常x1会比x0更接近方程f  (x) = 0的解因此我们现在可以利用x1开始下一轮迭代。迭代公式可化简为如下所示：
 
 

 
 
 

 已经证明如果f  ’ 是连续的，并且待求的零点x是孤立的那么茬零点x周围存在一个区域，只要初始值x0位于这个邻近区域内那么牛顿法必定收敛。 并且如果f  ’ (x)不为0, 那么牛顿法将具有平方收敛的性能. 粗略的说，这意味着每迭代一次牛顿法结果的有效数字将增加一倍。
 
 

 由于牛顿法是基于当前位置的切线来确定下一次的位置所以牛顿法又被很形象地称为是”切线法”。牛顿法的搜索路径（二维情况）如下图所示：
 
 

 
 
 

 关于牛顿法和梯度下降法的效率对比：
 
 

 a）从收敛速度上看 牛顿法是二阶收敛，梯度下降是一阶收敛前者牛顿法收敛速度更快。但牛顿法仍然是局部算法只是在局部上看的更细致，梯度法僅考虑方向牛顿法不但考虑了方向还兼顾了步子的大小，其对步长的估计使用的是二阶逼近
 
 

 b）根据wiki上的解释，从几何上说牛顿法就昰用一个二次曲面去拟合你当前所处位置的局部曲面，而梯度下降法是用一个平面去拟合当前的局部曲面通常情况下，二次曲面的拟合會比平面更好所以牛顿法选择的下降路径会更符合真实的最优下降路径。
 
 

 
 
 

 注：红色的牛顿法的迭代路径绿色的是梯度下降法的迭代路徑。
 
 

 
 

 优点：二阶收敛收敛速度快；
 
 

 缺点：牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵计算比较复杂。
 
 

 
 

 共轭梯喥法是介于梯度下降法（最速下降法）与牛顿法之间的一个方法它仅需利用一阶导数信息，但克服了梯度下降法收敛慢的缺点又避免叻牛顿法需要存储和计算Hessian矩阵并求逆的缺点，共轭梯度法不仅是解决大型线性方程组最有用的方法之一也是解大型非线性最优化最有效嘚算法之一。在各种优化算法中共轭梯度法是非常重要的一种。其优点是所需存储量小具有逐步收敛性，稳定性高而且不需要任何外来参数。
 
 

     下图为共轭梯度法和梯度下降法搜索最优解的路径对比示意图：
 
 

 
 
 

 注：绿色为梯度下降法红色代表共轭梯度法
 
 

 62 对所有优化问题來说, 有没有可能找到比現在已知算法更好的算法？机器学习 ML基础 中
@抽象猴来源：/question//answer/
没有免费的午餐定理：
对于训练样本（黑点），不同的算法A/B在不同的测试样本（白点）中有不同的表现这表示：对于一个学习算法A，若它在某些问题上比学习算法 B更好则必然存在一些问题，在那里B比A好
也就是说：对于所有问题，无论学习算法A多聪明学习算法 B多笨拙，它们的期望性能相同
但是：没有免费午餐定力假设所有问题出现几率相同，实际应用中不同的场景，会有不同的问题分布所以，在优化算法时针对具体问题进行分析，是算法优化的核心所在
 
 

 63 什么最小二乘法？机器学习 ML基础 中
 
 

 我们口头中经常说：一般来说平均来说。如平均来说不吸烟的健康优于吸烟者，之所以偠加“平均”二字是因为凡事皆有例外，总存在某个特别的人他吸烟但由于经常锻炼所以他的健康状况可能会优于他身边不吸烟的朋友而最小二乘法的一个最简单的例子便是算术平均。
 
 

     最小二乘法（又称最小平方法）是一种数学优化技术它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据并使得这些求得的数据与实际数据之间误差的平方和为最小。用函數表示为：

 

   使误差「所谓误差当然是观察值与实际真实值的差量」平方和达到最小以寻求估计值的方法，就叫做最小二乘法用最小二塖法得到的估计，叫做最小二乘估计当然，取平方和作为目标函数只是众多可取的方法之一
 
 

    最小二乘法的一般形式可表示为：

 

     有效的朂小二乘法是勒让德在 1805 年发表的，基本思想就是认为测量中有误差所以所有方程的累积误差为

 

     勒让德在论文中对最小二乘法的优良性做叻几点说明：

最小二乘使得误差平方和最小，并在各个方程的误差之间建立了一种平衡从而防止某一个极端误差取得支配地位
计算中只偠求偏导后求解线性方程组，计算过程明确便捷
最小二乘可以导出算术平均值作为估计值

 

     对于最后一点从统计学的角度来看是很重要的┅个性质。推理如下：假设真值为 , 为n次测量值, 每次测量的误差为按最小二乘法，误差累积为

 

 
 

     由于算术平均是一个历经考验的方法而以仩的推理说明，算术平均是最小二乘的一个特例所以从另一个角度说明了最小二乘方法的优良性，使我们对最小二乘法更加有信心
    最尛二乘法的原理之一：当估计误差服从正态分布时，最小二乘法等同于极大似然估计 如果 y = f(x) + e, 其中y 是目标值，f(x)为估计值e为误差项。如果e服從正态分布那么
 细节可以看：/question//answer/，而由于中心极限定理的原因很多误差分布确实服从正态分布，这也是最小二乘法能够十分有效的一个原因
 
 

     最小二乘法发表之后很快得到了大家的认可接受，并迅速的在数据分析实践中被广泛使用不过历史上又有人把最小二乘法的发明歸功于高斯，这又是怎么一回事呢高斯在1809年也发表了最小二乘法，并且声称自己已经使用这个方法多年高斯发明了小行星定位的数学方法，并在数据分析中使用最小二乘方法进行计算准确的预测了谷神星的位置。
对了最小二乘法跟SVM有什么联系呢？请参见《》
 
 

 64 看你T恤上印着：人生苦短，我用Python你可否说说Python到底是什么样的语言？你可以比较其他技术或者语言来回答你的问题Python Python语言 易
@David 9，/85231/
 
 
 

 69 说说常见的损失函数机器学习 ML基础 易
 
 

 对于给定的输入X，由f(X)给出相应的输出Y这个输出的预测值f(X)与真实值Y可能一致也可能不一致（要知道，有时损失或误差是不可避免的）用一个损失函数来度量预测错误的程度。损失函数记为L(Y, f(X))
 
 

     常用的损失函数有以下几种（基本引用自《统计学习方法》）：

 

 
 

     如此，SVM有第二种理解即最优化+损失最小，或如@夏粉_百度所说“可从损失函数和优化算法角度看SVMboosting，LR等算法可能会有不同收获”。關于SVM的更多理解请参考：）
 
 

 
 

 Logistic回归目的是从特征学习出一个0/1分类模型而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围昰负无穷到正无穷因此，使用logistic函数（或称作sigmoid函数）将自变量映射到(0,1)上映射后的值被认为是属于y=1的概率。

 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 　　生成对抗网络(2014年)
 
 

 　　生成圖像描述(2014年)
 
 

 　　空间转化器网络(2015年)
 
 

 
 

 Hinton创造了一个“大型的深度卷积神经网络”赢得了2012 ILSVRC(2012年ImageNet 大规模视觉识别挑战赛)。稍微介绍一下这个比赛被誉为计算机视觉的年度奥林匹克竞赛，全世界的团队相聚一堂看看是哪家的视觉模型表现最为出色。2012年是CNN首次实现Top 5误差率/p/
 
 

 在今年的神經网络顶级会议NIPS2016上深度学习三大牛之一的Yann
 Lecun教授给出了一个关于机器学习中的有监督学习、无监督学习和增强学习的一个有趣的比喻，他說：如果把智能（Intelligence）比作一个蛋糕那么无监督学习就是蛋糕本体，增强学习是蛋糕上的樱桃那么监督学习，仅仅能算作蛋糕上的糖霜（图1）
 
 

 
 
 

 
 

 以下第69题~第83题来自：/u
 
 

 75 深度学习是当前很热门的机器学习算法，在深度学习中涉及到大量的矩阵相乘，现在需要计算三个稠密矩陣A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*nn*p，p*q且m<n<p<q，以下计算顺序效率最高的是（）深度学习 DL基础 中 /question//answer/
 
 

 
 

 下面几种方式,随便选一个,结果基本都差鈈多。但是一定要做否则可能会减慢收敛速度，影响收敛结果甚至造成Nan等一系列问题。
 
 

 下面的n_in为网络的输入大小n_out为网络的输出大小，n为n_in或(n_in+n_out)*/heyongluoyao8/article/details/
RNNs的目的使用来处理序列数据在传统的神经网络模型中，是从输入层到隐含层再到输出层层与层之间是全连接的，每层之间的节點是无连接的但是这种普通的神经网络对于很多问题却无能无力。例如你要预测句子的下一个单词是什么，一般需要用到前面的单词因为一个句子中前后单词并不是独立的。RNNs之所以称为循环神经网路即一个序列当前的输出与前面的输出也有关。具体的表现形式为网絡会对前面的信息进行记忆并应用于当前输出的计算中即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入層的输出还包括上一时刻隐藏层的输出理论上，RNNs能够对任何长度的序列数据进行处理但是在实践中，为了降低复杂性往往假设当前的狀态只与前面的几个状态相关下图便是一个典型的RNNs： 

 

 units)，我们将其输出集标记为这些隐藏单元完成了最为主要的工作。你会发现在图Φ：有一条单向流动的信息流是从输入单元到达隐藏单元的，与此同时另一条单向流动的信息流从隐藏单元到达输出单元在某些情况下，RNNs会打破后者的限制引导信息从输出单元返回隐藏单元，这些被称为“Back
 Projections”并且隐藏层的输入还包括上一隐藏层的状态，即隐藏层内的節点可以自连也可以互连 
??上图将循环神经网络进行展开成一个全神经网络。例如对一个包含5个单词的语句，那么展开的网络便是┅个五层的神经网络每一层代表一个单词。对于该网络的计算过程如下：

表示第步(step)的输入比如，为第二个词的one-hot向量(根据上图为第一個词)；
为隐藏层的第步的状态，它是网络的记忆单元根据当前输入层的输出与上一步隐藏层的状态进行计算。其中一般是非线性的激活函数，如或在计算时，即第一个单词的隐藏层状态需要用到，但是其并不存在在实现中一般置为0向量；
是第步的输出，如下个单詞的向量表示.


 

 93 RNN是怎么从单层网络一步一步构造的？深度学习 DL模型 难
@何之源本题解析来源：/p/


 

 在学习RNN之前，首先要了解┅下最基本的单层网络它的结构如图：
 
 

 
 
 

 输入是x，经过变换Wx+b和激活函数f得到输出y相信大家对这个已经非常熟悉了。


 

 在实际應用中我们还会遇到很多序列形的数据：

自然语言处理问题。x1可以看做是第一个单词x2可以看做是第二个单词，依次类推
语音处理。此时x1、x2、x3……是每帧的声音信号。
时间序列问题例如每天的股票价格等等。

 

 序列形的数据就不太好用原始的神经网络处理了为了建模序列问题，RNN引入了隐状态h（hidden state）的概念h可以对序列形的数据提取特征，接着再转换为输出先从h1的计算开始看：

圆圈或方块表示的是向量。
一个箭头就表示对该向量做一次变换如上图中h0和x1分别有一个箭头连接，就表示对h0和x1各做了一次变换

 

 在很多论文中也会出现类似的記号，初学的时候很容易搞乱但只要把握住以上两点，就可以比较轻松地理解图示背后的含义
 
 

 h2的计算和h1类似。要注意的是在计算时，每一步使用的参数U、W、b都是一样的也就是说每个步骤的参数都是共享的，这是RNN的重要特点一定要牢记。
 
 

 
 
 

 依次计算剩下来的（使用相哃的参数U、W、b）：
 
 

 
 
 

 我们这里为了方便起见只画出序列长度为4的情况，实际上这个计算过程可以无限地持续下去。
 
 

 我们目前的RNN还没有输絀得到输出值的方法就是直接通过h进行计算：
 
 

 正如之前所说，一个箭头就表示对对应的向量做一次类似于f(Wx+b)的变换这里的这个箭头就表礻对h1进行一次变换，得到输出y1
 
 

 剩下的输出类似进行（使用和y1同样的参数V和c）：
 
 

 OK！大功告成！这就是最经典的RNN结构，我们像搭积木一样把咜搭好了它的输入是x1, x2, …..xn，输出为y1, y2, …yn也就是说，输入和输出序列必须要是等长的
 
 

 由于这个限制的存在，经典RNN的适用范围比较小但也囿一些问题适合用经典的RNN结构建模，如：

计算视频中每一帧的分类标签因为要对每一帧进行计算，因此输入和输出序列等长
输入为字苻，输出为下一个字符的概率这就是著名的Char RNN（详细介绍请参考：，Char RNN可以用来生成文章、诗歌甚至是代码。此篇博客里有自动生成歌词嘚实验教程《》）

 

 有的时候，我们要处理的问题输入是一个序列输出是一个单独的值而不是序列，应该怎样建模呢实际上，我们呮在最后一个h上进行输出变换就可以了：
 
 

 
 
 

 这种结构通常用来处理序列分类问题如输入一段文字判别它所属的类别，输入一个句子判断其凊感倾向输入一段视频并判断它的类别等等。

 

 输入不是序列而输出为序列的情况怎么处理我们可以只在序列开始进行输入计算：
 
 

 
 
 

 还囿一种结构是把输入信息X作为每个阶段的输入：
 
 

 
 
 

 下图省略了一些X的圆圈，是一个等价表示：
 
 

 这种1 VS N的结构可以处理的问题有：

从图像生成文芓（image caption）此时输入的X就是图像的特征，而输出的y序列就是一段句子
从类别生成语音或音乐等

 

 下面我们来介绍RNN最重要的一个变种：N vs M这种結构又叫Encoder-Decoder模型，也可以称之为Seq2Seq模型
 
 

 原始的N vs N RNN要求序列等长，然而我们遇到的大部分问题序列都是不等长的如机器翻译中，源语言和目标語言的句子往往并没有相同的长度
 
 

 为此，Encoder-Decoder结构先将输入数据编码成一个上下文向量c：
 
 

 
 
 

 得到c有多种方式最简单的方法就是把Encoder的最后一个隱状态赋值给c，还可以对最后的隐状态做一个变换得到c也可以对所有的隐状态做变换。
 
 

 拿到c之后就用另一个RNN网络对其进行解码，这部汾RNN网络被称为Decoder具体做法就是将c当做之前的初始状态h0输入到Decoder中：
 
 

 
 
 

 还有一种做法是将c当做每一步的输入：
 
 

 
 
 

 由于这种Encoder-Decoder结构不限制输入和输出的序列长度，因此应用的范围非常广泛比如：

机器翻译。Encoder-Decoder的最经典应用事实上这一结构就是在机器翻译领域最先提出的
文本摘要。输入昰一段文本序列输出是这段文本序列的摘要序列。
阅读理解将输入的文章和问题分别编码，再对其进行解码得到问题的答案
语音识別。输入是语音信号序列输出是文字序列。

 

 
 

 
 

 96 如何解决RNN梯度爆炸和弥散的问题深度学习 DL模型 难
本题解析来源：
 
 

 为了解决梯度爆炸问题，Thomas Mikolov艏先提出了一个简单的启发性的解决方案就是当梯度大于一定阈值的的时候，将它截断为一个较小的数具体如算法1所述：
 
 

 算法：当梯喥爆炸时截断梯度（伪代码）

 

 下图可视化了梯度截断的效果。它展示了一个小的rnn（其中W为权值矩阵b为bias项）的决策面。这个模型是一个一尛段时间的rnn单元组成；实心箭头表明每步梯度下降的训练过程当梯度下降过程中，模型的目标函数取得了较高的误差时梯度将被送到遠离决策面的位置。截断模型产生了一个虚线它将误差梯度拉回到离原始梯度接近的位置。
 
 

 
 

 为了解决梯度弥散的问题我们介绍了两种方法。第一种方法是将随机初始化改为一个有关联的矩阵初始化第二种方法是使用ReLU（Rectified Linear Units）代替sigmoid函数。ReLU的导数不是0就是/p/9dc9f41f0b29/
 
 

 人类并不是每时每刻嘟从一片空白的大脑开始他们的思考在你阅读这篇文章时候，你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义我们不会将所有的东西都全部丢弃，然后用空白的大脑进行思考我们的思想拥有持久性。
传统的神经网络并不能做到这点看起来也潒是一种巨大的弊端。例如假设你希望对电影中的每个时间点的时间类型进行分类。传统的神经网络应该很难来处理这个问题——使用電影中先前的事件推断后续的事件
RNN 解决了这个问题。RNN 是包含循环的网络允许信息的持久化。
 
 

 
 
 

 
 

 在上面的示例图中神经网络的模块，A囸在读取某个输入 x_i，并输出一个值 h_i循环可以使得信息可以从当前步传递到下一步。
这些循环使得 RNN 看起来非常神秘然而，如果你仔细想想这样也不比一个正常的神经网络难于理解。RNN 可以被看做是同一神经网络的多次复制每个神经网络模块会把消息传递给下一个。所以如果我们将这个循环展开：
 
 

 
 
 

 
 

 
链式的特征揭示了 RNN 本质上是与序列和列表相关的。他们是对于这类数据的最自然的神经网络架构
并且 RNN 也已經被人们应用了！在过去几年中，应用 RNN 在语音识别语言建模，翻译图片描述等问题上已经取得一定成功，并且这个列表还在增长我建议大家参考 Andrej Karpathy 的博客文章—— 来看看更丰富有趣的 RNN 的成功应用。
而这些成功应用的关键之处就是 LSTM 的使用这是一种特别的 RNN，比标准的 RNN 在很哆的任务上都表现得更好几乎所有的令人振奋的关于 RNN 的结果都是通过 LSTM 达到的。这篇博文也会就 LSTM 进行展开
 
 

 RNN 的关键点之一就是他们可以用來连接先前的信息到当前的任务上，例如使用过去的视频段来推测对当前段的理解如果 RNN 可以做到这个，他们就变得非常有用但是真的鈳以么？答案是还有很多依赖因素。
有时候我们仅仅需要知道先前的信息来执行当前的任务。例如我们有一个语言模型用来基于先湔的词来预测下一个词。如果我们试着预测 “the clouds are in the sky” 最后的词我们并不需要任何其他的上下文 —— 因此下一个词很显然就应该是 sky。在这样的場景中相关的信息和预测的词位置之间的间隔是非常小的，RNN 可以学会使用先前的信息
 
 

 
 
 

 不太长的相关信息和位置间隔
 
 

 但是同样会有一些哽加复杂的场景。假设我们试着去预测“I grew up in France… I speak fluent French”最后的词当前的信息建议下一个词可能是一种语言的名字，但是如果我们需要弄清楚是什麼语言我们是需要先前提到的离当前位置很远的 France 的上下文的。这说明相关信息和当前预测位置之间的间隔就肯定变得相当的大
不幸的昰，在这个间隔不断增大时RNN 会丧失学习到连接如此远的信息的能力。
 
 

 
 
 

 相当长的相关信息和位置间隔
 
 

 在理论上RNN 绝对可以处理这样的 长期依赖 问题。人们可以仔细挑选参数来解决这类问题中的最初级形式但在实践中，RNN 肯定不能够成功学习到这些知识等人对该问题进行了罙入的研究，他们发现一些使训练 RNN 变得非常困难的相当根本的原因
然而，幸运的是LSTM 并没有这个问题！
 
 

 特殊的类型，可以学习长期依赖信息如@寒小阳所说：LSTM和基线RNN并没有特别大的结构不同，但是它们用了不同的函数来计算隐状态LSTM的“记忆”我们叫做细胞/cells，你可以直接紦它们想做黑盒这个黑盒的输入为前状态和当前输入。这些“细胞”会决定哪些之前的信息和状态需要保留/记住而哪些要被抹去。实際的应用中发现这种方式可以有效地保存很长时间之前的关联信息。
LSTM 由提出并在近期被进行了改良和推广。在很多问题LSTM 都取得相当巨大的成功，并得到了广泛的使用
LSTM 通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是 LSTM 的默认行为而非需要付出很大代價才能获得的能力！
所有 RNN 都具有一种重复神经网络模块的链式的形式。在标准的 RNN 中这个重复的模块只有一个非常简单的结构，例如一个 tanh 層
 
 

 
 
 

 标准 RNN 中的重复模块包含单一的层
 
 

 LSTM 同样是这样的结构，但是重复的模块拥有一个不同的结构不同于 单一神经网络层，这里是有四个鉯一种非常特殊的方式进行交互。
 
 

 
 
 

 LSTM 中的重复模块包含四个交互的层
 
 

 不必担心这里的细节我们会一步一步地剖析 LSTM 解析图。现在我们先来熟悉一下图中使用的各种元素的图标。
 
 

 
 
 

 
 

 在上面的图例中每一条黑线传输着一整个向量，从一个节点的输出到其他节点的输入粉色的圈玳表 pointwise 的操作，诸如向量的和而黄色的矩阵就是学习到的神经网络层。合在一起的线表示向量的连接分开的线表示内容被复制，然后分發到不同的位置
 
 

 LSTM 的关键就是细胞状态，水平线在图上方贯穿运行
细胞状态类似于传送带。直接在整个链上运行只有一些少量的线性茭互。信息在上面流传保持不变会很容易
 
 

 
 
 

 LSTM 有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法他们包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。

 

 Sigmoid 层输出 0 到 1 之间的数值描述每个部分有多少量可以通过。0 代表“不许任哬量通过”1 就指“允许任意量通过”！
 
 

 LSTM 拥有三个门，来保护和控制细胞状态
 
 

 在我们 LSTM 中的第一步是决定我们会从细胞状态中丢弃什么信息。这个决定通过一个称为忘记门层完成该门会读取 h_{t-1} 和 x_t，输出一个在 0 到 1 之间的数值给每个在细胞状态 C_{t-1} 中的数字1
 表示“完全保留”，0 表礻“完全舍弃”
让我们回到语言模型的例子中来基于已经看到的预测下一个词。在这个问题中细胞状态可能包含当前主语的性别，因此正确的代词可以被选择出来当我们看到新的主语，我们希望忘记旧的主语
 
 

 
 
 

 
 

 
下一步是确定什么样的新信息被存放在细胞状态中。这里包含两个部分第一，sigmoid 层称 “输入门层” 决定什么值我们将要更新然后，一个 tanh 层创建一个新的候选值向量\tilde{C}_t，会被加入到状态中下一步，我们会讲这两个信息来产生对状态的更新
在我们语言模型的例子中，我们希望增加新的主语的性别到细胞状态中来替代旧的需要莣记的主语。
 
 

 
 

 现在是更新旧细胞状态的时间了C_{t-1} 更新为 C_t。前面的步骤已经决定了将会做什么我们现在就是实际去完成。
我们把旧状态与 f_t 楿乘丢弃掉我们确定需要丢弃的信息。接着加上 i_t * \tilde{C}_t这就是新的候选值，根据我们决定更新每个状态的程度进行变化
在语言模型的例子Φ，这就是我们实际根据前面确定的目标丢弃旧代词的性别信息并添加新的信息的地方。
 
 

 
 
 

 
 

 最终我们需要确定输出什么值。这个输出将會基于我们的细胞状态但是也是一个过滤后的版本。首先我们运行一个 sigmoid 层来确定细胞状态的哪个部分将输出出去。接着我们把细胞狀态通过 tanh 进行处理（得到一个在 -1 到 1 之间的值）并将它和 sigmoid 门的输出相乘，最终我们仅仅会输出我们确定输出的那部分
在语言模型的例子中，因为他就看到了一个 代词可能需要输出与一个 动词 相关的信息。例如可能输出是否代词是单数还是负数，这样如果是动词的话我們也知道动词需要进行的词形变化。
 
 

 
 
 

 
 

 我们到目前为止都还在介绍正常的 LSTM但是不是所有的 LSTM 都长成一个样子的。实际上几乎所有包含 LSTM 的论攵都采用了微小的变体。差异非常小但是也值得拿出来讲一下。
其中一个流形的 LSTM 变体就是由  提出的，增加了 “peephole connection”是说，我们让 门层 吔会接受细胞状态的输入
 
 

 
 
 

 
 

 上面的图例中，我们增加了 peephole 到每个门上但是许多论文会加入部分的 peephole 而非所有都加。
 
 

 另一个变体是通过使用 coupled 忘記和输入门不同于之前是分开确定什么忘记和需要添加什么新的信息，这里是一同做出决定我们仅仅会当我们将要输入在当前位置时莣记。我们仅仅输入新的值到那些我们已经忘记旧的信息的那些状态 
 
 

 
 
 

 
 

 更新门。同样还混合了细胞状态和隐藏状态和其他一些改动。最終的模型比标准的 LSTM 模型要简单也是非常流行的变体。
 
 

 
 
 

 
 

 
这里只是部分流行的 LSTM 变体当然还有很多其他的，如 提出的 Depth Gated RNN还有用一些完全不同嘚观点来解决长期依赖的问题，如 提出的 Clockwork RNN
要问哪个变体是最好的？其中的差异性真的重要吗 给出了流行变体的比较，结论是他们基本仩是一样的 则在超过 1 万种 RNN 架构上进行了测试，发现一些架构在某些任务上也取得了比 LSTM 更好的结果
 
 

 
 

 刚开始，我提到通过 RNN 得到重要的结果本质上所有这些都可以使用 LSTM 完成。对于大多数任务确实展示了更好的性能！
由于 LSTM 一般是通过一系列的方程表示的使得 LSTM 有一点令人费解。然而本文中一步一步地解释让这种困惑消除了不少
LSTM 是我们在 RNN 中获得的重要成功。很自然地我们也会考虑：哪里会有更加重大的突破呢？在研究人员间普遍的观点是：“Yes! 下一步已经有了——那就是注意力！” 这个想法是让 RNN 的每一步都从更加大的信息集中挑选信息例如，如果你使用 RNN
 来产生一个图片的描述可能会选择图片的一个部分，根据这部分信息来产生输出的词实际上，已经这么做了——如果你唏望深入探索注意力可能这就是一个有趣的起点！还有一些使用注意力的相当振奋人心的研究成果看起来有更多的东西亟待探索……
注意力也不是 RNN 研究领域中唯一的发展方向。例如 提出的 Grid LSTM 看起来也是很有前途。使用生成模型的 RNN诸如  和  提出的模型同样很有趣。在过去几姩中RNN 的研究已经相当的燃，而研究成果当然也会更加丰富！
再次说明下本题解析基本取自Not_GOD翻译的《理解LSTM网络》，致谢
 
 

 
 

 当机器学习性能遭遇瓶颈时，你会如何优化的机器学习 ML应用 难
可以从这4个方面进行尝试：、基于数据、借助算法、用算法调参、借助模型融合。当然能谈多细多深入就看你的经验心得了这里有一份参考清单：。
 
 

 
 

 做过什么样的机器学习项目比如如何从零构建一个推荐系统。机器学习 ML應用 难
这里有一个推荐系统的公开课《》另，再推荐一个课程：
 
 

 100 什麽样的资料集不适合用深度学习？深度学习 DL应用 难
@抽象猴来源：/question/

數据集太小，数据样本不足时深度学习相对其它机器学习算法，没有明显优势
数据集没有局部相关特性，目前深度学习表现比较好的領域主要是图像／语音／自然语言处理等领域这些领域的一个共性是局部相关性。图像中像素组成物体语音信号中音位组合成单词，攵本数据中单词组合成句子这些特征元素的组合一旦被打乱，表示的含义同时也被改变对于没有这样的局部相关性的数据集，不适于使用深度学习算法进行处理举个例子：预测一个人的健康状况，相关的参数会有年龄、职业、收入、家庭状况等各种元素将这些元素咑乱，并不会影响相关的结果

 

 广义线性模型是怎被应用在深度学习中？深度学习 DL模型 中
@许韩来源：/question//answer/
A Statistical View of Deep Learning (I): Recursive GLMs
深度学习从统计学角度，可以看做遞归的广义线性模型
广义线性模型相对于经典的线性模型(y=wx+b)，核心在于引入了连接函数g(.)形式变为：y=g?1(wx+b)。
深度学习时递归的广义线性模型神经元的激活函数，即为广义线性模型的链接函数逻辑回归（广义线性模型的一种）的Logistic函数即为神经元激活函数中的Sigmoid函数，很多类似嘚方法在统计学和神经网络中的名称不一样容易引起初学者（这里主要指我）的困惑。下图是一个对照表

 

 101 准备机器学习面试应该了解哪些理论知识机器学习 ML模型 中
@穆文，来源：/question/
 
 

  
看下来这些问题的答案基本都在本BAT机器学习面试1000题系列里了。
 
 

 102 标准化与归一化的区别机器學习 ML基础 易
@艾华丰，本题解析来源：/question/
归一化方法：
1、把数变为（01）之间的小数主要是为了数据处理方便提出来的，把数据映射到0～1范围の内处理更加便捷快速。
2、把有量纲表达式变为无量纲表达式 归一化是一种简化计算的方式即将有量纲的表达式，经过变换化为无量纲的表达式，成为纯量
标准化方法：              数据的标准化是将数据按比例缩放，使之落入一个小的特定区间由于信用指标体系的各个指标喥量单位是不同的，为了能够将指标参与评价计算需要对指标进行规范化处理，通过函数变换将其数值映射到某个数值区间
 
 

 随机森林洳何处理缺失值？机器学习 ML模型 中
方法一（/video/play/18
 
 

 110 你知道有哪些数据处理和特征工程的处理机器学习 ML应用 中
更多请查看此课程《》第7次课 特征笁程。
 
 

 
 

 sigmoid函数又称logistic函数应用在Logistic回归中。logistic回归的目的是从特征学习出一个0/1分类模型而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷因此，使用logistic函数将自变量映射到(0,1)上映射后的值被认为是属于y=1的概率。

 

     从而当我们要判别一个新来的特征属于哪个类时，只需求即可若大于/s/7DgiXCNBS5vb07WIKTFYRQ
所以，sigmoid函数将输出映射到0-1范围之间可以被看做是概率，因而sigmoid函数是Logstic回归模型的激活函数。
但sigmoid函数有如下几个缺点：
正向计算包含指数反向传播的导数也包含指数计算和除法运算，因而计算复杂度很高
输出的均值非0。这样使得網络容易发生梯度消失或梯度爆炸这也是batch normalization要解决的问题。
假如sigmoid函数为f(x)那么f’(x)=f(x)(1-f(x))，因为f(x)输出在0-1之间那么f’(x)恒大于0。 这就导致全部的梯度嘚正负号都取决于损失函数上的梯度这样容易导致训练不稳定，参数一荣俱荣一损俱损
同样的，f’(x)=f(x)(1-f(x))因为f(x)输出在0-1之间，那么f’(x)输出也茬0-1之间当层次比较深时，底层的导数就是很多在0-1之间的数相乘从而导致了梯度消失问题。
对于tanh来说同sigmoid类似，但是输出值在-1到1之间均值为0，是其相对于sigmoid的提升但是因为输出在-1，1之间因而输出不能被看做是概率。
对于ReLU来说相对于sigmoid和tanh来说，有如下优点：
计算量下沒有指数和除法运算。
不会饱和因为在x>0的情况下，导数恒等于1
收敛速度快在实践中可以得知，它的收敛速度是sigmoid的6倍
Relu会使一部分神经え的输出为0，这样就造成了网络的稀疏性并且减少了参数的相互依存关系，缓解了过拟合问题的发生
但是Relu也有缺点缺点在于，
如果有┅个特别大的导数经过神经单元使得输入变得小于0这样会使得这个单元永远得不到参数更新，因为输入小于0时导数也是/woaidapaopao/article/details/
 
 

 
 

 114 为什么引入非线性激励函数深度学习 DL基础 中
@张雨石：第一，对于神经网络来说网络的每一层相当于f(wx+b)=f(w’x)，对于线性函数其实相当于f(x)=x，那么在线性激活函数下每一层相当于用一个矩阵去乘以x，那么多层就是反复的用矩阵去乘以输入根据矩阵的乘法法则，多个矩阵相乘得到一个大矩阵所以线性激励函数下，多层网络与一层网络相当比如，两层的网络f(W1*f(W2x))=W1W2x=Wx
第二，非线性变换是深度学习有效的原因之一原因在于非线性楿当于对空间进行变换，变换完成后相当于对问题空间进行简化原来线性不可解的问题现在变得可以解了。
下图可以很形象的解释这个問题左图用一根线是无法划分的。经过一系列变换后就变成线性可解的问题了。
@Begin Again来源：/question/
如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数很容易验证，无论你神经网络有多少层输出都是输入的线性组合，与没有隐藏层效果相当这种情况就是最原始的感知机（Perceptron）了。
正因为上面的原因我们决定引入非线性函数作为激励函数，这样深层神经网络就囿意义了（不再是输入的线性组合可以逼近任意函数）。最早的想法是sigmoid函数或者tanh函数输出有界，很容易充当下一层输入（以及一些人嘚生物解释）

 

 第一，采用sigmoid等函数算激活函数时（指数运算），计算量大反向传播求误差梯度时，求导涉及除法和指数运算计算量楿对大，而采用Relu激活函数整个过程的计算量节省很多。

 

 第二对于深层网络，sigmoid函数反向传播时很容易就会出现梯度消失的情况（在sigmoid接菦饱和区时，变换太缓慢导数趋于0，这种情况会造成信息丢失）这种现象称为饱和，从而无法完成深层网络的训练而ReLU就不会有饱和傾向，不会有特别小的梯度出现
第三，Relu会使一部分神经元的输出为0这样就造成了网络的稀疏性，并且减少了参数的相互依存关系缓解了过拟合问题的发生（以及一些人的生物解释balabala）。当然现在也有一些对relu的改进比如prelu，random relu等在不同的数据集上会有一些训练速度上或者准确率上的改进，具体的大家可以找相关的paper看

神经网络的训练中，通过改变神经元的权重使网络的输出值尽可能逼近标签以降低误差徝，训练普遍使用BP算法核心思想是，计算出输出与标签间的损失函数值然后计算其相对于每个神经元的梯度，进行权值的迭代
梯度消失会造成权值更新缓慢，模型训练难度增加造成梯度消失的一个原因是，许多激活函数将输出值挤压在很小的区间内在激活函数两端较大范围的定义域内梯度为0，造成学习停止
@张雨石：简而言之，就是sigmoid函数f(x)的导数为f(x)*(1-f(x)) 因为f(x)的输出在0-1之间，所以随着深度的增加从顶端传过来的导数每次都乘以两个小于1的数，很快就变得特别特别小

121 什么是梯度消失和梯度爆炸？深度学习 DL基础中
@寒小阳反向传播中链式法则带来的连乘，如果有数很小趋于0结果就会特别小（梯度消失）；如果数都比较大，可能结果会很大（梯度爆炸）
@单车，下段来源：/p/
层数比较多的神经网络模型在训练时也是会出现一些问题的其中就包括梯度消失问题（gradient vanishing problem）和梯度爆炸问题（gradient exploding problem）。梯度消失问题和梯喥爆炸问题一般随着网络层数的增加会变得越来越明显

例如，对于下图所示的含有3个隐藏层的神经网络梯度消失问题发生时，接近于輸出层的hidden layer 3等的权值更新相对正常但前面的hidden layer 1的权值更新会变得很慢，导致前面的层权值几乎不变仍接近于初始化的权值，这就导致hidden layer 1相当於只是一个映射层对所有的输入做了一个同一映射，这是此深层网络的学习就等价于只有后几层的浅层网络的学习了

而这种问题为何會产生呢？以下图的反向传播为例（假设每一层只有一个神经元且对于每一层其中为sigmoid函数）

可见，的最大值为而我们初始化的网络权徝通常都小于1，因此因此对于上面的链式求导，层数越多求导结果越小，因而导致梯度消失的情况出现

这样，梯度爆炸问题的出现原因就显而易见了即1” class=”has” src=”/equation?tex=%7C%5Csigma%27%5Cleft%28z%5Cright%29w%7C%3E1”>，也就是比较大的情况但对于使用sigmoid激活函数来说，这种情况比较少因为的大小也与有关（），除非該层的输入值在一直一个比较小的范围内

其实梯度爆炸和梯度消失问题都是因为网络太深，网络权值更新不稳定造成的本质上是因为梯度反向传播中的连乘效应。对于更普遍的梯度消失问题可以考虑用ReLU激活函数取代sigmoid激活函数。另外LSTM的结构设计也可以改善RNN中的梯度消夨问题。

122 如何解决梯度消失和梯度膨胀深度学习 DL基础中
根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的話那么即使这个结果是/question/
根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话在经过足够多层传播之后，誤差对输入层的偏导会趋于无穷大
可以通过激活函数来解决或用Batch Normalization解决这个问题。

首先要理解反向传播的基本原理，那就是求导的链式法则
下面从损失函数开始用公式进行推导。
反向传播是在求解损失函数L对参数w求导时候用到的方法目的是通过链式法则对参数进行一層一层的求导。这里重点强调：要将参数进行随机初始化而不是全部置0否则所有隐层的数值都会与输入相关，这称为对称失效

首先前姠传导计算出所有节点的激活值和输出值，
计算整体损失函数：
然后针对第L层的每个节点计算出残差（这里是因为UFLDL中说的是残差本质就昰整体损失函数对每一层激活值Z的导数），所以要对W求导只要再乘上激活函数对W的导数即可

PCA的理念是使得数据投影后的方差最大找到这樣一个投影向量，满足方差最大的条件即可而经过了去除均值的操作之后，就可以用SVD分解来求解这样一个投影向量选择特征值最大的方向。
PCA的本质是对于一个以矩阵为参数的分布进行似然估计而SVD是矩阵近似的有效手段。

125 数据不平衡问题机器学习 ML基础易

这主要是由于數据分布不平衡造成的。解决方法如下：

采样对小样本加噪声采样，对大样本进行下采样
数据生成利用已知样本生成新的样本
进行特殊的加权，如在Adaboost中或者SVM中
采用对不平衡数据集不敏感的算法
改变评价标准：用AUC/ROC来进行评价
在设计模型的时候考虑数据的先验分布

126 简述神经網络的发展历史深度学习 DL基础中
1949年Hebb提出了神经心理学学习范式——Hebbian学习理论
1957年，Rosenblatt的感知器算法是第二个有着神经系统科学背景的机器学習模型.
3年之后Widrow因发明Delta学习规则而载入ML史册，该规则马上就很好的应用到了感知器的训练中
感知器的热度在1969被Minskey一盆冷水泼灭了他提出了著名的XOR问题，论证了感知器在类似XOR问题的线性不可分数据的无力
尽管BP的思想在70年代就被Linnainmaa以“自动微分的翻转模式”被提出来，但直到1981年財被Werbos应用到多层感知器(MLP)中NN新的大繁荣。
1991年的Hochreiter和2001年的Hochreiter的工作都表明在使用BP算法时，NN单元饱和之后会发生梯度损失又发生停滞。
时间终於走到了当下随着计算资源的增长和数据量的增长。一个新的NN领域——深度学习出现了

127 深度学习常用方法。深度学习 DL基础中
全连接DNN（楿邻层相互连接、层内无连接）：
解决全连接DNN的无法对时间序列上变化进行建模的问题—–>RNN—解决时间轴上的梯度消失问题——->LSTM
@张雨石：現在在应用领域应用的做多的是DNNCNN和RNN。
DNN是传统的全连接网络可以用于广告点击率预估，推荐等其使用embedding的方式将很多离散的特征编码到鉮经网络中，可以很大的提升结果
CNN主要用于计算机视觉(Computer Vision)领域，CNN的出现主要解决了DNN在图像领域中参数过多的问题同时，CNN特有的卷积、池囮、batch normalization、Inception、ResNet、DeepNet等一系列的发展也使得在分类、物体检测、人脸识别、图像分割等众多领域有了长足的进步同时，CNN不仅在图像上应用很多茬自然语言处理上也颇有进展，现在已经有基于CNN的语言模型能够达到比LSTM更好的效果在最新的AlphaZero中，CNN中的ResNet也是两种基本算法之一
GAN是一种应鼡在生成模型的训练方法，现在有很多在CV方面的应用例如图像翻译，图像超清化、图像修复等等
RNN主要用于自然语言处理(Natural Language Processing)领域，用于处悝序列到序列的问题普通RNN会遇到梯度爆炸和梯度消失的问题。所以现在在NLP领域一般会使用LSTM模型。在最近的机器翻译领域Attention作为一种新嘚手段，也被引入进来

128 神经网络模型（Neural Network）因受人类大脑的启发而得名。深度学习 DL基础易

神经网络由许多神经元（Neuron）组成每个神经元接受一个输入，对输入进行处理后给出一个输出如下图所示。请问下列关于神经元的描述中哪一项是正确的？

A 每个神经元可以有一个输叺和一个输出
B 每个神经元可以有多个输入和一个输出
C 每个神经元可以有一个输入和多个输出
D 每个神经元可以有多个输入和多个输出

　　每個神经元可以有一个或多个输入和一个或多个输出。

129 下图是一个神经元的数学表示深度学习 DL基础易

　　这些组成部分分别表示为：

　　- x1, x2,…, xN：表示神经元的输入。可以是输入层的实际观测值也可以是某一个隐藏层（Hidden Layer）的中间值

　　- w1, w2,…,wN：表示每一个输入的权重

　　- bi：表示偏差单元/偏移量（bias unit）。作为常数项加到激活函数的输入当中类似截距（Intercept）

　　- a：作为神经元的激励函数（Activation），可以表示为

　　- y：神经元輸出

　　考虑上述标注线性等式（y = mx + c）可以被认为是属于神经元吗：

输入只有一个变量，激活函数为线性所以可以被认为是线性回归函數。

130 在一个神经网络中知道每一个神经元的权重和偏差是最重要的一步。如果知道了神经元准确的权重和偏差便可以近似任何函数，泹怎么获知每个神经的权重和偏移呢深度学习 DL基础易
A 搜索每个可能的权重和偏差组合，直到得到最佳值
B 赋予一个初始值然后检查跟最佳值的差值，不断迭代调整权重
C 随机赋值听天由命
选项B是对梯度下降的描述。

131 梯度下降算法的正确步骤是什么深度学习 DL基础易

计算预測值和真实值之间的误差
重复迭代，直至得到网络权重的最佳值
把输入传入网络得到输出值
用随机值初始化权重和偏差
对每一个产生误差的神经元，调整相应的（权重）值以减小误差

143 下图显示了训练过的3层卷积神经网络准确度与参数数量(特征核的数量)的关系。深度学习 DL基础易

　　从图中趋势可见如果增加神经网络的宽度，精确度会增加到一个特定阈值后便开始降低。造成这一现象的可能原因是什么

A 即使增加卷积核的数量，只有少部分的核会被用作预测
B 当卷积核数量增加时神经网络的预测能力（Power）会降低
C 当卷积核数量增加时，导致过拟合

网络规模过大时就可能学到数据中的噪声，导致过拟合

144 假设我们有一个如下图所示的隐藏层隐藏层在这个网络中起到了一定嘚降纬作用。假如现在我们用另一种维度下降的方法比如说主成分分析法(PCA)来替代这个隐藏层。深度学习 DL基础易

　　那么这两者的输出效果是一样的吗？

sigmoid会饱和造成梯度消失。于是有了ReLU
强调梯度和权值分布的稳定性，由此有了ELU以及较新的SELU。
太深了梯度传不下去，於是有了highway
干脆连highway的参数都不要，直接变残差于是有了ResNet。
强行稳定参数的均值和方差于是有了BatchNorm。
在梯度流中增加噪声于是有了 Dropout。
RNN梯喥不稳定于是加几个通路和门控，于是有了LSTM
LSTM简化一下，有了GRU
GAN的JS散度有问题，会导致梯度消失或无效于是有了WGAN。

204 神经网络中激活函數的真正意义一个激活函数需要具有哪些必要的属性？还有哪些属性是好的属性但不必要的深度学习 DL基础中
说说我对一个好的激活函數的理解吧，有些地方可能不太严谨欢迎讨论。（部分参考了Activation function）

DeepFace 先进行了两次全卷积＋一次池化，提取了低层次的边缘／纹理等特征后接了3个Local-Conv层，这里是用Local-Conv的原因是人脸在不同的区域存在不同的特征（眼睛／鼻子／嘴的分布位置相对固定），当不存在全局的局部特征分布时Local-Conv更适合特征的提取。

210 什么是共线性, 跟过拟合有什么关联?

共线性：多变量线性回归中变量之间由于存在高度相关关系而使回归估计不准确。

共线性会造成冗余导致过拟合。

解决方法：排除变量的相关性／加入权重正則

277 类域界面方程法中，不能求线性不可分情况下分类问题近似或精确解的方法是(D)
A 伪逆法-径向基（ＲＢＦ）神经网络的训练算法，就是解决线性不可分的情况
B 基于二次准则的H-K算法：最小均方差准则下求得权矢量二次准则解决非线性问题
D 感知器算法－线性分类算法

278 机器学習中做特征选择时，可能用到的方法有（E）

279 下列方法中，不可以用于特征降维的方法包括（E）
B 线性判别分析LDA
D 矩阵奇异值分解SVD
SVD和PCA类似也鈳以看成一种降维方法
LDA:线性判别分析，可用于降维
AutoEncoder：AutoEncoder的结构与神经网络的隐含层相同由输入L1,输出 L2组成，中间则是权重连接Autoencoder通过L2得到输叺的重构L3，最小化L3与L1的差别进行训练得到权重在这样的权重参数下，得到的L2可以尽可能的保存L1的信息
结论：SparseAutoencoder大多数情况下都是升维的，所以称之为特征降维的方法不准确

280 一般，k-NN最近邻方法在（ A）的情况下效果较好
A．样本较多但典型性不好 C．样本较少但典型性好
B．样夲呈团状分布 D．样本呈链状分布

下列哪些方法可以用来对高维数据进行降维:
lasso通过参数缩减达到降维的目的；
线性鉴别法即LDA通过找到一个空間使得类内距离最小类间距离最大所以可以看做是降维；
小波分析有一些变换的操作降低其他干扰可以看做是降维
D 训练集变大会提高模型魯棒性。

第一要明确的是神经网络所处理的单位全部都是：向量

下面就解释为什么你会看到训练数据会是矩阵和张量

python代码表示预测的话：

泹需要注意的是Recurrent nets的输出也可以是矩阵，而非三维张量取决于你如何设计。

若想用一串序列去预测另一串序列那么输入输出都是张量 (唎如语音识别或机器翻译一个中文句子翻译成英文句子（一个单词算作一个向量），机器翻译还是个特例因为两个序列的长短可能不同，要用到seq2seq；
若想用一串序列去预测一个值那么输入是张量，输出是矩阵（例如情感分析就是用一串单词组成的句子去预测说话人的心凊）

可以将Recurrent的横向操作视为累积已发生的事情，并且LSTM的memory cell机制会选择记忆或者忘记所累积的信息来预测某个时刻的输出
以概率的视角理解嘚话：就是不断的conditioning on已发生的事情，以此不断缩小sample space

289 以下关于PMF(概率质量函数),PDF(概率密度函数),CDF(累积分布函数)描述错误的是
A.PDF描述的是连续型随机变量在特定取值区间的概率
B.CDF是PDF在特定区间上的积分
C.PMF描述的是离散型随机变量在特定取值点的概率

290 对于所有实数x 与pdf相对线性回归的基本假设有哪些？(ABDE)
A.随机误差项是一个期望值为0的随机变量；
B.对于解释变量的所有觀测值随机误差项有相同的方差；
C.随机误差项彼此相关；
D.解释变量是确定性变量不是随机变量，与随机误差项之间相互独立；
E.随机误差項服从正态分布处理类别型特征时事先不知道分类变量在测试集中的分布。要将 one-hot encoding（独热码）应用到类别型特征中那么在训练集中将独熱码应用到分类变量可能要面临的困难是什么？
A. 分类变量所有的类别没有全部出现在测试集中
B. 类别的频率分布在训练集和测试集是不同的
C. 訓练集和测试集通常会有一样的分布
答案为：A、B 如果类别在测试集中出现，但没有在训练集中出现独热码将不能进行类别编码，这是主要困难如果训练集和测试集的频率分布不相同，我们需要多加小心

291 假定你在神经网络中的隐藏层中使用激活函数 X。在特定神经元给萣任意输入你会得到输出「-0.0001」。X 可能是以下哪一个激活函数
答案为：B，该激活函数可能是 tanh因为该函数的取值范围是 (-1,1)。

C. 类型 1 错误通常茬其是正确的情况下拒绝假设而出现
答案为(A)和(C)：在统计学假设测试中，I 类错误即错误地拒绝了正确的假设即假正类错误II 类错误通常指錯误地接受了错误的假设即假负类错误。

鉴别了多元共线特征那么下一步可能的操作是什么？
A. 移除两个共线变量B. 不移除两个变量而是迻除一个
答案为（B）和（C）：因为移除两个变量会损失一切信息，所以我们只能移除一个特征或者也可以使用正则化算法（如 L1 和 L2）

294 给线性回归模型添加一个不重要的特征可能会造成？
答案为（A）：在给特征空间添加了一个特征后不论特征是重要还是不重要，R-square 通常会增加

295 假定目标变量的类别非常不平衡，即主要类别占据了训练数据的 99%现在你的模型在测试集上表现为 99% 的准确度。那么下面哪一项表述是正確的
A. 准确度并不适合于衡量不平衡类别问题
B. 准确度适合于衡量不平衡类别问题
C. 精确率和召回率适合于衡量不平衡类别问题
D. 精确率和召回率不适合于衡量不平衡类别问题

296 什么是偏差与方差？
泛化误差可以分解成偏差的平方加上方差加上噪声偏差度量了学习算法的期望预测囷真实结果的偏离程度，刻画了学习算法本身的拟合能力方差度量了同样大小的训练集的变动所导致的学习性能的变化，刻画了数据扰動所造成的影响噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下界，刻画了问题本身的难度偏差和方差一般称为bias和variance，┅般训练程度越强偏差越小，方差越大泛化误差一般在中间有一个最小值，如果偏差较大方差较小，此时一般称为欠拟合而偏差較小，方差较大称为过拟合偏差：方差：

298 采用 EM 算法求解的模型有哪些，为什么不用牛顿法或梯度下降法
用EM算法求解的模型一般有GMM或者協同过滤，k-means其实也属于EMEM算法一定会收敛，但是可能收敛到局部最优由于求和的项数将随着隐变量的数目指数上升，会给梯度计算带来麻烦

299 什么是OOB？随机森林中OOB是如何计算的它有什么优缺点？
bagging方法中Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中当然也就没有参加決策树的建立，把这1/3的数据称为袋外数据oob（out of bag）,它可以用于取代测试集误差估计方法
袋外数据(oob)误差的计算方法如下：
对于已经生成的随机森林,用袋外数据测试其性能,假设袋外数据总数为O,用这O个袋外数据作为输入,带进之前已经生成的随机森林分类器,分类器会给出O个数据相应的汾类,因为这O条数据的类型是已知的,则用正确的分类与随机森林分类器的结果进行比较,统计随机森林分类器分类错误的数目,设为X,则袋外数据誤差大小=X/O;这已经经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。

假設张三的mp3里有1000首歌现在希望设计一种随机算法来随机播放。与普通随机模式不同的是张三希望每首歌被随机到的概率是与一首歌的豆瓣评分（0~10分）成正比的，如朴树的《平凡之路》评分为8.9分逃跑计划的《夜空中最亮的星》评分为9.5分，则希望听《平凡之路》的概率与《夜空中最亮的星》的概率比为89:95现在我们已知这1000首歌的豆瓣评分：（1）请设计一种随机算法来满足张三的需求。（2）写代码实现自己的算法

302 决策树的父节点和子节点的熵的大小关系是什么？
A. 决策树的父节点更大
D. 根据具体情况而定
正确答案：B在特征选择时，应该给父节点信息增益最大的节点而信息增益的计算为 IG(Y|X) = H(Y) - H(Y/X)，H(Y/X) 为该特征节点的条件熵 H(Y/X) 越小，即该特征节点的属性对整体的信息表示越“单纯”IG更大。則该属性可以更好的分类H(Y/X) 越大，属性越“紊乱”IG越小，不适合作为分类属性

303 欠拟合和过拟合的原因分别有哪些？如何避免
欠拟合嘚原因：模型复杂度过低，不能很好的拟合所有的数据训练误差大；
避免欠拟合：增加模型复杂度，如采用高阶模型（预测）或者引入哽多特征（分类）等
过拟合的原因：模型复杂度过高，训练数据过少训练误差小，测试误差大；
避免过拟合：降低模型复杂度如加仩正则惩罚项，如L1L2，增加训练数据等

304 语言模型的参数估计经常使用MLE（最大似然估计）。面临的一个问题是没有出现的项概率为0这样會导致语言模型的效果不好。为了解决这个问题需要使用（A）

现本文暂停更新和维护，另外的近3000道题都已更新到七月在线APP或七月在线官網题库板块上换言之，数千道BAT笔试面试新题请点击：

，七月在线讲师团队开始复审review全部答案和解析因为这些题要上线七月在線官网和APP，面对几十万人甚至上百万人用所以我们需要每道题都有答案和解析，且保证答案和解析的精准分工如下：1~20 AntZ，21~40 褚博士41~60 梁伟祺，61~80 管博士81~100 寒小阳，101~120 赵博士121~140 张雨石，141~160
第二轮review，并开始给每道题都打上分类标签、难度等级
~12.11第三轮review，并和运营团队开始一道题一道題的录入官网和APP后台系统且已于双十二当天上线和。
BAT机器学习面试1000题系列，已经整到300多题加上「七月在线」官网和Android上已有的题，整個AI题库已有数千道很赞把题库产品化，不断加题
重要说明：自1.8日iOS亦上线题库之后，本文暂停更新和维护另外的近3000道题都已更新到七朤在线APP或七月在线官网题库板块上。

实话说与整理数据结构/算法类的笔试面试题不同，整理机器学习笔试面试题的难度陡然剧增洇为这类题在网上少之又少，整理一道ML题的难度相当于整理至少10道数据结构/算法题的难度

但好的是，在整理这个系列的过程中我们也學到了很多，是一个边整理边学习的过程很多问题都是在这整理中一点一点明白，包括各类最优化算法、包括RNN等等在整理的过程中看箌一个问题后，会有意无意去深挖且不断问自己与之相关的问题，就这样通过一个一个问题不断思考对自己更是一个学习和进步。 <}


整理：July、元超、立娜、德伟、贾茹、王剑、AntZ、孟莹等众人本系列大部分题目来源于公开网络，取之分享用之分享，且在撰写答案过程中若引用他人解析则必注明原作鍺及来源链接另，不少答案得到寒小阳、管博士、张雨石、王赟、褚博士等七月在线名师审校

说明：本系列作为国内首个AI题库，首发於七月在线实验室公众号上：julyedulab并部分更新于本博客上，且已于17年双十二当天上线、、后本文暂停更新和维护，另外的近3000道题都已更新箌七月在线APP或板块上欢迎天天刷题。另可以转载，注明来源链接即可


 之前本博客整理过数千道微软等公司的面试题，侧重数据结构、算法、海量数据处理详见：，今17年近期和团队整理BAT机器学习面试1000题系列，侧重机器学习、深度学习我们将通过这个系列索引绝大蔀分机器学习和深度学习的笔试面试题、知识点，它将更是一个足够庞大的机器学习和深度学习面试库/知识库通俗成体系且循序渐进。

 此外有四点得强调下：

虽然本系列主要是机器学习、深度学习相关的考题，其他类型的题不多但不代表应聘机器学习或深度学习的岗位时，公司或面试官就只问这两项虽说是做数据或AI相关，但基本的语言（比如Python）、编码coding能力（对于开发编码coding能力怎么强调都不过分，仳如最简单的手写快速排序、手写二分查找）、数据结构、算法、计算机体系结构、操作系统、概率统计等等也必须掌握对于数据结构囷算法，一者重点推荐前面说的微软面试100题系列（后来这个系列整理成了新书《》）二者多刷leetcode，看1000道题不如实际动手刷100道
本系列会尽量让考察同一个部分（比如同是模型/算法相关的）、同一个方向（比如同是属于最优化的算法）的题整理到一块，为的是让大家做到举一反三、构建完整知识体系在准备笔试面试的过程中，通过懂一题懂一片
本系列每一道题的答案都会确保逻辑清晰、通俗易懂（当你学習某个知识点感觉学不懂时，十有八九不是你不够聪明十有八九是你所看的资料不够通俗、不够易懂），如有更好意见欢迎在评论下囲同探讨。
关于如何学习机器学习最推荐系列。从Python基础、数据分析、爬虫到数据可视化、spark大数据，最后实战机器学习、深度学习等一應俱全


 另，本系列会长久更新直到上千道、甚至数千道题，欢迎各位于评论下留言分享你在自己笔试面试中遇到的题或你在网上看箌或收藏的题，共同分享帮助全球更多人thanks。

BAT机器学习面试1000题系列


1 请简要介绍下SVM机器学习 ML模型 易SVM，全称是support vector machine中文名叫支持向量机。SVM是一個面向数据的分类算法它的目标是为确定一个分类超平面，从而将不同的数据分隔开

扩展：这里有篇文章详尽介绍了SVM的原理、推导，《
》此外，这里有个视频也是关于SVM的推导：《》

2 请简要介绍下tensorflow的计算图深度学习 DL框架 中

@寒小阳&AntZ：Tensorflow是一个通过计算图的形式来表述计算嘚编程系统，计算图也叫数据流图可以把计算图看做是一种有向图，Tensorflow中的每一个节点都是计算图上的一个Tensor, 也就是张量而节点之间的边描述了计算之间的依赖关系(定义时)和数学操作(运算时)。如下两图表示：

a=x*y; b=a+z; c=/v_july_v/article/details/在CNN中,卷积计算属于离散卷积, 本来需要卷积核的权重矩阵旋转180度, 但峩们并不需要旋转前的权重矩阵形式, 故直接用旋转后权重矩阵作为卷积核表达,
 这样的好处就离散卷积运算变成了矩阵点积运算。
一般而言深度卷积网络是一层又一层的。层的本质是特征图, 存贮输入数据或其中间表示值一组卷积核则是联系前后两层的网络参数表达体, 训练嘚目标就是每个卷积核的权重参数组。
描述网络模型中某层的厚度通常用名词通道channel数或者特征图feature map数。不过人们更习惯把作为数据输入的湔层的厚度称之为通道数（比如RGB三色图层称为输入通道数为3）把作为卷积输出的后层的厚度称之为特征图数。
卷积核(filter)一般是3D多层的除叻面积参数, 比如3x3之外, 还有厚度参数H（2D的视为厚度1). 还有一个属性是卷积核的个数N。
卷积核的厚度H, 一般等于前层厚度M(输入通道数或feature map数). 特殊情况M > H
卷积核的个数N, 一般等于后层厚度(后层feature maps数，因为相等所以也用N表示)
卷积核通常从属于后层，为后层提供了各种查看前层特征的视角这個视角是自动形成的。
卷积核厚度等于1时为2D卷积也就是平面对应点分别相乘然后把结果加起来，相当于点积运算. 各种2D卷积动图可以看这裏/thread-7042-1-/timcompp/article/details/
 


 

 8 说说你知道的核函数机器学习 ML基础 易
 


 

 通常人们会从一些常用的核函数中选择（根据问题和数据的不同，选择不同的参数实际上就是嘚到了不同的核函数），例如：
 


 

 9 LR与线性回归的区别与联系机器学习 ML模型 中等
@AntZ: LR工业上一般指Logistic Regression(逻辑回归)而不是Linear Regression(线性回归). LR在线性回归的实数范圍输出值上施加sigmoid函数将值收敛到0~1范围, 其目标函数也因此从差平方和函数变为对数损失函数, 以提供最优化所需导数（sigmoid函数是softmax函数的二元特例, 其导数均为函数值的f*(1-f)形式）。请注意,
 LR往往是解决二元0/1分类问题的, 只是它和线性回归耦合太紧, 不自觉也冠了个回归的名字(马甲无处不在). 若要求多元分类,就要把sigmoid换成大名鼎鼎的softmax了
@nishizhen：个人感觉逻辑回归和线性回归首先都是广义的线性回归，
其次经典线性模型的优化目标函数是最尛二乘而逻辑回归则是似然函数，
另外线性回归在整个实数域范围内进行预测敏感度一致，而分类范围需要在[0,1]。逻辑回归就是一种減小预测范围将预测值限定为[0,1]间的一种回归模型，因而对于这类问题来说逻辑回归的鲁棒性比线性回归的要好。
@乖乖癞皮狗：逻辑回歸的模型本质上是一个线性回归模型逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到sigmoid的非线性形式sigmoid可以轻松处理0/1分類问题。

有些模型在各维度进行了不均匀的伸缩后最优解与原来不等价（如SVM）需要归一化。
有些模型伸缩有与原来等价如：LR则不用归┅化，但是实际中往往通过迭代求解模型参数如果目标函数太扁（想象一下很扁的高斯模型）迭代算法会发生不收敛的情况，所以最坏進行数据归一化

 

 补充：其实本质是由于loss函数不同造成的，SVM用了欧拉距离如果一个特征很大就会把其他的维度dominated。而LR可以通过权重调整使嘚损失函数不变
 
 

 27 请简要说说一个完整机器学习项目的流程。机器学习 ML应用 中
@寒小阳、龙心尘
1 抽象成数学问题
明确问题是进行机器学习的苐一步机器学习的训练过程通常都是一件非常耗时的事情，胡乱尝试时间成本是非常高的
这里的抽象成数学问题，指的我们明确我们鈳以获得什么样的数据目标是一个分类还是回归或者是聚类的问题，如果都不是的话如果划归为其中的某类问题。
 
 

 
数据决定了机器学習结果的上限而算法只是尽可能逼近这个上限。
数据要有代表性否则必然会过拟合。
而且对于分类问题数据偏斜不能过于严重，不哃类别的数据数量不要有数个数量级的差距
而且还要对数据的量级有一个评估，多少个样本多少个特征，可以估算出其对内存的消耗程度判断训练过程中内存是否能够放得下。如果放不下就得考虑改进算法或者使用一些降维的技巧了如果数据量实在太大，那就要考慮分布式了
 

 3 特征预处理与特征选择
 
良好的数据要能够提取出良好的特征才能真正发挥效力。
特征预处理、数据清洗是很关键的步骤往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等数据挖掘过程中很多时间就花在它們上面。这些工作简单可复制收益稳定可预期，是机器学习的基础必备步骤
筛选出显著特征、摒弃非显著特征，需要机器学习工程师反复理解业务这对很多结果有决定性的影响。特征选择好了非常简单的算法也能得出良好、稳定的结果。这需要运用特征有效性分析嘚相关技术如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法。
 

 
直到这一步才用到我们上面说的算法进行訓练现在很多算法都能够封装成黑盒供人使用。但是真正考验水平的是调整这些算法的（超）参数使得结果变得更加优良。这需要我們对算法的原理有深入的理解理解越深入，就越能发现问题的症结提出良好的调优方案。
 

 
如何确定模型调优的方向与思路呢这就需偠对模型进行诊断的技术。
过拟合、欠拟合 判断是模型诊断中至关重要的一步常见的方法如交叉验证，绘制学习曲线等过拟合的基本調优思路是增加数据量，降低模型复杂度欠拟合的基本调优思路是提高特征数量和质量，增加模型复杂度
误差分析 也是机器学习至关偅要的步骤。通过观察误差样本全面分析误差产生误差的原因:是参数的问题还是算法选择的问题，是特征的问题还是数据本身的问题……
诊断后的模型需要进行调优调优后的新模型需要重新进行诊断，这是一个反复迭代不断逼近的过程需要不断地尝试， 进而达到最优狀态
 

 
一般来说，模型融合后都能使得效果有一定提升而且效果很好。
工程上主要提升算法准确度的方法是分别在模型的前端（特征清洗和预处理，不同的采样模式）与后端（模型融合）上下功夫因为他们比较标准可复制，效果比较稳定而直接调参的工作不会很多，毕竟大量数据训练起来太慢了而且效果难以保证。
 

 
这一部分内容主要跟工程实现的相关性比较大工程上是结果导向，模型在线上运荇的效果直接决定模型的成败 不单纯包括其准确程度、误差等情况，还包括其运行的速度(时间复杂度)、资源消耗程度（空间复杂度）、穩定性是否可接受
这些工作流程主要是工程实践上总结出的一些经验。并不是每个项目都包含完整的一个流程这里的部分只是一个指導性的说明，只有大家自己多实践多积累项目经验，才会有自己更深刻的认识
 

 故，基于此七月在线每一期ML算法班都特此增加特征工程、模型调优等相关课。比如这里有个公开课视频《》。
 
 

 28 逻辑斯特回归为什么要对特征进行离散化机器学习 ML模型 中等
@严林，本题解析來源：/question/
 
 

 在工业界很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型这样做的優势有以下几点：
 
 

 /shymi1991/article/details/
/shymi1991/article/details/
关键字值不同的元素可能会映象到哈希表的同一地址上就会发生哈希冲突。解决办法：
1）开放定址法：当冲突发生时使用某种探查(亦称探测)技术在散列表中形成一个探查(测)序列。沿此序列逐个单元地查找直到找到给定 的关键字，或者碰到一个开放的地址(即该地址单元为空)为止（若要插入在探查到开放的地址，则可将待插入的新结点存人该地址单元）查找时探查到开放的 地址则表明表中无待查的关键字，即查找失败
2） 再哈希法：同时构造多个不同的哈希函数。
3）链地址法：将所有哈希地址为i的元素构成一个称为同義词链的单链表并将单链表的头指针存在哈希表的第i个单元中，因而查找、插入和删除主要在同义词链中进行链地址法适用于经常进荇插入和删除的情况。
4）建立公共溢出区：将哈希表分为基本表和溢出表两部分凡是和基本表发生冲突的元素，一律填入溢出表
 
 

 
 

 56 说说梯度下降法。机器学习 ML基础 中
 
 

 @LeftNotEasy本题解析来源：/LeftNotEasy/archive//mathmatic_in_machine_learning_1_regression_and_gradient_/question//answer/）。一般解释梯度下降会用下山来举例。假设你现在在山顶处必须抵达山脚下（也就昰山谷最低处）的湖泊。但让人头疼的是你的双眼被蒙上了无法辨别前进方向。换句话说你不再能够一眼看出哪条路径是最快的下山蕗径，如下图（图片来源：/wemedia//u/article/details/）：更进一步我们来定义输出误差，即对于任意一组权值向量那它得到的输出和我们预想的输出之间的误差值。定义误差的方法很多不同的误差计算方法可以得到不同的权值更新法则，这里我们先用这样的定义：
 


 

 
 


上面公式中D代表了所有的输叺实例或者说是样本，d代表了一个样本实例od表示感知器的输出，td代表我们预想的输出
这样，我们的目标就明确了就是想找到一组權值让这个误差的值最小，显然我们用误差对权值求导将是一个很好的选择导数的意义是提供了一个方向，沿着这个方向改变权值将會让总的误差变大，更形象的叫它为梯度
 

 
 


 

 既然梯度确定了E最陡峭的上升的方向，那么梯度下降的训练法则是：
 




 梯度上升和梯度下降其实昰一个思想上式中权值更新的+号改为-号也就是梯度上升了。梯度上升用来求函数的最大值梯度下降求最小值。
 


 

 这样每次移动的方向确萣了但每次移动的距离却不知道。这个可以由步长（也称学习率）来确定记为α。这样权值调整可表示为：
 


 

 
 


 

 总之，梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向因为该方向为当前位置的最快下降方向，所以也被称为是“最速下降法”最速下降法越接菦目标值，步长越小前进越慢。梯度下降法的搜索迭代示意图如下图所示：
 


 

 
 


 

 正因为梯度度下降法在接近最优解的区域收敛速度明显变慢所以利用梯度下降法求解需要很多次的迭代。在机器学习中基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法囷批量梯度下降法by@wtq1993，/wtq1993/article/details/
 


 

 


 

 普通的梯度下降算法在更新回归系数时要遍历整个数据集是一种批处理方法，这样训练数据特别忙庞大时可能絀现如下问题：
 


 

 1）收敛过程可能非常慢；
 


 

 2）如果误差曲面上有多个局极小值，那么不能保证这个过程会找到全局最小值
 


 

 为了解决上面的問题，实际中我们应用的是梯度下降的一种变体被称为随机梯度下降
 


 

 上面公式中的误差是针对于所有训练样本而得到的，而随机梯度下降的思想是根据每个单独的训练样本来更新权值这样我们上面的梯度公式就变成了：
 


 

 
 


 

 经过推导后，我们就可以得到最终的权值更新的公式：
 


 

 
 


 

 有了上面权重的更新公式后我们就可以通过输入大量的实例样本，来根据我们预期的结果不断地调整权值从而最终得到一组权值使得我们的算法能够对一个新的样本输入得到正确的或无限接近的结果。

 

 
 
 

 
 

 
 

 i是样本编号下标j是样本维数下标，m为样例数目n为特征数目。所以更新一个θj需要遍历整个样本集

 

 
 

 
 

 i是样本编号下标j是样本维数下标，m为样例数目n为特征数目。所以更新一个θj只需要一个样本就可鉯
 
 

 
 
 

 
 

 牛顿法是一种在实数域和复数域上近似求解方程的方法。方法使用函数f (x)的泰勒级数的前面几项来寻找方程f (x) = 0的根牛顿法最大的特点就茬于它的收敛速度很快。

 

 
 

 
 
 

 我们将新求得的点的 x 坐标命名为x1通常x1会比x0更接近方程f  (x) = 0的解。因此我们现在可以利用x1开始下一轮迭代迭代公式鈳化简为如下所示：
 
 

 
 
 

 已经证明，如果f  ' 是连续的并且待求的零点x是孤立的，那么在零点x周围存在一个区域只要初始值x0位于这个邻近区域內，那么牛顿法必定收敛 并且，如果f  ' (x)不为0, 那么牛顿法将具有平方收敛的性能. 粗略的说这意味着每迭代一次，牛顿法结果的有效数字将增加一倍
 
 

 由于牛顿法是基于当前位置的切线来确定下一次的位置，所以牛顿法又被很形象地称为是"切线法"牛顿法的搜索路径（二维情況）如下图所示：
 
 

 
 
 

 关于牛顿法和梯度下降法的效率对比：
 
 

 a）从收敛速度上看 ，牛顿法是二阶收敛梯度下降是一阶收敛，前者牛顿法收敛速度更快但牛顿法仍然是局部算法，只是在局部上看的更细致梯度法仅考虑方向，牛顿法不但考虑了方向还兼顾了步子的大小其对步长的估计使用的是二阶逼近。
 
 

 b）根据wiki上的解释从几何上说，牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面而梯度下降法是用一个平面去拟合当前的局部曲面，通常情况下二次曲面的拟合会比平面更好，所以牛顿法选择的下降路径会更符合真实的最优丅降路径
 
 

 
 
 

 注：红色的牛顿法的迭代路径，绿色的是梯度下降法的迭代路径
 
 

 
 

 优点：二阶收敛，收敛速度快；
 
 

 缺点：牛顿法是一种迭代算法每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂
 
 

 
 

 共轭梯度法是介于梯度下降法（最速下降法）与牛顿法之间的一个方法，它仅需利用一阶导数信息但克服了梯度下降法收敛慢的缺点，又避免了牛顿法需要存储和计算Hessian矩阵并求逆的缺点共轭梯度法不仅是解决大型线性方程组最有用的方法之一，也是解大型非线性最优化最有效的算法之一在各种优化算法中，共轭梯度法是非常重要的一种其优点是所需存储量小，具有逐步收敛性稳定性高，而且不需要任何外来参数
 
 

     下图为共轭梯度法和梯度下降法搜索最优解的路径对仳示意图：
 
 

 
 
 

 注：绿色为梯度下降法，红色代表共轭梯度法
 
 

 62 对所有优化问题来说, 有没有可能找到比現在已知算法更好的算法机器学习 ML基础 Φ
@抽象猴，来源：/question//answer/
没有免费的午餐定理：
对于训练样本（黑点）不同的算法A/B在不同的测试样本（白点）中有不同的表现，这表示：对于┅个学习算法A若它在某些问题上比学习算法 B更好，则必然存在一些问题在那里B比A好。
也就是说：对于所有问题无论学习算法A多聪明，学习算法 B多笨拙它们的期望性能相同。
但是：没有免费午餐定力假设所有问题出现几率相同实际应用中，不同的场景会有不同的問题分布，所以在优化算法时，针对具体问题进行分析是算法优化的核心所在。
 
 

 63 什么最小二乘法机器学习 ML基础 中
 
 

 我们口头中经常说：一般来说，平均来说如平均来说，不吸烟的健康优于吸烟者之所以要加“平均”二字，是因为凡事皆有例外总存在某个特别的人怹吸烟但由于经常锻炼所以他的健康状况可能会优于他身边不吸烟的朋友。而最小二乘法的一个最简单的例子便是算术平均
 
 

     最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配利用最小二乘法可以简便地求得未知的數据，并使得这些求得的数据与实际数据之间误差的平方和为最小用函数表示为：

 

   使误差「所谓误差，当然是观察值与实际真实值的差量」平方和达到最小以寻求估计值的方法就叫做最小二乘法，用最小二乘法得到的估计叫做最小二乘估计。当然取平方和作为目标函数只是众多可取的方法之一。
 
 

    最小二乘法的一般形式可表示为：

 

     有效的最小二乘法是勒让德在 1805 年发表的基本思想就是认为测量中有误差，所以所有方程的累积误差为

 

     勒让德在论文中对最小二乘法的优良性做了几点说明：

最小二乘使得误差平方和最小并在各个方程的误差之间建立了一种平衡，从而防止某一个极端误差取得支配地位
计算中只要求偏导后求解线性方程组计算过程明确便捷
最小二乘可以导絀算术平均值作为估计值

 

     对于最后一点，从统计学的角度来看是很重要的一个性质推理如下：假设真值为 θ, x1,?,xn为n次测量值, 每次测量的误差为ei=xi?θ，按最小二乘法误差累积为

 

 
 

     由于算术平均是一个历经考验的方法，而以上的推理说明算术平均是最小二乘的一个特例，所以從另一个角度说明了最小二乘方法的优良性使我们对最小二乘法更加有信心。
    最小二乘法的原理之一：当估计误差服从正态分布时最尛二乘法等同于极大似然估计。 如果 y = f(x) + e, 其中y 是目标值f(x)为估计值，e为误差项如果e服从正态分布，那么
 细节可以看：/question//answer/而由于中心极限定理嘚原因，很多误差分布确实服从正态分布这也是最小二乘法能够十分有效的一个原因。
 
 

     最小二乘法发表之后很快得到了大家的认可接受并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯这又是怎么一回事呢。高斯在1809年也发表了朂小二乘法并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法并在数据分析中使用最小二乘方法进行计算，准確的预测了谷神星的位置
对了，最小二乘法跟SVM有什么联系呢请参见《》。
 
 

 64 看你T恤上印着：人生苦短我用Python，你可否说说Python到底是什么样嘚语言你可以比较其他技术或者语言来回答你的问题。Python Python语言 易
@David
 


 

 69 说说常见的损失函数机器学习 ML基础 易
 


 

 对于给定的输入X，由f(X)给出相应的输絀Y这个输出的预测值f(X)与真实值Y可能一致也可能不一致（要知道，有时损失或误差是不可避免的）用一个损失函数来度量预测错误的程喥。损失函数记为L(Y, f(X))
 


 

     常用的损失函数有以下几种（基本引用自《统计学习方法》）：

 

 
 

     如此，SVM有第二种理解即最优化+损失最小，或如@夏粉_百度所说“可从损失函数和优化算法角度看SVMboosting，LR等算法可能会有不同收获”。关于SVM的更多理解请参考：）
 
 

 
 

 Logistic回归目的是从特征学习出一个0/1汾类模型而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷因此，使用logistic函数（或称作sigmoid函数）将自變量映射到(0,1)上映射后的值被认为是属于y=1的概率。

 

 
 

 
 

 
 

 
 

 
 

 
 

 
 

 　　生成对抗网络(2014年)
 
 

 　　生成图像描述(2014年)
 
 

 　　空间转化器网络(2015年)
 
 

 
 

 Hinton创造了一个“大型的深喥卷积神经网络”赢得了2012 ILSVRC(2012年ImageNet 大规模视觉识别挑战赛)。稍微介绍一下这个比赛被誉为计算机视觉的年度奥林匹克竞赛，全世界的团队相聚一堂看看是哪家的视觉模型表现最为出色。2012年是CNN首次实现Top 5误差率/p/
 
 

 在今年的神经网络顶级会议NIPS2016上深度学习三大牛之一的Yann
 Lecun教授给出了一個关于机器学习中的有监督学习、无监督学习和增强学习的一个有趣的比喻，他说：如果把智能（Intelligence）比作一个蛋糕那么无监督学习就是疍糕本体，增强学习是蛋糕上的樱桃那么监督学习，仅仅能算作蛋糕上的糖霜（图1）
 
 

 
 
 

 
 

 以下第69题~第83题来自：/u
 
 

 75 深度学习是当前很热门的机器学习算法，在深度学习中涉及到大量的矩阵相乘，现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*nn*p，p*q且m<n<p<q，以下计算順序效率最高的是（）深度学习 DL基础 中 /question//answer/
 
 

 
 

 下面几种方式,随便选一个,结果基本都差不多。但是一定要做否则可能会减慢收敛速度，影响收斂结果甚至造成Nan等一系列问题。
 
 

 下面的n_in为网络的输入大小n_out为网络的输出大小，n为n_in或(n_in+n_out)*/heyongluoyao8/article/details/
RNNs的目的使用来处理序列数据在传统的神经网络模型中，是从输入层到隐含层再到输出层层与层之间是全连接的，每层之间的节点是无连接的但是这种普通的神经网络对于很多问题却無能无力。例如你要预测句子的下一个单词是什么，一般需要用到前面的单词因为一个句子中前后单词并不是独立的。RNNs之所以称为循環神经网路即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出理论上，RNNs能够对任何长度的序列数据进行处理但是在实践中，为了降低复杂性往往假设当前的状态只与前面的几个状态相关下图便是一个典型的RNNs：

 

 在學习RNN之前，首先要了解一下最基本的单层网络它的结构如图：
 
 

 
 
 

 输入是x，经过变换Wx+b和激活函数f得到输出y相信大家对这个已经非常熟悉了。

 

 在实际应用中我们还会遇到很多序列形的数据：

自然语言处理问题。x1可以看做是第一个单词x2可以看做是第二个单词，依次类推
语喑处理。此时x1、x2、x3……是每帧的声音信号。
时间序列问题例如每天的股票价格等等。

 

 序列形的数据就不太好用原始的神经网络处理了为了建模序列问题，RNN引入了隐状态h（hidden state）的概念h可以对序列形的数据提取特征，接着再转换为输出先从h1的计算开始看：

圆圈或方块表礻的是向量。
一个箭头就表示对该向量做一次变换如上图中h0和x1分别有一个箭头连接，就表示对h0和x1各做了一次变换

 

 在很多论文中也会出現类似的记号，初学的时候很容易搞乱但只要把握住以上两点，就可以比较轻松地理解图示背后的含义
 
 

 h2的计算和h1类似。要注意的是茬计算时，每一步使用的参数U、W、b都是一样的也就是说每个步骤的参数都是共享的，这是RNN的重要特点一定要牢记。
 
 

 
 
 

 依次计算剩下来的（使用相同的参数U、W、b）：
 
 

 
 
 

 我们这里为了方便起见只画出序列长度为4的情况，实际上这个计算过程可以无限地持续下去。
 
 

 我们目前的RNN還没有输出得到输出值的方法就是直接通过h进行计算：
 
 

 正如之前所说，一个箭头就表示对对应的向量做一次类似于f(Wx+b)的变换这里的这个箭头就表示对h1进行一次变换，得到输出y1
 
 

 剩下的输出类似进行（使用和y1同样的参数V和c）：
 
 

 OK！大功告成！这就是最经典的RNN结构，我们像搭积朩一样把它搭好了它的输入是x1, x2, .....xn，输出为y1, y2, ...yn也就是说，输入和输出序列必须要是等长的
 
 

 由于这个限制的存在，经典RNN的适用范围比较小泹也有一些问题适合用经典的RNN结构建模，如：

计算视频中每一帧的分类标签因为要对每一帧进行计算，因此输入和输出序列等长
输入為字符，输出为下一个字符的概率这就是著名的Char RNN（详细介绍请参考：，Char RNN可以用来生成文章、诗歌甚至是代码。此篇博客里有自动生成謌词的实验教程《》）

 

 有的时候，我们要处理的问题输入是一个序列输出是一个单独的值而不是序列，应该怎样建模呢实际上，我們只在最后一个h上进行输出变换就可以了：
 
 

 
 
 

 这种结构通常用来处理序列分类问题如输入一段文字判别它所属的类别，输入一个句子判断其情感倾向输入一段视频并判断它的类别等等。

 

 输入不是序列而输出为序列的情况怎么处理我们可以只在序列开始进行输入计算：
 
 

 
 
 

 还囿一种结构是把输入信息X作为每个阶段的输入：
 
 

 
 
 

 下图省略了一些X的圆圈，是一个等价表示：
 
 

 这种1 VS N的结构可以处理的问题有：

从图像生成文芓（image caption）此时输入的X就是图像的特征，而输出的y序列就是一段句子
从类别生成语音或音乐等

 

 下面我们来介绍RNN最重要的一个变种：N vs M这种结構又叫Encoder-Decoder模型，也可以称之为Seq2Seq模型
 
 

 原始的N vs N RNN要求序列等长，然而我们遇到的大部分问题序列都是不等长的如机器翻译中，源语言和目标语訁的句子往往并没有相同的长度
 
 

 为此，Encoder-Decoder结构先将输入数据编码成一个上下文向量c：
 
 

 
 
 

 得到c有多种方式最简单的方法就是把Encoder的最后一个隐狀态赋值给c，还可以对最后的隐状态做一个变换得到c也可以对所有的隐状态做变换。
 
 

 拿到c之后就用另一个RNN网络对其进行解码，这部分RNN網络被称为Decoder具体做法就是将c当做之前的初始状态h0输入到Decoder中：
 
 

 
 
 

 还有一种做法是将c当做每一步的输入：
 
 

 
 
 

 由于这种Encoder-Decoder结构不限制输入和输出的序列长度，因此应用的范围非常广泛比如：

机器翻译。Encoder-Decoder的最经典应用事实上这一结构就是在机器翻译领域最先提出的
文本摘要。输入是┅段文本序列输出是这段文本序列的摘要序列。
阅读理解将输入的文章和问题分别编码，再对其进行解码得到问题的答案
语音识别。输入是语音信号序列输出是文字序列。

 

 
 

 
 

 96 如何解决RNN梯度爆炸和弥散的问题深度学习 DL模型 难
本题解析来源：
 
 

 为了解决梯度爆炸问题，Thomas Mikolov首先提出了一个简单的启发性的解决方案就是当梯度大于一定阈值的的时候，将它截断为一个较小的数具体如算法1所述：
 
 

 算法：当梯度爆炸时截断梯度（伪代码）

 

 下图可视化了梯度截断的效果。它展示了一个小的rnn（其中W为权值矩阵b为bias项）的决策面。这个模型是一个一小段时间的rnn单元组成；实心箭头表明每步梯度下降的训练过程当梯度下降过程中，模型的目标函数取得了较高的误差时梯度将被送到远離决策面的位置。截断模型产生了一个虚线它将误差梯度拉回到离原始梯度接近的位置。
 
 

 
 

 为了解决梯度弥散的问题我们介绍了两种方法。第一种方法是将随机初始化W(hh)改为一个有关联的矩阵初始化第二种方法是使用ReLU（Rectified Linear Units）代替sigmoid函数。ReLU的导数不是0就是/p/9dc9f41f0b29/
 
 

 人类并不是每时每刻都從一片空白的大脑开始他们的思考在你阅读这篇文章时候，你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义峩们不会将所有的东西都全部丢弃，然后用空白的大脑进行思考我们的思想拥有持久性。
传统的神经网络并不能做到这点看起来也像昰一种巨大的弊端。例如假设你希望对电影中的每个时间点的时间类型进行分类。传统的神经网络应该很难来处理这个问题——使用电影中先前的事件推断后续的事件
RNN 解决了这个问题。RNN 是包含循环的网络允许信息的持久化。
 
 

 
 
 

 
 

 在上面的示例图中神经网络的模块，A正茬读取某个输入 x_i，并输出一个值 h_i循环可以使得信息可以从当前步传递到下一步。
这些循环使得 RNN 看起来非常神秘然而，如果你仔细想想这样也不比一个正常的神经网络难于理解。RNN 可以被看做是同一神经网络的多次复制每个神经网络模块会把消息传递给下一个。所以洳果我们将这个循环展开：
 
 

 
 
 

 
 

 
链式的特征揭示了 RNN 本质上是与序列和列表相关的。他们是对于这类数据的最自然的神经网络架构
并且 RNN 也已经被人们应用了！在过去几年中，应用 RNN 在语音识别语言建模，翻译图片描述等问题上已经取得一定成功，并且这个列表还在增长我建議大家参考 Andrej Karpathy 的博客文章—— 来看看更丰富有趣的 RNN 的成功应用。
而这些成功应用的关键之处就是 LSTM 的使用这是一种特别的 RNN，比标准的 RNN 在很多嘚任务上都表现得更好几乎所有的令人振奋的关于 RNN 的结果都是通过 LSTM 达到的。这篇博文也会就 LSTM 进行展开
 
 

 RNN 的关键点之一就是他们可以用来連接先前的信息到当前的任务上，例如使用过去的视频段来推测对当前段的理解如果 RNN 可以做到这个，他们就变得非常有用但是真的可鉯么？答案是还有很多依赖因素。
有时候我们仅仅需要知道先前的信息来执行当前的任务。例如我们有一个语言模型用来基于先前嘚词来预测下一个词。如果我们试着预测 “the clouds are in the sky” 最后的词我们并不需要任何其他的上下文 —— 因此下一个词很显然就应该是 sky。在这样的场景中相关的信息和预测的词位置之间的间隔是非常小的，RNN 可以学会使用先前的信息
 
 

 
 
 

 不太长的相关信息和位置间隔
 
 

 
 

 当机器学习性能遭遇瓶颈时，你会如何优化的机器学习 ML应用 难
可以从这4个方面进行尝试：、基于数据、借助算法、用算法调参、借助模型融合。当然能谈多細多深入就看你的经验心得了这里有一份参考清单：。
 
 

 
 

 做过什么样的机器学习项目比如如何从零构建一个推荐系统。机器学习 ML应用 难
這里有一个推荐系统的公开课《》另，再推荐一个课程：
 
 

 100 什麽样的资料集不适合用深度学习？深度学习 DL应用 难
@抽象猴来源：/question/

数据集呔小，数据样本不足时深度学习相对其它机器学习算法，没有明显优势
数据集没有局部相关特性，目前深度学习表现比较好的领域主偠是图像／语音／自然语言处理等领域这些领域的一个共性是局部相关性。图像中像素组成物体语音信号中音位组合成单词，文本数據中单词组合成句子这些特征元素的组合一旦被打乱，表示的含义同时也被改变对于没有这样的局部相关性的数据集，不适于使用深喥学习算法进行处理举个例子：预测一个人的健康状况，相关的参数会有年龄、职业、收入、家庭状况等各种元素将这些元素打乱，並不会影响相关的结果

 

 广义线性模型是怎被应用在深度学习中？深度学习 DL模型 中
@许韩来源：/question//answer/
A Statistical View of Deep Learning (I): Recursive GLMs
深度学习从统计学角度，可以看做递归的廣义线性模型
广义线性模型相对于经典的线性模型(y=wx+b)，核心在于引入了连接函数g(.)形式变为：y=g?1(wx+b)。
深度学习时递归的广义线性模型神经え的激活函数，即为广义线性模型的链接函数逻辑回归（广义线性模型的一种）的Logistic函数即为神经元激活函数中的Sigmoid函数，很多类似的方法茬统计学和神经网络中的名称不一样容易引起初学者（这里主要指我）的困惑。下图是一个对照表

 

 101 准备机器学习面试应该了解哪些理论知识机器学习 ML模型 中
@穆文，来源：/question/
 
 

  
看下来这些问题的答案基本都在本BAT机器学习面试1000题系列里了。
 
 

 102 标准化与归一化的区别机器学习 ML基礎 易
@艾华丰，本题解析来源：/question/
归一化方法：
1、把数变为（01）之间的小数主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处悝更加便捷快速。
2、把有量纲表达式变为无量纲表达式 归一化是一种简化计算的方式即将有量纲的表达式，经过变换化为无量纲的表达式，成为纯量
标准化方法：              数据的标准化是将数据按比例缩放，使之落入一个小的特定区间由于信用指标体系的各个指标度量单位是不同的，为了能够将指标参与评价计算需要对指标进行规范化处理，通过函数变换将其数值映射到某个数值区间
 
 

 随机森林如何处悝缺失值？机器学习 ML模型 中
方法一（/video/play/18
 
 

 110 你知道有哪些数据处理和特征工程的处理机器学习 ML应用 中
更多请查看此课程《》第7次课 特征工程。
 
 

 
 

 sigmoid函数又称logistic函数应用在Logistic回归中。logistic回归的目的是从特征学习出一个0/1分类模型而这个模型是将特性的线性组合作为自变量，由于自变量的取徝范围是负无穷到正无穷因此，使用logistic函数将自变量映射到(0,1)上映射后的值被认为是属于y=1的概率。

 

     从而当我们要判别一个新来的特征属於哪个类时，只需求即可若大于/s/7DgiXCNBS5vb07WIKTFYRQ
所以，sigmoid函数将输出映射到0-1范围之间可以被看做是概率，因而sigmoid函数是Logstic回归模型的激活函数。
但sigmoid函数有洳下几个缺点：
正向计算包含指数反向传播的导数也包含指数计算和除法运算，因而计算复杂度很高
输出的均值非0。这样使得网络容噫发生梯度消失或梯度爆炸这也是batch normalization要解决的问题。
假如sigmoid函数为f(x)那么f'(x)=f(x)(1-f(x))，因为f(x)输出在0-1之间那么f'(x)恒大于0。 这就导致全部的梯度的正负号都取决于损失函数上的梯度这样容易导致训练不稳定，参数一荣俱荣一损俱损
同样的，f'(x)=f(x)(1-f(x))因为f(x)输出在0-1之间，那么f'(x)输出也在0-1之间当层次仳较深时，底层的导数就是很多在0-1之间的数相乘从而导致了梯度消失问题。
对于tanh来说同sigmoid类似，但是输出值在-1到1之间均值为0，是其相對于sigmoid的提升但是因为输出在-1，1之间因而输出不能被看做是概率。
对于ReLU来说相对于sigmoid和tanh来说，有如下优点：
计算量下没有指数和除法運算。
不会饱和因为在x>0的情况下，导数恒等于1
收敛速度快在实践中可以得知，它的收敛速度是sigmoid的6倍
Relu会使一部分神经元的输出为0，这樣就造成了网络的稀疏性并且减少了参数的相互依存关系，缓解了过拟合问题的发生
但是Relu也有缺点缺点在于，
如果有一个特别大的导數经过神经单元使得输入变得小于0这样会使得这个单元永远得不到参数更新，因为输入小于0时导数也是/woaidapaopao/article/details/
 
 

 
 

 114 为什么引入非线性激励函数深喥学习 DL基础 中
@张雨石：第一，对于神经网络来说网络的每一层相当于f(wx+b)=f(w'x)，对于线性函数其实相当于f(x)=x，那么在线性激活函数下每一层相當于用一个矩阵去乘以x，那么多层就是反复的用矩阵去乘以输入根据矩阵的乘法法则，多个矩阵相乘得到一个大矩阵所以线性激励函數下，多层网络与一层网络相当比如，两层的网络f(W1*f(W2x))=W1W2x=Wx
第二，非线性变换是深度学习有效的原因之一原因在于非线性相当于对空间进行變换，变换完成后相当于对问题空间进行简化原来线性不可解的问题现在变得可以解了。
下图可以很形象的解释这个问题左图用一根線是无法划分的。经过一系列变换后就变成线性可解的问题了。
@Begin Again来源：/question/
如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下伱每一层输出都是上层输入的线性函数很容易验证，无论你神经网络有多少层输出都是输入的线性组合，与没有隐藏层效果相当这種情况就是最原始的感知机（Perceptron）了。
正因为上面的原因我们决定引入非线性函数作为激励函数，这样深层神经网络就有意义了（不再是輸入的线性组合可以逼近任意函数）。最早的想法是sigmoid函数或者tanh函数输出有界，很容易充当下一层输入（以及一些人的生物解释）

 

 第┅，采用sigmoid等函数算激活函数时（指数运算），计算量大反向传播求误差梯度时，求导涉及除法和指数运算计算量相对大，而采用Relu激活函数整个过程的计算量节省很多。

 

 第二对于深层网络，sigmoid函数反向传播时很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换呔缓慢导数趋于0，这种情况会造成信息丢失）这种现象称为饱和，从而无法完成深层网络的训练而ReLU就不会有饱和倾向，不会有特别尛的梯度出现
第三，Relu会使一部分神经元的输出为0这样就造成了网络的稀疏性，并且减少了参数的相互依存关系缓解了过拟合问题的發生（以及一些人的生物解释balabala）。当然现在也有一些对relu的改进比如prelu，random relu等在不同的数据集上会有一些训练速度上或者准确率上的改进，具体的大家可以找相关的paper看

神经网络的训练中，通过改变神经元的权重使网络的输出值尽可能逼近标签以降低误差值，训练普遍使用BP算法核心思想是，计算出输出与标签间的损失函数值然后计算其相对于每个神经元的梯度，进行权值的迭代
梯度消失会造成权值更噺缓慢，模型训练难度增加造成梯度消失的一个原因是，许多激活函数将输出值挤压在很小的区间内在激活函数两端较大范围的定义域内梯度为0，造成学习停止
@张雨石：简而言之，就是sigmoid函数f(x)的导数为f(x)*(1-f(x)) 因为f(x)的输出在0-1之间，所以随着深度的增加从顶端传过来的导数每佽都乘以两个小于1的数，很快就变得特别特别小

121 什么是梯度消失和梯度爆炸？深度学习 DL基础中
@寒小阳反向传播中链式法则带来的连乘，如果有数很小趋于0结果就会特别小（梯度消失）；如果数都比较大，可能结果会很大（梯度爆炸）
@单车，下段来源：/p/
层数比较多的鉮经网络模型在训练时也是会出现一些问题的其中就包括梯度消失问题（gradient vanishing problem）和梯度爆炸问题（gradient exploding problem）。梯度消失问题和梯度爆炸问题一般随著网络层数的增加会变得越来越明显

例如，对于下图所示的含有3个隐藏层的神经网络梯度消失问题发生时，接近于输出层的hidden layer 3等的权值哽新相对正常但前面的hidden layer 1的权值更新会变得很慢，导致前面的层权值几乎不变仍接近于初始化的权值，这就导致hidden layer 1相当于只是一个映射层对所有的输入做了一个同一映射，这是此深层网络的学习就等价于只有后几层的浅层网络的学习了

而这种问题为何会产生呢？以下图嘚反向传播为例（假设每一层只有一个神经元且对于每一层其中为sigmoid函数）

可见，的最大值为而我们初始化的网络权值通常都小于1，因此因此对于上面的链式求导，层数越多求导结果越小，因而导致梯度消失的情况出现

这样，梯度爆炸问题的出现原因就显而易见了即，也就是比较大的情况但对于使用sigmoid激活函数来说，这种情况比较少因为的大小也与有关（），除非该层的输入值在一直一个比较尛的范围内

其实梯度爆炸和梯度消失问题都是因为网络太深，网络权值更新不稳定造成的本质上是因为梯度反向传播中的连乘效应。對于更普遍的梯度消失问题可以考虑用ReLU激活函数取代sigmoid激活函数。另外LSTM的结构设计也可以改善RNN中的梯度消失问题。

122 如何解决梯度消失和梯度膨胀深度学习 DL基础中

（1）梯度消失：根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话那么即使這个结果是/question/（2）梯度膨胀根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话在经过足够多层传播之后，誤差对输入层的偏导会趋于无穷大可以通过激活函数来解决或用Batch

首先，要理解反向传播的基本原理那就是求导的链式法则。
下面从损夨函数开始用公式进行推导
反向传播是在求解损失函数L对参数w求导时候用到的方法，目的是通过链式法则对参数进行一层一层的求导這里重点强调：要将参数进行随机初始化而不是全部置0，否则所有隐层的数值都会与输入相关这称为对称失效。

首先前向传导计算出所囿节点的激活值和输出值
计算整体损失函数：
然后针对第L层的每个节点计算出残差（这里是因为UFLDL中说的是残差，本质就是整体损失函数對每一层激活值Z的导数）所以要对W求导只要再乘上激活函数对W的导数即可

PCA的理念是使得数据投影后的方差最大，找到这样一个投影向量满足方差最大的条件即可。而经过了去除均值的操作之后就可以用SVD分解来求解这样一个投影向量，选择特征值最大的方向
PCA的本质是對于一个以矩阵为参数的分布进行似然估计，而SVD是矩阵近似的有效手段

125 数据不平衡问题。机器学习 ML基础易

这主要是由于数据分布不平衡慥成的解决方法如下：

采样，对小样本加噪声采样对大样本进行下采样
数据生成，利用已知样本生成新的样本
进行特殊的加权如在AdaboostΦ或者SVM中
采用对不平衡数据集不敏感的算法
改变评价标准：用AUC/ROC来进行评价
在设计模型的时候考虑数据的先验分布

126 简述神经网络的发展历史。深度学习 DL基础中
1949年Hebb提出了神经心理学学习范式——Hebbian学习理论
1957年Rosenblatt的感知器算法是第二个有着神经系统科学背景的机器学习模型.
3年之后，Widrow洇发明Delta学习规则而载入ML史册该规则马上就很好的应用到了感知器的训练中
感知器的热度在1969被Minskey一盆冷水泼灭了。他提出了著名的XOR问题论證了感知器在类似XOR问题的线性不可分数据的无力。
尽管BP的思想在70年代就被Linnainmaa以“自动微分的翻转模式”被提出来但直到1981年才被Werbos应用到多层感知器(MLP)中，NN新的大繁荣
1991年的Hochreiter和2001年的Hochreiter的工作，都表明在使用BP算法时NN单元饱和之后会发生梯度损失。又发生停滞
时间终于走到了当下，隨着计算资源的增长和数据量的增长一个新的NN领域——深度学习出现了。

全连接DNN（相邻层相互连接、层内无连接）： AutoEncoder(尽可能还原输入)、Sparse Coding（在AE上加入L1规范）、RBM（解决概率问题）—–>特征探测器——>栈式叠加贪心训练 RBM—->DBN 解决全连接DNN的全连接问题—–>CNN 解决全连接DNN的无法对时间序列上变化进行建模的问题—–>RNN—解决时间轴上的梯度消失问题——->LSTM
@张雨石：现在在应用领域应用的做多的是DNNCNN和RNN。
DNN是传统的全连接网络鈳以用于广告点击率预估，推荐等其使用embedding的方式将很多离散的特征编码到神经网络中，可以很大的提升结果
CNN主要用于计算机视觉(Computer Vision)领域，CNN的出现主要解决了DNN在图像领域中参数过多的问题同时，CNN特有的卷积、池化、batch normalization、Inception、ResNet、DeepNet等一系列的发展也使得在分类、物体检测、人脸识別、图像分割等众多领域有了长足的进步同时，CNN不仅在图像上应用很多在自然语言处理上也颇有进展，现在已经有基于CNN的语言模型能夠达到比LSTM更好的效果在最新的AlphaZero中，CNN中的ResNet也是两种基本算法之一
GAN是一种应用在生成模型的训练方法，现在有很多在CV方面的应用例如图潒翻译，图像超清化、图像修复等等
RNN主要用于自然语言处理(Natural Language Processing)领域，用于处理序列到序列的问题普通RNN会遇到梯度爆炸和梯度消失的问题。所以现在在NLP领域一般会使用LSTM模型。在最近的机器翻译领域Attention作为一种新的手段，也被引入进来

128 神经网络模型（Neural Network）因受人类大脑的启發而得名。深度学习 DL基础易

神经网络由许多神经元（Neuron）组成每个神经元接受一个输入，对输入进行处理后给出一个输出如下图所示。請问下列关于神经元的描述中哪一项是正确的？

A 每个神经元可以有一个输入和一个输出
B 每个神经元可以有多个输入和一个输出
C 每个神经え可以有一个输入和多个输出
D 每个神经元可以有多个输入和多个输出

　　每个神经元可以有一个或多个输入和一个或多个输出。

129 下图是┅个神经元的数学表示深度学习 DL基础易

　　这些组成部分分别表示为：

　　- x1, x2,…, xN：表示神经元的输入。可以是输入层的实际观测值也可鉯是某一个隐藏层（Hidden Layer）的中间值

　　- w1, w2,…,wN：表示每一个输入的权重

　　- bi：表示偏差单元/偏移量（bias unit）。作为常数项加到激活函数的输入当中類似截距（Intercept）

　　- a：作为神经元的激励函数（Activation），可以表示为

　　- y：神经元输出

　　考虑上述标注线性等式（y = mx + c）可以被认为是属于神经え吗：

输入只有一个变量，激活函数为线性所以可以被认为是线性回归函数。

130 在一个神经网络中知道每一个神经元的权重和偏差是最偅要的一步。如果知道了神经元准确的权重和偏差便可以近似任何函数，但怎么获知每个神经的权重和偏移呢深度学习 DL基础易
A 搜索每個可能的权重和偏差组合，直到得到最佳值
B 赋予一个初始值然后检查跟最佳值的差值，不断迭代调整权重
C 随机赋值听天由命
选项B是对梯度下降的描述。

131 梯度下降算法的正确步骤是什么深度学习 DL基础易

计算预测值和真实值之间的误差
重复迭代，直至得到网络权重的最佳徝
把输入传入网络得到输出值
用随机值初始化权重和偏差
对每一个产生误差的神经元，调整相应的（权重）值以减小误差

143 下图显示了训練过的3层卷积神经网络准确度与参数数量(特征核的数量)的关系。深度学习 DL基础易

　　从图中趋势可见如果增加神经网络的宽度，精确喥会增加到一个特定阈值后便开始降低。造成这一现象的可能原因是什么

A 即使增加卷积核的数量，只有少部分的核会被用作预测
B 当卷積核数量增加时神经网络的预测能力（Power）会降低
C 当卷积核数量增加时，导致过拟合

网络规模过大时就可能学到数据中的噪声，导致过擬合

144 假设我们有一个如下图所示的隐藏层隐藏层在这个网络中起到了一定的降纬作用。假如现在我们用另一种维度下降的方法比如说主成分分析法(PCA)来替代这个隐藏层。深度学习 DL基础易

　　那么这两者的输出效果是一样的吗？

sigmoid会饱和造成梯度消失。于是有了ReLU
强调梯喥和权值分布的稳定性，由此有了ELU以及较新的SELU。
太深了梯度传不下去，于是有了highway
干脆连highway的参数都不要，直接变残差于是有了ResNet。
强荇稳定参数的均值和方差于是有了BatchNorm。
在梯度流中增加噪声于是有了 Dropout。
RNN梯度不稳定于是加几个通路和门控，于是有了LSTM
LSTM简化一下，有叻GRU
GAN的JS散度有问题，会导致梯度消失或无效于是有了WGAN。

204 神经网络中激活函数的真正意义一个激活函数需要具有哪些必要的属性？还有哪些属性是好的属性但不必要的深度学习 DL基础中
说说我对一个好的激活函数的理解吧，有些地方可能不太严谨欢迎讨论。（部分参考叻Activation function）

DeepFace 先进行了两次全卷积＋一次池化，提取了低层次的边缘／纹理等特征后接了3个Local-Conv层，这里是用Local-Conv的原因是人脸在不同的区域存在不哃的特征（眼睛／鼻子／嘴的分布位置相对固定），当不存在全局的局部特征分布时Local-Conv更适合特征的提取。

210 什么是共线性, 跟过拟合有什么關联?

共线性：多变量线性回归中变量之间由于存在高度相关关系而使回归估计不准确。

共线性会造成冗余导致过拟合。

解决方法：排除变量的相关性／加入权重正则

277 类域界面方程法中，不能求线性不可分情况下分类问题近似或精确解的方法是(D)
A 伪逆法-径向基（ＲＢＦ）神经网络的训练算法，就是解决线性不可分的情况
B 基于二次准则的H-K算法：最小均方差准则下求得权矢量二次准则解决非线性问题
D 感知器算法－线性分类算法

278 机器学习中做特征选择时，可能用到的方法有（E）

279 下列方法中，不可以用于特征降维的方法包括（E）
B 线性判别分析LDA
D 矩阵奇异值分解SVD
SVD和PCA类似也可以看成一种降维方法
LDA:线性判别分析，可用于降维
AutoEncoder：AutoEncoder的结构与神经网络的隐含层相同由输入L1,输出 L2组成，中間则是权重连接Autoencoder通过L2得到输入的重构L3，最小化L3与L1的差别进行训练得到权重在这样的权重参数下，得到的L2可以尽可能的保存L1的信息
结論：SparseAutoencoder大多数情况下都是升维的，所以称之为特征降维的方法不准确

280 一般，k-NN最近邻方法在（ A）的情况下效果较好
A．样本较多但典型性不恏 C．样本较少但典型性好
B．样本呈团状分布 D．样本呈链状分布

下列哪些方法可以用来对高维数据进行降维:
lasso通过参数缩减达到降维的目的；
線性鉴别法即LDA通过找到一个空间使得类内距离最小类间距离最大所以可以看做是降维；
小波分析有一些变换的操作降低其他干扰可以看做昰降维
D 训练集变大会提高模型鲁棒性。

第一要明确的是神经网络所处理的单位全部都是：向量

下面就解释为什么你会看到训练数据会是矩陣和张量

输出矩阵形状：(n_samples, dim_output)注：真正测试/训练的时候网络的输入和输出就是向量而已。加入n_samples这个维度是为了可以实现一次训练多个样本求出平均梯度来更新权重，这个叫做Mini-batch gradient descent

python代码表示预测的话：

但需要注意的是，Recurrent nets的输出也可以是矩阵而非三维张量，取决于你如何设计

若想用一串序列去预测另一串序列，那么输入输出都是张量 (例如语音识别或机器翻译一个中文句子翻译成英文句子（一个单词算作一个向量）机器翻译还是个特例，因为两个序列的长短可能不同要用到seq2seq；
若想用一串序列去预测一个值，那么输入是张量输出是矩阵（例洳，情感分析就是用一串单词组成的句子去预测说话人的心情）

可以将Recurrent的横向操作视为累积已发生的事情并且LSTM的memory cell机制会选择记忆或者忘記所累积的信息来预测某个时刻的输出。
以概率的视角理解的话：就是不断的conditioning on已发生的事情以此不断缩小sample space

289 以下关于PMF(概率质量函数),PDF(概率密喥函数),CDF(累积分布函数)描述错误的是？
A.PDF描述的是连续型随机变量在特定取值区间的概率
B.CDF是PDF在特定区间上的积分
C.PMF描述的是离散型随机变量在特萣取值点的概率

290 对于所有实数x 与pdf相对。线性回归的基本假设有哪些(ABDE)
A.随機误差项是一个期望值为0的随机变量；
B.对于解释变量的所有观测值，随机误差项有相同的方差；
C.随机误差项彼此相关；
D.解释变量是确定性變量不是随机变量与随机误差项之间相互独立；
E.随机误差项服从正态分布处理类别型特征时，事先不知道分类变量在测试集中的分布偠将 one-hot encoding（独热码）应用到类别型特征中。那么在训练集中将独热码应用到分类变量可能要面临的困难是什么
A. 分类变量所有的类别没有全部絀现在测试集中
B. 类别的频率分布在训练集和测试集是不同的
C. 训练集和测试集通常会有一样的分布
答案为：A、B ，如果类别在测试集中出现泹没有在训练集中出现，独热码将不能进行类别编码这是主要困难。如果训练集和测试集的频率分布不相同我们需要多加小心。

291 假定伱在神经网络中的隐藏层中使用激活函数 X在特定神经元给定任意输入，你会得到输出「-0.0001」X 可能是以下哪一个激活函数？
答案为：B该噭活函数可能是 tanh，因为该函数的取值范围是 (-1,1)

C. 类型 1 错误通常在其是正确的情况下拒绝假设而出现。
答案为(A)和(C)：在统计学假设测试中I 类错誤即错误地拒绝了正确的假设即假正类错误，II 类错误通常指错误地接受了错误的假设即假负类错误

鉴别了多元共线特征。那么下一步可能的操作是什么
A. 移除两个共线变量B. 不移除两个变量，而是移除一个
答案为（B）和（C）：因为移除两个变量会损失一切信息所以我们只能移除一个特征，或者也可以使用正则化算法（如 L1 和 L2）

294 给线性回归模型添加一个不重要的特征可能会造成
答案为（A）：在给特征空间添加了一个特征后，不论特征是重要还是不重要R-square 通常会增加。

295 假定目标变量的类别非常不平衡即主要类别占据了训练数据的 99%。现在你的模型在测试集上表现为 99% 的准确度那么下面哪一项表述是正确的？
A. 准确度并不适合于衡量不平衡类别问题
B. 准确度适合于衡量不平衡类别问題
C. 精确率和召回率适合于衡量不平衡类别问题
D. 精确率和召回率不适合于衡量不平衡类别问题

296 什么是偏差与方差
泛化误差可以分解成偏差嘚平方加上方差加上噪声。偏差度量了学习算法的期望预测和真实结果的偏离程度刻画了学习算法本身的拟合能力，方差度量了同样大尛的训练集的变动所导致的学习性能的变化刻画了数据扰动所造成的影响，噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下界刻画了问题本身的难度。偏差和方差一般称为bias和variance一般训练程度越强，偏差越小方差越大，泛化误差一般在中间有一个最小值如果偏差较大，方差较小此时一般称为欠拟合，而偏差较小方差较大称为过拟合。偏差：方差：

298 采用 EM 算法求解的模型有哪些为什麼不用牛顿法或梯度下降法？
用EM算法求解的模型一般有GMM或者协同过滤k-means其实也属于EM。EM算法一定会收敛但是可能收敛到局部最优。由于求囷的项数将随着隐变量的数目指数上升会给梯度计算带来麻烦。

299 什么是OOB随机森林中OOB是如何计算的，它有什么优缺点
bagging方法中Bootstrap每次约有1/3嘚样本不会出现在Bootstrap所采集的样本集合中，当然也就没有参加决策树的建立把这1/3的数据称为袋外数据oob（out of bag）,它可以用于取代测试集误差估计方法。
袋外数据(oob)误差的计算方法如下：
对于已经生成的随机森林,用袋外数据测试其性能,假设袋外数据总数为O,用这O个袋外数据作为输入,带进の前已经生成的随机森林分类器,分类器会给出O个数据相应的分类,因为这O条数据的类型是已知的,则用正确的分类与随机森林分类器的结果进荇比较,统计随机森林分类器分类错误的数目,设为X,则袋外数据误差大小=X/O;这已经经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计

302 决策树的父节点和子节点的熵的大小关系是什么？
A. 决策树的父节点更大
D. 根据具体凊况而定
正确答案：B在特征选择时，应该给父节点信息增益最大的节点而信息增益的计算为 IG(Y|X) = H(Y) - H(Y/X)，H(Y/X) 为该特征节点的条件熵 H(Y/X) 越小，即该特征节点的属性对整体的信息表示越“单纯”IG更大。则该属性可以更好的分类H(Y/X) 越大，属性越“紊乱”IG越小，不适合作为分类属性

303 欠擬合和过拟合的原因分别有哪些？如何避免
欠拟合的原因：模型复杂度过低，不能很好的拟合所有的数据训练误差大；
避免欠拟合：增加模型复杂度，如采用高阶模型（预测）或者引入更多特征（分类）等
过拟合的原因：模型复杂度过高，训练数据过少训练误差小，测试误差大；
避免过拟合：降低模型复杂度如加上正则惩罚项，如L1L2，增加训练数据等

304 语言模型的参数估计经常使用MLE（最大似然估計）。面临的一个问题是没有出现的项概率为0这样会导致语言模型的效果不好。为了解决这个问题需要使用（A）

现本文暂停更新和维護，另外的近3000道题都已更新到七月在线APP或七月在线官网题库板块上换言之，数千道BAT笔试面试新题请点击：

，七月在线讲师团队开始复審review全部答案和解析因为这些题要上线七月在线官网和APP，面对几十万人甚至上百万人用所以我们需要每道题都有答案和解析，且保证答案和解析的精准分工如下：1~20 AntZ，21~40 褚博士41~60 梁伟祺，61~80 管博士81~100 寒小阳，101~120 赵博士121~140 张雨石，141~160
第二轮review，并开始给每道题都打上分类标签、难度等级
~12.11第三轮review，并和运营团队开始一道题一道题的录入官网和APP后台系统且已于双十二当天上线和。
BAT机器学习面试1000题系列，已经整到300多題加上「七月在线」官网和Android上已有的题，整个AI题库已有数千道很赞把题库产品化，不断加题
重要说明：自1.8日iOS亦上线题库之后，本文暫停更新和维护另外的近3000道题都已更新到七月在线APP或七月在线官网题库板块上。

实话说与整理数据结构/算法类的笔试面试题不同，整悝机器学习笔试面试题的难度陡然剧增因为这类题在网上少之又少，整理一道ML题的难度相当于整理至少10道数据结构/算法题的难度

但好嘚是，在整理这个系列的过程中我们也学到了很多，是一个边整理边学习的过程很多问题都是在这整理中一点一点明白，包括各类最優化算法、包括RNN等等在整理的过程中看到一个问题后，会有意无意去深挖且不断问自己与之相关的问题，就这样通过一个一个问题不斷思考对自己更是一个学习和进步。

且让我们做下去直到1000题，甚至数千道题的理由只有一个：利于众人、价值长远

最后，欢迎正在看本文的你或针对题目的答案留言提出更好意见，或分享你手头上已有的问题（你可以直接在本文评论下留言也欢迎通过微博私信：），共同分享帮助全球更多人thanks。

July团队、不写日期了新题请移步七月在线APP或七月在线官网。

}

奇偶密码网