一、单选题
1、以下关于感知器算法与支持向量机算法说法有误的是
A. 由于支持向量机是基于所有训练数据寻找最大化间隔的超平面,而感知器算法却是相对随意的找一个分开两类的超平面,因此大多数时候,支持向量机画出的分类面往往比感知器算法好一些。 B.支持向量机是把所有训练数据都输入进计算机,让计算机解全局优化问题
C.感知器算法相比于支持向量机算法消耗的计算资源和内存资源更少 ,但是耗费的计算资源更多 D. 以上选项都正确 正确答案:C
2、假设你在训练一个线性回归模型,有下面两句话: 如果数据量较少,容易发生过拟合。 如果假设空间较小,容易发生过拟合。 关于这两句话,下列说法正确的是? A.1正确,2错误 B.1和2都错误 C.1和2都正确 D.1错误,2正确 正确答案:A
3、下面哪一项不是比较好的学习率衰减方法?t表示为epoch数。 A.α=B. α=
11+2∗t1√𝑡𝛼0
𝛼0
C. α=0.95𝑡𝛼0 D.α=e𝑡𝛼0
正确答案:D
4、你正在构建一个识别足球(y = 1)与篮球(y = 0)的二元分类器。 你会使用哪一种激活函数用于输出层? A.ReLU B. tanh C.sigmoid D. Leaky ReLU 正确答案:C
5、假设你建立一个神经网络。 你决定将权重和偏差初始化为零。 以下哪项陈述是正确的?
A.第一个隐藏层中的每个神经元将在第一次迭代中执行相同的计算。 但经过一次梯度下降迭代后,他们将会计算出不同的结果。 B.第一个隐藏层中的每个神经元节点将执行相同的计算。 所以即使经过多次梯度下降迭代后,层中的每个神经元节点都会计算出与其他神经元节点相同的结果。
C.第一个隐藏层中的每一个神经元都会计算出相同的结果,但是不同层的神经元会计算不同的结果。
D.即使在第一次迭代中,第一个隐藏层的神经元也会执行不同的计算, 他们的参数将以各自方式进行更新。 正确答案:B
6、某个神经网络中所有隐藏层神经元使用tanh激活函数。那么如果使用np.random.randn(…,…)* 1000将权重初始化为相对较大的值。 会发生什么?
A.这不会对训练产生影响。只要随机初始化权重,梯度下降不受权重大小的影响。
B.这会导致tanh的输入也非常大,从而使梯度也变大。因此,你必须将学习率α设置得非常小以防止发散。这会减慢网络参数学习速度。
C.这会导致tanh的输入也非常大,从而使梯度接近于零, 优化算法将因此变得缓慢。
D.这会导致tanh的输入也非常大,导致神经元被“高度激活”,从而加快了学习速度。 正确答案:C
7、以下关于权重衰减说法正确的是?
A.权重衰减通过赋予神经元某个权值从而避免梯度消失
B.当数据集中有噪声时,权重衰减可以在训练中逐渐修正神经网络的权重
C.权重衰减是一种正则化技术, 通过惩罚绝对值较大的模型参数为需要学习的模型增加了
D.权重衰减是在训练过程中逐渐减少学习率 正确答案:C
8、当你增加正则化超参数λ时会发生什么? A. λ翻倍后会导致权重也翻倍 B.使权重变得更小(趋近0) C.每次迭代的梯度下降走的步长更长 D.使权重变得更大(远离0) 正确答案:B
9、对训练数据归一化的根本原因是?
A.归一化也可以说是一种正则化处理,可以提升模型泛化能力 B.让模型更快的收敛
C.加快参数初始化过程 D.更容易对数据进行可视化 正确答案:B
10、如果你训练的模型代价函数J随着迭代次数的增加,绘制出来的图如下,那么
A.无论你在使用mini-batch还是批量梯度下降,看上去都是合理的 B.如果你正在使用mini-batch梯度下降,那可能有问题;而如果你在使用批量梯度下降,那是合理的
C.如果你正在使用mini-batch梯度下降,那看上去是合理的;而如果你在使用批量梯度下降,那可能有问题
D.无论你在使用mini-batch还是批量梯度下降,都可能有问题 正确答案:C
11、下图中的曲线是由:梯度下降,动量梯度下降(β=0.5)和动量梯度下降(β=0.9)。哪条曲线对应哪种算法?
A.(1)是梯度下降;(2)是动量梯度下降(β=0.9);(3)是动量梯度下降(β=0.5)
B.(1)是动量梯度下降(β=0.5);(2)是动量梯度下降(β=0.9);(3)是梯度下降
C. (1)是动量梯度下降(β=0.5);(2) 是梯度下降; (3) 是动量梯度下降(β=0.9) D.都有可能 正确答案:B
12、关于Adam算法,下列哪一个陈述是错误的? A.Adam中的学习率超参数α通常需要调整
B.Adam优化算法常用于批量梯度下降法中,而不是用于随机(小批量)梯度下降法
C.我们经常使用超参数的默认值 𝛽1=0.9,𝛽2=0.999,ϵ=10−8 D.Adam结合了Rmsprop和动量的优点 正确答案:B
(𝑖)
13、标准化公式z𝑛𝑜𝑟𝑚
=
𝑧(𝑖)−𝜇√𝛿2+𝜖什么要使用ϵ?
A.防止μ太小 B.为了避免除零操作 C.为了更准确地标准化
D.为了加速收敛 正确答案:B
14、在训练了具有批标准化的神经网络之后,在用新样本评估神经网络性能时,应该
A.跳过用μ和δ2值标准化的步骤,因为一个样本不需要标准化 B.使用在训练期间,通过指数加权平均值得出的μ和δ2执行所需的标准化
C.如果你在batch size为256的mini-batch上实现了批标准化,那么如果你要在一个测试样本上进行评估,你应该将这个例子重复256次,这样你就可以使用和训练时大小相同的mini-batch进行预测。
D.使用最后一个的mini-batch的μ和δ2值来执行所需的标准化 正确答案:B
15、以下关于ReLU函数说法错误的是:
A.ReLU 函数的输出是非零中心化的, 给后一层的神经网络引入偏置偏移,会影响梯度下降的效率
B.ReLU 神经元在训练时比较容易“死亡”. 在训练时, 如果参数在一次不恰当的更新后, 第一个隐藏层中的某个 ReLU 神经元在所有的训练数据上都不能被激活, 那么这个神经元自身参数的梯度永远都会是0, 在以后的训练过程中永远不能被激活.
C. Leaky ReLU 在输入时,保持一个很小的梯度,这样当神经元非激活时也能有一个非零的梯度可以更新参数,这在一定程度上缓解了梯度消失问题 D. 三个选项均正确 正确答案:C
二、多选题
1、以下关于感知器算法说法正确的为
A.只要是训练数据集线性可分,感知器算法就一定能收敛。 B.感知机学习算法存在许多的解,对同一个训练集来说,感知机初值的选择不同,最后得到的解就可能不同。
C.多层感知器是感知器的推广,克服了感知器不能对线性不可分数据进行识别的弱点。
D.当训练数据集线性不可分的情况下,袋式算法(Pocket Algorithm)使感知机也可以收敛于一个相对理想的解。 正确答案:A、B、C、D
2、以下属于机器学习中用来防止过拟合的方法的是: A.权值衰减 Weight decay B.增加神经网络层数 C.训练多个模型进行融合输出 D.早停策略 正确答案:A、C、D
3、为什么最好的mini-batch的大小通常不是1也不是训练集总样本数m,而是介于两者之间 ?
A.如果mini-batch的大小是1,那么你需要遍历整个训练集后才能更新一次参数
B.如果mini-batch的大小是m,就是随机梯度下降,而这样做经常会比mini-batch慢
C.如果mini-batch的大小是m,就是批量梯度下降。你需要遍历整个训练集来更新参数
D.如果mini-batch的大小是1,那么你将失去mini-batch将数据矢量化带来的的好处 正确答案:C、D
4、批标准化中关于γ和β的以下哪些陈述是正确的?
A. γ和β的值确定了给定的批量归一化层的输出变量的均值和方差 B.最佳值是γ=√𝛿2+ϵ,β=μ
C. γ和β是算法的超参数,我们通过随机采样进行调整
D.它们的值可以通过Adam、AdaGrad或RMSprop优化算法来学习 正确答案:A、D
5、关于超参数优化的说法正确的有:
A.超参数优化是一个组合优化问题, 无法像一般参数那样通过梯度下降方法来优化
B.评估一组超参数配置的时间代价非常高, 从而导致一些优化方法( 比如演化算法) 在超参数优化中难以应用
C.采用网格搜索会在不重要的超参数上进行不必要的尝试. 一种在实践中比较有效的改进方法是对超参数进行随机组合, 然后选取一个性能最好的配置
D.神经架构搜索(NAS)也是神经网络超参数优化的一种方法。它的原理是给定一个称为搜索空间的候选神经网络结构集合,用某种策略从中搜索出最优网络结构。 正确答案:A、B、C、D
6、以下属于权重初始化方法的有? A.kaiming初始化
B.均匀分布初始化(uniform) C.xavier 初始化
D.高斯初始化(gaussian) 正确答案:A、B、C、D
7、神经网络中常见的超参数有? A.隐藏层数目 B.正则化参数
C.梯度下降法迭代的步数 D.批大小
正确答案:A、B、C、D
8、现在我们增大批量梯度下降中的batch size超参数,与之前相比可能会发生什么变化?
A.内存利用率提高了,大矩阵乘法的并行化效率提高。
B.跑完一次 epoch(全数据集)所需的迭代次数减少,对于相同数据量的处理速度进一步加快。
C.同样的模型要想达到相同的精度,其训练所花费的时间与增大前几乎相同。
D.一般来说 batch Size 越大,其确定的下降方向越准,引起训练loss震荡越小。 正确答案:A、B、D 三、判断题
1、sigmoid函数不是关于原点中心对称的,这会导致之后的网络层的输出也不是零中心的,进而影响梯度下降运作。tanh激活函数解决了这个不足。(√)
2、Adagrad和RMSprop这两种自适应学习率的方式稍有差异,但主要思想都是基于历史的累计梯度去计算一个当前较优的学习率。(√)
3、 在标准的随机梯度下降中, 权重衰减正则化和 ℓ2 正则化的效果相同. 因此, 权重衰减在一些深度学习框架中通过 ℓ2 正则化来实现. 但是, 在较为复杂的优化方法( 比如 Adam) 中, 权重衰减正则化和 ℓ2 正则化并不等价 。(√)
4、Xavier初始化是为了使得在经过多层网络后, 信号不被过分放大或过分减弱, 尽可能保持每个神经元的输入和输出的方差一致而提出的参数初始化方案。(√)
5、在线性模型的训练( 比如感知器和Logistic回归) 中, 我们一般将参数全部初始化为 0. 对于神经网络的训练也是如此。(×) 6、Sigmoid激活函数会导致梯度消失现象;而Tanh激活函数不会。(×)
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务