深度学习面试知识点
问题集: https://zhuanlan.zhihu.com/p/29936999
回答及对应英文页标:https://zhuanlan.zhihu.com/p/29965072
原文是问题 “那些深度学习《面试》你可能需要知道的” 的回答,答案均以英文版Deep Learning页标标记。
本文是以中文纸质版Deep Learning页标标记,加入了少量说明。
答:p34-p35 ;衡量一个向量的大小
L0:向量中不为0的个数(数学意义上不成立,缩放a倍,数值不变),常用L1代替
L1:
L2:
L∞:max(x)
Frobenius:对矩阵做平方和,开根号
还有 p199-p1 有 regularization 的应用
参数范数惩罚:
L2:weight decay(权重衰减,岭回归) 使权重更加接近原点
L1
答:https://wqw547243068.github.io/2020/07/26/beyes/ 古典统计学认为,未知的模型或者参数是确定的,只不过我们不知道它确切的形式或者取值。
古典统计学通过进行大量重复实验并统计某个特定结果出现的频率作为对未知参数的估计。
大数定律
贝叶斯统计学认为,未知的模型或者参数变量是不确定的,但是这种不确定性可以由一个概率分布来描述。
贝叶斯统计学“使用概率的方法来解决统计学问题”——贝叶斯公式+主观概率
先验分布(prior distribution):根据主观判断或者过去的经验,猜测概率分布
后验分布(posterior distribution):根据越来越多的观测值(new data 或者 new evidence)来修正猜测得到的概率分布
贝叶斯统计学中的“概率”的概念可以被解释为对未知变量不同取值的信心程度的测度(measure of confidence)
贝叶斯统计学派被古典统计学派诟病的核心问题是对于未知变量的先验分布是非常主观的。
适合场景:选举、疾病诊断
无法大量重复试验
合理的先验分布对未知量的估计是非常有益的
答:p43:3.10 上面那一段
在 p61 页;全部的在 p168-p170 答: sigmoid :sigmoid 单元作为输出单元用来预测二值型变量取值为 1 的概率
relu:
leakyReLU:
softmax:上溢和下溢,x-max(x)来解决,log softmax 同理
tanh:2σ(2z) − 1 效果比sigmoid好
hard tanh:
RBF(radial basis function):
softplus
答:p56-p62
答:p46
答:p52-p53
答:p53;
答:p56-p62
答:p60-p61
答:p70;p71;p72
答:p73
答:p40
答:p84
答: p87
答:p92
答:p97 维度灾难
答:p119-122
答:p98
答:p185
答:p123
答:p125
答:p140
答:p3
答:p142
答:p142
答:p142-144
答:p144
答:p147 页底 Chapter 7.3
答:p149-p150 Chapter 7.5-7.6
答:多任务学习 p151;p156 Chapter 7.7; 7.9
答:p159-p165 Chapter 7.12
答:p170 Chapter 8.1.3
答:p173-p178 Chapter 8.2.1
答:p180;p181-p184 Chapter 8.3;
答:初始化权重:p184; Chapter 8.4
偏置初始化:p186页底 Chapter 8.4
答:AdaGrad:p187;
RMSProp:p188;
Adam:p189 Chapter 8.5.1-3
答:牛顿法:p190 Chapter 8.6.1;
共轭梯度: p191-p193; Chapter 8.6.2
BFGS:p193-p194 Chapter 8.6.3
答:p195 Chapter 8.7.1
答:平移等变性:p205页底; Chapter 9.3
常见的一些卷积形式:p211-p218 Chapter 9.5
答:p207; p210 Chapter 9.3-4
答:p230-p238 Chapter 10.2
答:seq2seq:p240-p241; Chapter 10.4
gru:p250; Chapter 10.10.2
lstm:p248 Chapter 10.10.1
答:p286 第一段 Chapter 12.4.3
答:线性因子模型可以扩展到自编码器和深度概率模型: p304-p305; Chapter 13.5
PCA:p298; Chapter 13.1
ICA:p298 Chapter 13.2
答:意义: p306 Chapter 14.1
常见变形: p306-p313 Chapter 14.5
应用: p319 Chapter 14.9
答:p400: 想特别了解的人注意这句话: See Mohamed et al. (2012b) for an analysis of reasons for the success of these models. Chapter 20.2
答:p362 Chapter 17.3
答:p365 Chapter 17.4
答:p368 Chapter 17.5.2
“遇到难以处理的无向图模型中的配分函数时, 蒙特卡洛方法仍是最主要工具”
答:P82/85/87 Chapter 5.5
答:p329-p332 Chapter 15.3
答:p219-220 Chapter 9.7
答:p272-p293 Chapter 12.1-5
答:How is GloVe different from word2vec?;
GloVe 以及 Word2vec 能称为 deep learning 么?这俩模型的层次其实很浅的;
这个问题没找到答案,我去找了 quora 和知乎上的相关问题以及 quora 一个回答提及的论文。 (若有人在书中找到,请批评指正)
答:p288 Chapter 12.4.5.1
答:https://arxiv.org/pdf/1606.07792.pdf#### 此问题答案未在书中找到,为此我去找了原论文,论文图 1 有详细的介绍。 (若有人在书中找到,请批评指正)
答:p89 Chapter 5.7.2
答:p248 Chapter 10.10
答:p143-159; Chapter 7.1-12
包括:Parameter Norm Penalties(参数范数惩罚); Dataset Augmentation (数据集增强); Early Stopping(提前终止); Parameter Tying and Parameter Sharing (参数绑定与参数共享); Bagging and Other Ensemble Methods(Bagging 和其他集成方法);Dropout. 另外还有 Batch Normalization。
答:关于非参数模型:p72 ; Chapter 5.2
非参数模型不依赖于特定的概率模型,它的参数是无穷维的,数据集的规模的大小影响着模型使用更多或者更少的参数来对其进行建模。(并未在书中找到准确的答案,若有更好的回答,请联系我改正)
本答案是根据问题在_Deep Learning_上找到的答案;有些答案只是自己读书后在书上做的笔记的具体页面,毕竟原 po(http://t.cn/RObdPGk) 说还有另外一本书,所以该答案可能不是特别准确也不完善,答案也是给大家做个参考,若发现答案有问题,请联系我并指正,大家共同进步,谢谢!