愛伊米

機器學習與深度學習習題集(上)

原創技術文章,第一時間獲取

第2章 數學知識

包括微積分,線性代數與矩陣論,機率論與資訊理論,最最佳化方法4部分。

1。計算下面函式的一階導數和二階導數:

2。計算下面兩個向量的內積:

機器學習與深度學習習題集(上)

3。計算下面向量的1範數和2範數:

機器學習與深度學習習題集(上)

4。計算下面兩個矩陣的乘積:

機器學習與深度學習習題集(上)

5。計算下面多元函式的偏導數:

6。計算下面多元函式的梯度:

7。計算下面多元函式的雅克比矩陣:

8。計算下面多元函式的Hessian矩陣:

9。計算下面函式的所有極值點,並指明是極大值還是極小值:

10。推導多元函式梯度下降法的迭代公式。

11。梯度下降法為什麼要在迭代公式中使用步長係數?

12。梯度下降法如何判斷是否收斂?

13。推導多元函式牛頓法的迭代公式。

14。如果步長係數充分小,牛頓法在每次迭代時能保證函式值下降嗎?

15。梯度下降法和牛頓法能保證找到函式的極小值點嗎,為什麼?

16。解釋一元函式極值判別法則。

17。解釋多元函式極值判別法則。

18。什麼是鞍點?

19。解釋什麼是區域性極小值,什麼是全域性極小值。

20。用拉格朗日乘數法求解如下極值問題

21。什麼是凸集?

22。什麼是凸函式,如何判斷一個一元函式是不是凸函式,如何判斷一個多元函式是不是凸函式?

22。什麼是凸最佳化?

23。證明凸最佳化問題的區域性最優解一定是全域性最優解。

24。對於如下最最佳化問題:

機器學習與深度學習習題集(上)

構造廣義拉格朗日乘子函式,將該問題轉化為對偶問題。

25。一維正態分佈的機率密度函式為

機器學習與深度學習習題集(上)

給定一組樣本。用最大似然估計求解正態分佈的均值和方差。

26。如何判斷一個矩陣是否為正定矩陣?

27。 解釋最速下降法的原理。

28。解釋座標下降法的原理。

29。一維正態分佈的機率密度函式為

機器學習與深度學習習題集(上)

按照定義計算其數學期望與方差。

30。兩個離散型機率分佈的KL散度定義為:

利用下面的不等式,當x>0時:

機器學習與深度學習習題集(上)

證明KL散度非負,即

機器學習與深度學習習題集(上)

31。對於離散型機率分佈,證明當其為均勻分佈時熵有最大值。

32。對於連續型機率分佈,已知其數學期望為μ,方差為。用變分法證明當此分佈為正態分佈時熵有最大值。

33。對於兩個離散型機率分佈,證明當二者相等時交叉熵有極小值。

34。為什麼在實際的機器學習應用中經常假設樣本資料服從正態分佈?

35。什麼是隨機事件獨立,什麼是隨機向量獨立?

36。什麼是弱對偶?什麼是強對偶?

37。證明弱對偶定理。

38。簡述Slater條件。

39。簡述KKT條件。

40。解釋蒙特卡洛演算法的原理。為什麼蒙特卡洛演算法能夠收斂?

41。解釋熵概念。

第3章 基本概念

1。名詞解釋:有監督學習,無監督學習,半監督學習。

2。列舉常見的有監督學習演算法。

3。列舉常見的無監督學習演算法。

4。簡述強化學習的原理。

5。什麼是生成模型?什麼是判別模型?

6。機率模型一定是生成模型嗎?

7。不定項選擇。下面那些演算法是生成模型?___________哪些演算法是判別模型?__________

A。決策樹 B。貝葉斯分類器 C。全連線神經網路 D。支援向量機 E。 logistic迴歸

F。 AdaBoost演算法 G。隱馬爾可夫模型 H。條件隨機場 I。受限玻爾茲曼機

8。如何判斷是否發生過擬合?

9。發生過擬合的原因有哪些,應該怎麼解決?

10。列舉常見的正則化方法。

11。解釋ROC曲線的原理。

12。解釋精度,召回率,F1值的定義。

13。解釋交叉驗證的原理。

14。什麼是過擬合,什麼是欠擬合?

15。什麼是沒有免費午餐定理?

16。簡述奧卡姆剃刀原理。

17。推導偏差-方差分解公式。

18。證明如果採用均方誤差函式,線性迴歸的最佳化問題是凸最佳化問題。

19。推導線性迴歸的梯度下降迭代公式。

20。解釋混淆矩陣的概念。

21。解釋嶺迴歸的原理。

22。解釋LASSO迴歸的原理。

第4章 貝葉斯分類器

1。什麼是先驗機率,什麼是後驗機率?

2。推導樸素貝葉斯分類器的預測函式。

3。什麼是拉普拉斯光滑?

4。推導正態貝葉斯分類器的預測函式。

5。貝葉斯分類器是生成模型還是判別模型?

第5章 決策樹

1。什麼是預剪枝,什麼是後剪枝?

2。什麼是屬性缺失問題?

3。對於屬性缺失問題,在訓練時如何生成替代分裂規則?

4。列舉分類問題的分裂評價指標。

5。證明當各個類出現的機率相等時,Gini不純度有極大值;當樣本全部屬於某一類時,Gini不純度有極小值。

6。ID3用什麼指標作為分裂的評價指標?

7。C4。5用什麼指標作為分裂的評價指標?

8。解釋決策樹訓練時尋找最佳分裂的原理。

9。對於分類問題,葉子節點的值如何設定?對於迴歸問題,決策樹葉子節點的值如何設定?

10。決策樹如何計算特徵的重要性?

11。CART對分類問題和迴歸問題分別使用什麼作為分裂評價指標?

第6章 k近鄰演算法與距離度量學習

1。簡述k近鄰演算法的預測演算法的原理。

2。簡述k的取值對k近鄰演算法的影響。

3。距離函式需要滿足哪些數學條件?

4。列舉常見的距離函式。

5。解釋距離度量學習的原理。

6。解釋LMNN演算法的原理。

7。解釋ITML演算法的原理。

8。解釋NCA演算法的原理。

第7章 資料降維

1。使用資料降維演算法的目的是什麼?

2。列舉常見的資料降維演算法。

3。常見的降維演算法中,哪些是監督降維,哪些是無監督降維?

4。什麼是流形?

5。根據最小化重構誤差準則推導PCA投影矩陣的計算公式。

6。解釋PCA降維演算法的流程。

7。解釋PCA重構演算法的流程。

8。解釋LLE的原理。

9。名詞解釋:圖的拉普拉斯矩陣。

10。解釋t-SNE的原理。

11。解釋KPCA的原理。

12。證明圖的拉普拉斯矩陣半正定。

13。解釋拉普拉斯特徵對映的原理。

14。解釋等距對映的與原理。

15。PCA是有監督學習還是無監督學習?

第8章 線性判別分析

1。解釋LDA的原理。

2。推導多類和高維時LDA的投影矩陣計算公式。

3。解釋LDA降維演算法的流程。

4。解釋LDA重構演算法的流程。

5。LDA是有監督學習還是無監督學習?

第9章 人工神經網路

1。神經網路為什麼需要啟用函式?

2。推導sigmoid函式的導數計算公式。

3。啟用函式需要滿足什麼數學條件?

4。為什麼啟用函式只要求幾乎處處可導而不需要在所有點處可導?

5。什麼是梯度消失問題,為什麼會出現梯度消失問題?

6。如果特徵向量中有類別型特徵,使用神經網路時應該如何處理?

7。對於多分類問題,神經網路的輸出值應該如何設計?

8。神經網路引數的初始值如何設定?

9。如果採用歐氏距離損失函式,推導輸出層的梯度值。推導隱含層引數梯度的計算公式。

10。如果採用softmax+交叉熵的方案,推導損失函式對softmax輸入變數的梯度值。

11。解釋動量項的原理。

12。列舉神經網路的正則化技術。

13。推導ReLU函式導數計算公式。

第10章 支援向量機

1。推導線性可分時SVM的原問題:

機器學習與深度學習習題集(上)

2。證明線性可分時SVM的原問題是凸最佳化問題且Slater條件成立:

機器學習與深度學習習題集(上)

3。推導線性可分時SVM的對偶問題:

機器學習與深度學習習題集(上)

4。證明加入鬆弛變數和懲罰因子之後,SVM的原問題是凸最佳化問題且Slater條件成立:

機器學習與深度學習習題集(上)

5。推導線性不可分時SVM的對偶問題:

機器學習與深度學習習題集(上)

6。證明線性不可分時SVM的對偶問題是凸最佳化問題:

機器學習與深度學習習題集(上)

7。用KKT條件證明SVM所有樣本滿足如下條件:

機器學習與深度學習習題集(上)

8。SVM預測函式中的值如何計算?

9。解釋核函式的原理,列舉常用的核函式。

10。什麼樣的函式可以作為核函式?

11。解釋SMO演算法的原理。

12。SMO演算法如何挑選子問題的最佳化變數?

13。證明SMO演算法中子問題是凸最佳化問題。

14。證明SMO演算法能夠收斂。

15。SVM如何解決多分類問題?

第11章 線性模型

1。logistic迴歸中是否一定要使用logistic函式得到機率值?能使用其他函式嗎?

2。名稱解釋:對數似然比。

3。logistic是線性模型還是非線性模型?

4。logistic迴歸是生成模型還是判別模型?

5。如果樣本標籤值為0或1,推導logistic迴歸的對數似然函式:

6。logistic迴歸中為什麼使用交叉熵而不使用歐氏距離作為損失函式?

7。證明logistic迴歸的最佳化問題是凸最佳化問題:

8。推導logistic迴歸的梯度下降迭代公式。

9。如果類別別標籤為+1和-1,推導logistic迴歸的對數似然函式:

10。寫出使用L1和L2正則化項時logistic迴歸的目標函式。

11。寫出softmax迴歸的預測函式。

12。推導softmax迴歸的對數似然函式:

機器學習與深度學習習題集(上)

13。證明softmax迴歸的最佳化問題是凸最佳化問題。

14。推導softmax迴歸的梯度計算公式。

15。logistic迴歸如何計算特徵的重要性?

第12章 隨機森林

1。解釋Bagging演算法的原理。

2。解釋隨機森林預測演算法對分類問題,迴歸問題的處理。

3。隨機森林如何輸出特徵的重要性?

4。解釋隨機森林預測演算法的原理。

5。隨機森林為什麼能夠降低方差?

第13章 Boosting演算法

1。寫出AdaBoost演算法強分類器的預測公式。

2。寫出AdaBoost的訓練演算法。

3。證明強分類器在訓練樣本集上的錯誤率上界是每一輪調整樣本權重時權重歸一化因子的乘積,即下面的不等式成立:

4。證明下面的不等式成立:

5。簡述廣義加法模型的原理。

6。離散型AdaBoost的損失函式是什麼函式?

7。從廣義加法模型和指數損失函式推導AdaBoost的訓練演算法。

8。解釋實數型AdaBoost演算法的原理。

9。AdaBoost演算法的弱分類器應該如何選擇?

10。簡述梯度提升演算法的原理。

11。假設使用均方誤差函式,梯度提升演算法如何解決迴歸問題?

12。梯度提升演算法如何解決二分類問題?

13。對於多分類問題,梯度提升演算法的預測函式是。樣本屬於每個類的機率為:

機器學習與深度學習習題集(上)

如果加上限制條件:

機器學習與深度學習習題集(上)

證明如下結論成立:

14。解釋XGBoost演算法的原理。

15。XGBoost演算法為何要泰勒展開到二階?

機器學習與深度學習習題集(上)

參考文獻

[1] 機器學習-原理、演算法與應用,雷明著,清華大學出版社

記得點選右下角“好看”