統計學習方法

時間：2022-10-01 05:10:42 學習方法

統計學習方法

　　統計學習三要素

統計學習方法

　　模型

　　模型就是所要學習的條件概率分布或決策函數。或模型的假設空間包括所有可能的條件概率分布或決策函數。或。其中的取值空間稱為參數空間。

　　策略

　　策略也即學習的準則。一般來說監督學習的策略即指經驗風險或結構風險函數最優化。

　　經驗風險

　　損失函數

　　0-1損失函數

　　平方損失函數

　　絕對損失函數

　　對數損失函數

　　風險函數

　　風險函數(risk function)又叫期望損失(expected loss)，是理論模型關于聯合分布的平均意義下的損失。

　　經驗風險

　　風險函數和聯合分布，用作為模型的后者求作為策略的前者，顯然是病態的。故取訓練數據集上的平均損失稱為經驗風險(empirical risk)。

　　當訓練樣本數量趨于無窮時，趨于。

　　結構風險

　　結構風險(structural risk)在經驗風險的基礎上添加正則化項(regularization，也叫罰項(penalty term))。

　　-------------

　　經驗風險最小化

　　在找到一個使得最小。

　　p.s. 當模型是條件概率分布，損失函數是對數損失函數時，經驗風險最小化等價于極大似然估計。

　　結構風險最小化

　　為防止經驗風險最小化有可能帶來的過擬合，添加代表模型復雜度的罰項。

　　算法

　　最優化算法

　　模型評估與模型選擇

　　誤差

　　訓練誤差

　　訓練誤差(training error)是學習到的模型關于訓練數據集的平均損失。

　　測試誤差

　　測試誤差(test error)是學習到的模型關于測試數據集的平均損失。

　　當損失函數是0-1損失時，測試誤差即為測試數據集上的誤差率。

　　正則化

　　正則化方法就是在經驗風險函數上添加正則化項。正則化項(regularizer)一般是模型復雜度的單調遞增函數。如可以是模型參數向量的范數。

　　* 奧卡姆剃刀(Occam's razor)原理：在所有可能選擇的模型中，能夠很好解釋已知數據并且十分簡單才是最好的模型。

　　交叉驗證

　　將數據集隨機分為訓練集、驗證集(validation set)和測試集，分別用于模型的訓練、選擇和評估。

　　1. 簡單交叉驗證

　　分兩部分：訓練集和測試集

　　2. 折交叉驗證

　　等分部分：份做訓練集，1份做測試集。重復進行。

　　3. 留一交叉驗證

　　折交叉驗證的特例。

　　泛化能力

　　泛化誤差

　　泛化誤差(generalization error)學到的模型對未知數據預測的誤差。

　　泛化誤差就是學習到的模型的期望風險。

　　泛化誤差上界

　　樣本容量增加，泛化誤差上界趨近于0

　　假設空間容量增加，泛化誤差上界增大

　　監督學習分類

　　按學習方法分類

　　生成方法->生成模型

　　由數據學習聯合概率分布后，求出概率分布。

　　包括：樸素貝葉斯法、隱馬爾科夫模型

　　判別方法->判別模型

　　由數據直接學習決策函數或者條件概率分布。

　　包括：k近鄰法、感知機、邏輯斯蒂回歸模型、最大熵模型、支持向量機、提升方法、條件隨機場。

　　區別：

　　生成方法：

　　可還原出學習收斂速度快，當N增大時，更快收斂于真實模型

　　當存在隱變量時，仍可以使用

　　判別方法

　　直接學習或，往往學習的準確率更高

　　可對數據進行抽象、特征定義以簡化學習問題

　　按

　　分類問題

　　評價指標

　　精確率(precision)

　　召回率(recall)

　　標注問題

　　回歸問題

【統計學習方法】相關文章：

學習方法10-26

《統計》教案10-08

學習方法作文02-06

學習方法的作文06-01