統計學習方法
統計學習三要素

模型
模型就是所要學習的條件概率分布或決策函數。 或 模型的假設空間包括所有可能的條件概率分布或決策函數。 或。 其中的取值空間稱為參數空間。
策略
策略也即學習的準則。一般來說監督學習的策略即指經驗風險或結構風險函數最優化。
經驗風險
損失函數
0-1損失函數
平方損失函數
絕對損失函數
對數損失函數
風險函數
風險函數(risk function)又叫期望損失(expected loss),是理論模型關于聯合分布的平均意義下的損失。
經驗風險
風險函數和聯合分布,用作為模型的后者求作為策略的前者,顯然是病態的。故取訓練數據集上的平均損失稱為經驗風險(empirical risk)。
當訓練樣本數量趨于無窮時,趨于。
結構風險
結構風險(structural risk)在經驗風險的基礎上添加正則化項(regularization,也叫罰項(penalty term))。
-------------
經驗風險最小化
在找到一個使得最小。
p.s. 當模型是條件概率分布,損失函數是對數損失函數時,經驗風險最小化等價于極大似然估計。
結構風險最小化
為防止經驗風險最小化有可能帶來的過擬合,添加代表模型復雜度的罰項。
算法
最優化算法
模型評估與模型選擇
誤差
訓練誤差
訓練誤差(training error)是學習到的模型關于訓練數據集的平均損失。
測試誤差
測試誤差(test error)是學習到的模型關于測試數據集的平均損失。
當損失函數是0-1損失時,測試誤差即為測試數據集上的誤差率。
正則化
正則化方法就是在經驗風險函數上添加正則化項。正則化項(regularizer)一般是模型復雜度的單調遞增函數。如可以是模型參數向量的范數。
* 奧卡姆剃刀(Occam's razor)原理:在所有可能選擇的模型中,能夠很好解釋已知數據并且十分簡單才是最好的模型。
交叉驗證
將數據集隨機分為訓練集、驗證集(validation set)和測試集,分別用于模型的訓練、選擇和評估。
1. 簡單交叉驗證
分兩部分:訓練集和測試集
2. 折交叉驗證
等分部分:份做訓練集,1份做測試集。重復進行。
3. 留一交叉驗證
折交叉驗證的特例。
泛化能力
泛化誤差
泛化誤差(generalization error)學到的模型對未知數據預測的誤差。
泛化誤差就是學習到的模型的期望風險。
泛化誤差上界
樣本容量增加,泛化誤差上界趨近于0
假設空間容量增加,泛化誤差上界增大
監督學習分類
按學習方法分類
生成方法->生成模型
由數據學習聯合概率分布后,求出概率分布。
包括:樸素貝葉斯法、隱馬爾科夫模型
判別方法->判別模型
由數據直接學習決策函數或者條件概率分布。
包括:k近鄰法、感知機、邏輯斯蒂回歸模型、最大熵模型、支持向量機、提升方法、條件隨機場。
區別:
生成方法:
可還原出學習收斂速度快,當N增大時,更快收斂于真實模型
當存在隱變量時,仍可以使用
判別方法
直接學習或,往往學習的準確率更高
可對數據進行抽象、特征定義以簡化學習問題
按
分類問題
評價指標
精確率(precision)
召回率(recall)
標注問題
回歸問題
【統計學習方法】相關文章:
初中數學統計學習方法10-06
探討統計學的學習方法10-08
學習方法10-26
經典的學習方法10-26
高一學習方法指導與學習方法12-07
統計局統計述職報告06-25
統計局統計述職報告10-26
《統計》教案10-08
學習方法作文02-06
學習方法的作文06-01