不知道大家有沒有這樣的感覺:在我們學習的時候,經(jīng)常學了就忘,忘了再學,彷佛進入了死循環(huán)。明明都學了,結(jié)果就是記不住。有時候都想往自己的腦袋里植入一個儲存器,想學什么就往腦子里復制,這樣多好。
機器學習就是這樣一個例子。很多時候,我們在學習過程中迷失了方向,從而失去了繼續(xù)學習的動力。許多概念需要系統(tǒng)化。但是今天,我想為大家介紹機器學習的所有概念,這些概念將有助于你更快地了解這個領域。這篇文章將適合那些剛剛?cè)腴T并且已經(jīng)在實踐中開始使用機器學習的人。
概述:
1、動機
2、分類
3、問題類型
4、類
5、性能分析
6、算法
7、調(diào)試
8、廢話不多說,讓我們直接開始吧!
機器學習概念
這些概念中的每一個都會引出其他更小的衍生概念。在這里,我會為每一個術(shù)語給出最短和最簡單的定義:
1、動機
動機對于機器學習來說很重要,因為它形成了模型與數(shù)據(jù)進行比較的過程。機器學習的動機有兩種方法:
預測。非線性模型認為,海帶的預測變量可以作為判別結(jié)果的輸入,但不是每種方式的輸入都會影響預測。例如,以預測為導向的觀點最適合回答這樣一個問題:我的車是被高估還是低估了?如果對此應用推論,模型的可解釋性將大大降低。
推斷。線性模型來區(qū)分影響預測的每個輸入的方式。例如,它會給你一個精確的答案:如果我的車能在沒有車頂?shù)那闆r下行駛,它會花多少錢?通過比較模型的預測結(jié)果,推斷比非線性預測更容易理解。
2、分類
與其他方法一樣,訓練機器學習算法的方法也各不相同,而且各有優(yōu)缺點:
監(jiān)督學習。任務驅(qū)動型方法,在這個過程中,計算機由“老師”提供示例輸入及其期望的輸出,目標是學習將輸入映射到輸出的一般規(guī)則。
無監(jiān)督學習。數(shù)據(jù)驅(qū)動型方法,目標是通過對數(shù)據(jù)中的底層結(jié)構(gòu)或分布進行建模來了解更多有關數(shù)據(jù)的信息。它可以是兩種類型:發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式,也可以是達到目的的方法(特征學習)。
強化學習。此類別基于從錯誤中學習,該錯誤使用獎勵和懲罰系統(tǒng)訓練算法。
3、問題類型
如果要深入研究機器學習類別,還有五種其他類型的問題:
回歸。我們需要預測連續(xù)響應值的監(jiān)督問題?;貧w擬合數(shù)據(jù)并給出映射的所有特征點的答案,如果預測值趨向于一個連續(xù)的值,那么它就會下降。例如:給出區(qū)域名稱、土地面積等作為特征,并預測土地的預期成本。
分類。監(jiān)督問題,其主要目的是分離數(shù)據(jù)。如果預測值趨向于是/否、正/負等類別,那么它就屬于機器學習中的分類問題。例如,給定一個句子來預測它是否定的還是正面的。
集群。無監(jiān)督問題,我們將相似的事物組合到一個給定數(shù)量的簇中。對于這些分數(shù),我們不會給出答案。示例:給定3、4、8、9,并且簇的數(shù)目為2,那么機器學習系統(tǒng)可以將給定的集合分成簇1–3,4和簇2–8,9。
密度估計。它是在觀測數(shù)據(jù)的基礎上,對一個不可觀測的潛在概率密度函數(shù)的估計。查找輸入在某個空間中的分布。
降維。通過將輸入映射到低維空間來簡化輸入。
4、類
機器學習算法可分為參數(shù)或非參數(shù):
參數(shù)化-有固定數(shù)量的參數(shù),分兩步完成:
第一步:假設我們的函數(shù)(f)的函數(shù)形式或形狀,即:f是線性的,因此我們將選擇一個線性模型。
第二步:選擇一個程序來適應或訓練我們的模型。這意味著估計線性函數(shù)中的β參數(shù)。一種常見的方法是(普通)最小二乘法。
非參數(shù)化-使用靈活數(shù)量的參數(shù),參數(shù)的數(shù)量通常隨著它從更多數(shù)據(jù)中學習而增長。由于這些方法并不能將f的估計問題簡化為少量的參數(shù),因此需要大量的觀測數(shù)據(jù)來獲得f的精確估計。例如薄板樣條模型。
5、性能分析
算法的性能分析是計算該算法所需的空間和時間的過程。算法的性能分析采用以下措施:
混淆矩陣-通常用于描述分類模型(或“分類器”)在已知真實值的一組測試數(shù)據(jù)上的性能的表。
準確度。正確預測的一部分,當數(shù)據(jù)集不平衡時(即不同類別中的樣本數(shù)量變化很大)不可靠
f1分數(shù)-測試準確性的另一個衡量標準,其計算依據(jù)是:1)精度-在分類器標記為陽性的所有示例中,哪個分數(shù)是正確的?2) 回憶一下。在所有的正面例子中,分類器提取了什么分數(shù)?
ROC曲線-接收器工作特性。真陽性率(回憶/敏感性)vs假陽性率(1-特異性)
偏差-方差權(quán)衡-一組預測模型的特性,其中參數(shù)估計偏差較低的模型在樣本間的參數(shù)估計方差較高,反之亦然。
均方誤差(MSE)-測量誤差或偏差平方的平均值-即估計值與估計值之間的差值。
錯誤率。在分類環(huán)境下,應用估計模型的錯誤率函數(shù)是訓練觀測值的函數(shù)。
6、算法
機器學習真正有趣的部分來了!以下內(nèi)容能夠幫助你如何將機器學習付諸實踐:
決策樹學習-通過一種算法方法來構(gòu)建,該方法根據(jù)不同的條件識別數(shù)據(jù)集的分割方法。
關聯(lián)規(guī)則學習-一種基于規(guī)則的機器學習和數(shù)據(jù)挖掘技術(shù),可以發(fā)現(xiàn)數(shù)據(jù)集中變量或特征之間的重要關系。
人工神經(jīng)網(wǎng)絡-一種信息處理模型,其靈感來源于生物神經(jīng)系統(tǒng),如大腦,處理信息的方式。
深度學習-網(wǎng)絡能夠在無監(jiān)督的情況下從非結(jié)構(gòu)化或未標記的數(shù)據(jù)中學習。它教計算機通過層過濾輸入,學習如何預測和分類信息。
歸納邏輯編程-使用邏輯編程作為統(tǒng)一的表示,例如,背景知識和假設。
支持向量機-分析用于分類和回歸分析的數(shù)據(jù)。
聚類-將一組對象分組的任務,使同一組(稱為群集)中的對象彼此之間(在某種意義上)比其他組(簇)中的對象更相似(在某種意義上)。
貝葉斯網(wǎng)絡-通過有向無環(huán)圖表示一組變量及其條件依賴關系的概率圖形模型。
強化學習-通過與環(huán)境互動來學習。
特征學習-允許從原始數(shù)據(jù)中發(fā)現(xiàn)特征檢測或分類所需的表示。
相似性和度量學習-學習度量兩個對象的相似性函數(shù)。
稀疏字典學習-旨在尋找輸入數(shù)據(jù)的稀疏表示形式的基本元素的線性組合。
遺傳算法-一個受自然選擇過程啟發(fā)的元啟發(fā)式算法。
基于規(guī)則的機器學習-一種數(shù)據(jù)驅(qū)動的方法,使用標記的文本語料庫和他們的情感來預測。
學習分類器系統(tǒng)-結(jié)合發(fā)現(xiàn)組件和學習組件。
7、調(diào)試
調(diào)試是為學習算法選擇一組最佳超參數(shù)的問題。這是它的組成部分:
交叉驗證—一種用于評估統(tǒng)計分析結(jié)果如何概括為獨立數(shù)據(jù)集的技術(shù)。一輪交叉驗證涉及將數(shù)據(jù)樣本劃分為互補的子集,對一個子集(稱為訓練集)執(zhí)行分析,并對另一個子集(稱為驗證集或測試集)進行分析驗證。
方法:Leave-p-out交叉驗證,Leave-one-out交叉驗證,k倍交叉驗證,Holdout方法和重復隨機采樣驗證。
超參數(shù)-一個參數(shù),其值用于控制學習過程。相反,其他參數(shù)的值(通常是節(jié)點權(quán)重)是通過訓練得出的??梢允褂靡韵路椒▽ζ溥M行優(yōu)化:
1)網(wǎng)格搜索。傳統(tǒng)方式只是簡單地窮舉搜索學習算法的超參數(shù)空間的手動指定子集。
2)隨機搜索。它只是簡單地對參數(shù)設置進行采樣,發(fā)現(xiàn)在高維空間中,進行固定次數(shù)要比窮舉搜索更為有效。
3)基于梯度的優(yōu)化。對于特定的學習算法,可以計算相對于超參數(shù)的梯度,然后使用梯度下降優(yōu)化超參數(shù)。
正則化(提前停止)-提前停止規(guī)則可指導學習者開始過度擬合之前可以運行多少次迭代,然后停止算法。
過度擬合。當模型學習訓練數(shù)據(jù)中的細節(jié)和噪聲時,會在一定程度上影響新數(shù)據(jù)上模型的性能,因此會發(fā)生這種情況。
欠擬合(Underfitting)。模型從訓練數(shù)據(jù)中“學習不足”的情況下,導致泛化率低和預測不可靠。
引導。它是使用替換隨機抽樣并屬于更廣泛的重采樣方法的任何測試或度量。自舉法將準確性的度量(偏差,方差,置信區(qū)間,預測誤差等)分配給樣本估計。
套袋(bagging)。它是一種集成的機器學習算法,結(jié)合了許多決策樹的預測。
總結(jié)
以上內(nèi)容基本上包含了機器學習的全部知識點,溫故而知新,學過的東西如果不回過來看一下,說不定哪天就徹底忘記了。希望以上內(nèi)容能給大家提供幫助~
文章名稱:《7大分類,40多個關鍵概念,入門機器學習要掌握的概念都在這里了》
文章鏈接:http://www.ljxxtl.cn/it-keji/zhineng/106280.html
本站資源僅供個人學習交流,請于下載后24小時內(nèi)刪除,不允許用于商業(yè)用途,否則法律問題自行承擔。