機器學(xué)習(xí)中監(jiān)督式學(xué)習(xí)是非常重要的一類,因為ML的主要出發(fā)點是利用獲得的數(shù)據(jù)來補償未知的知識,所以從訓(xùn)練集出發(fā)學(xué)習(xí)數(shù)據(jù)中的模式規(guī)律就是最為自然的一類 情況。今天開始自己決定利用兩周左右的時間,來記錄整理自己學(xué)習(xí)機器學(xué)習(xí)的筆記,主要的參考資料是Ethen Alpaydin的《機器學(xué)習(xí)導(dǎo)論》,如有錯誤或疏漏,還請各位童鞋批評指正。今天主要來宏觀地談?wù)劚O(jiān)督學(xué)習(xí),大致的要點如下:
讓客戶滿意是我們工作的目標(biāo),不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價值的長期合作伙伴,公司提供的服務(wù)項目有:主機域名、雅安服務(wù)器托管、營銷軟件、網(wǎng)站建設(shè)、太倉網(wǎng)站維護(hù)、網(wǎng)站推廣。
1. 一個監(jiān)督式學(xué)習(xí)實例;
2. 監(jiān)督式學(xué)習(xí)算法的維;
3. 學(xué)習(xí)算法的能力--VC維;
4. 學(xué)習(xí)算法樣本量的確定--概率逼近;
好了,長話短說,下面我們來介紹機器學(xué)習(xí)中的監(jiān)督式學(xué)習(xí)。
一、一個監(jiān)督式學(xué)習(xí)實例
從一個例子著手是最為形象最為容易理解的,比如現(xiàn)在我們有一個判斷“家用汽車”的任務(wù),具體根據(jù)汽車價格和發(fā)動機功率兩個特征進(jìn)行判斷,實際中也許有更多 的因素,在這里為了簡單起見我們暫且只考慮這兩個特征。算法的任務(wù)是通過訓(xùn)練集的學(xué)習(xí),能夠?qū)σ粋€新的樣本進(jìn)行判斷是否是“家用汽車”。我們可以將認(rèn)為是 家用汽車的標(biāo)記為正例(Positive Example),其他的都被標(biāo)記為負(fù)例(Negative Example),類學(xué)習(xí)就是要找到一個包含所有正例但是不包含任何負(fù)例的描述。
上面的公式描述了我們這個實例,向量x的兩個分量分別表示汽車價格和發(fā)動機的功率,而向量r則表示輸出,當(dāng)為正例時輸出1,負(fù)例時輸出0;第一個集合表示N個樣本訓(xùn)練集,每個元素都由樣本特征x和標(biāo)準(zhǔn)判斷r組成。我們現(xiàn)在的目標(biāo)是可以找到一個算法,可以通過訓(xùn)練集找到某個分類方法,適用于所有的訓(xùn)練集(包含所有正例但是不包含任何負(fù)例),然后利用這個分類方法去預(yù)測判斷新的樣本。
這里在具體實現(xiàn)的時候,人們往往首先要有一個假設(shè)類(Hypothesis class),比如可以采用一個矩形集合(假定位于某個價格區(qū)間且同時位于某個發(fā)動機功率區(qū)間的汽車為家用汽車,即一個判別式),來包含所有的正例,同時 卻不包含任何的負(fù)例。符合這樣條件的矩形可能有多個,因此存在一個最小的矩形,即最特殊的假設(shè)(most specific hypothesis),比如S,再小就會有一個正例不包含在假設(shè)中;同時也存在一個最一般的假設(shè)(most general hypothesis),比如G,再大的假設(shè)就會包含一個或多個負(fù)例。因此我們尋找的假設(shè)應(yīng)該位于S與G之間。一般認(rèn)為可以選在S與G的中間,因為這樣可 以獲得較大的邊緣(margin),所謂邊緣就是邊界和它最近的實例之間的距離。
由于在S與G之間存在多個可用的假設(shè),但是不同的假設(shè)對于新的樣本可能做出不同的預(yù)測和判斷,因此這便引出了泛化(generalization)的問題,即我們的假設(shè)對不在訓(xùn)練集中的未來實例的分類的準(zhǔn)確率如何。
二、監(jiān)督式學(xué)習(xí)算法的維度
監(jiān)督式學(xué)習(xí)簡單來說就是通過訓(xùn)練集讓計算機學(xué)習(xí)數(shù)據(jù)間的規(guī)律和模式,然后以此進(jìn)行分類和回歸預(yù)測。訓(xùn)練集的表示就如同上面的結(jié)合X, 其中樣本應(yīng)當(dāng)是獨立同分布的,對于分類而言,兩類學(xué)習(xí)輸出就是0和1,而K類學(xué)習(xí)就是一個K維向量,其中只有一個分量為1,其余分量均為0,這個要求也就 是說任何一樣本最多只能屬于一個類別。對于回歸而言,輸出是一個實數(shù)值。可以這樣簡單地來區(qū)分分類和回歸問題:分類輸出是離散值,而回歸輸出是連續(xù)值。下 面我們來看看監(jiān)督式學(xué)習(xí)的維度, 也就是監(jiān)督學(xué)習(xí)的基本步驟。
1. 確定假設(shè)類,比如假設(shè)了函數(shù)模型G(x,A),A表示一個參數(shù)向量,而x表示我們的樣本輸入,我們通過訓(xùn)練集學(xué)習(xí)確定最好的A,使得假設(shè)可以對新的樣本進(jìn)行判斷;
2. 滿足訓(xùn)練集的假設(shè)可能會有很多,因此我們要選擇最合適的那個,標(biāo)準(zhǔn)就是一個損失函數(shù)L(Loss Function),比如L是x與G(x, A)的平方差或者絕對值,用于表示我們的假設(shè)與訓(xùn)練集的差異,我們尋求最小的那個。當(dāng)然,損失函數(shù)還可以有其他的定義,但是基本思想都是用來表示假設(shè)與訓(xùn)練集數(shù)據(jù)的差異;
3. 有了損失函數(shù)L,接下來我們就進(jìn)入了最優(yōu)化過程,即使得L最小,這一步有多種方法可以實現(xiàn),比如將L對所有的特征分量求偏導(dǎo)數(shù),確定極小值;或者使用梯度下降、模擬退火以及遺傳算法等。
不同的機器學(xué)習(xí)方法的之間的區(qū)別,要么是假設(shè)類不同(假設(shè)模型或歸納偏倚),要么是所使用的損失函數(shù)不同,再者就是使用的最優(yōu)化過程不同。可以說,假設(shè)模型、損失度量和最優(yōu)化過程是機器學(xué)習(xí)的三個基本維度。
三、學(xué)習(xí)算法的能力--VC維
學(xué)習(xí)算法的能力通過VC維度來度量,即一個假設(shè)類散列的數(shù)據(jù)點的個數(shù)。假定一個數(shù)據(jù)集中有N個數(shù)據(jù)點,對于正例和負(fù)例的判斷而言,就有2的N次方種不同的學(xué)習(xí)問題,如果對于這些學(xué)習(xí)問題中的任何一個都可以找到假設(shè)類H中的一個假設(shè)h可以將正例和負(fù)例分開,我們就稱該假設(shè)類H散列這N個點。因此VC維度量假設(shè)類的學(xué)習(xí)能力。
四、學(xué)習(xí)算法樣本量的確定--概率逼近
概率逼近主要用于針對特定的假設(shè)類,確定最少需要多少樣本量就可以保證學(xué)習(xí)的結(jié)果獲得一定的置信率,其實也就是說如果我們想達(dá)到一個較好的假設(shè),那么最少需要多大的訓(xùn)練集呢?根據(jù)我們期望的置信率和不同的假設(shè),我們可以計算其概率逼近的最小樣本量。
好了,今天的基本概念就到這里,明天繼續(xù)!
Refer:
《機器學(xué)習(xí)導(dǎo)論》,Ethen Alpaydin(土耳其),機械工業(yè)出版社
當(dāng)前名稱:【機器學(xué)習(xí)】(4):監(jiān)督式學(xué)習(xí)
標(biāo)題鏈接:http://www.yijiale78.com/article18/ghddgp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供商城網(wǎng)站、ChatGPT、做網(wǎng)站、搜索引擎優(yōu)化、品牌網(wǎng)站設(shè)計、企業(yè)建站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)