R語言中的k折交叉驗證是怎樣的

這篇文章給大家介紹R語言中的k折交叉驗證是怎樣的，內容非常詳細，感興趣的小伙伴們可以參考借鑒，希望對大家能有所幫助。

創新互聯公司堅持“要么做到，要么別承諾”的工作理念，服務領域包括：網站設計制作、網站設計、企業官網、英文網站、手機端網站、網站推廣等服務，滿足客戶于互聯網時代的鐵山港網站設計、移動媒體設計的需求，幫助企業找到有效的互聯網解決方案。努力成為您成熟可靠的網絡建設合作伙伴！

“ 機器學習中需要把數據分為訓練集和測試集，因此如何劃分訓練集和測試集就成為影響模型效果的重要因素。本文介紹一種常用的劃分最優訓練集和測試集的方法——k折交叉驗證。”

k折交叉驗證

K折交叉驗證(k-fold cross-validation)首先將所有數據分割成K個子樣本，不重復的選取其中一個子樣本作為測試集，其他K-1個樣本用來訓練。共重復K次，平均K次的結果或者使用其它指標，最終得到一個單一估測。

這個方法的優勢在于，保證每個子樣本都參與訓練且都被測試，降低泛化誤差。其中，10折交叉驗證是最常用的。

實例代碼

在線性分類器與性能評價(R語言)中，我們將數據集隨機抽取70%作為訓練集，剩下30%作為測試集，通過線性回歸的方法進行預測，通過ROC和AUC評價模型效果。現在，我們使用k折交叉驗證的方法，選取最優的訓練集和測試集，建立線性分類器并評價模型效果。

1、數據導入并分組。導入數據，并使用caret包中的createFolds()函數，根據標簽列將數據分成10份。

target.url <- 'https://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/sonar.all-data'
data <- read.csv(target.url,header = F)
set.seed(17)
require(caret)
folds <- createFolds(y=data[,61],k=10)

2、選取最優訓練集與測試集。構建for循環，得到十次交叉驗證預測的AUC值。并紀錄取值最大的一組，作為最優的訓練集與測試集劃分。

library(pROC)
max=0
num=0
auc_value<-as.numeric()
for(i in 1:10){
fold_test <- data[folds[[i]],] #取folds[[i]]作為測試集
fold_train <- data[-folds[[i]],] # 剩下的數據作為訓練集
fold_pre <- lm(as.numeric(V61)~.,data=fold_train)
fold_predict <- predict(fold_pre,type='response',newdata=fold_test)
auc_value<- append(auc_value,as.numeric(auc(as.numeric(fold_test[,61]),fold_predict)))
}
num<-which.max(auc_value)
print(auc_value)

10次auc取值結果如下：

[1] 0.7636364 0.7474747 0.8484848 0.9363636 0.7272727 0.8454545 0.9181818 0.7454545 0.7979798
[10] 0.7916667

3、構建分類器并判斷模型效果。根據前一步的結果，使用最優劃分構建線性分類器并預測。繪制出測試集的ROC曲線。

fold_test <- data[folds[[num]],]
fold_train <- data[-folds[[num]],]
fold_pre <- lm(as.numeric(V61)~.,data=fold_train)
fold_predict <- predict(fold_pre,type='response',newdata=fold_test)
roc_curve <- roc(as.numeric(fold_test[,61]),fold_predict)
plot(roc_curve, print.auc=TRUE, auc.polygon=TRUE, grid=c(0.1, 0.2),
grid.col=c("green", "red"), max.auc.polygon=TRUE,
auc.polygon.col="skyblue", print.thres=TRUE,main="ROC curve for the set with the largest AUC value")

R語言中的k折交叉驗證是怎樣的

線性分類器與性能評價(R語言)中隨機選取訓練集和測試集，最終測試集的AUC值僅為0.755，而本次我們通過k折交叉驗證選取訓練集和測試集，測試集AUC值達到0.936，可以看出模型效果提升顯著。

關于R語言中的k折交叉驗證是怎樣的就分享到這里了，希望以上內容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

網站題目：R語言中的k折交叉驗證是怎樣的
標題網址：http://www.yijiale78.com/article48/jjpdep.html

成都網站建設公司_創新互聯，為您提供域名注冊、用戶體驗、網站導航、ChatGPT、面包屑導航、品牌網站制作

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

99偷拍视频精品区一区二,口述久久久久久久久久久久,国产精品夫妇激情啪发布,成人永久免费网站在线观看,国产精品高清免费在线,青青草在线观看视频观看,久久久久久国产一区,天天婷婷久久18禁,日韩动漫av在线播放直播

R語言中的k折交叉驗證是怎樣的