隨機森林python函數 python隨機森林庫

如何用python實現隨機森林分類

大家如何使用scikit-learn包中的類方法來進行隨機森林算法的預測。其中講的比較好的是各個參數的具體用途。

創新互聯公司專注為客戶提供全方位的互聯網綜合服務，包含不限于成都網站設計、成都網站建設、獲嘉網絡推廣、小程序制作、獲嘉網絡營銷、獲嘉企業策劃、獲嘉品牌公關、搜索引擎seo、人物專訪、企業宣傳片、企業代運營等，從售前售中售后，我們都將竭誠為您服務，您的肯定，是我們最大的嘉獎；創新互聯公司為所有大學生創業者提供獲嘉建站搭建服務，24小時服務熱線：18980820575，官方網址：www.yijiale78.com

這里我給出我的理解和部分翻譯：

參數說明：

最主要的兩個參數是n_estimators和max_features。

n_estimators：表示森林里樹的個數。理論上是越大越好。但是伴隨著就是計算時間的增長。但是并不是取得越大就會越好，預測效果最好的將會出現在合理的樹個數。

max_features：隨機選擇特征集合的子集合，并用來分割節點。子集合的個數越少，方差就會減少的越快，但同時偏差就會增加的越快。根據較好的實踐經驗。如果是回歸問題則：

max_features＝n_features，如果是分類問題則max_features＝sqrt(n_features)。

如果想獲取較好的結果，必須將max_depth＝None,同時min_sample_split=1。

同時還要記得進行cross_validated（交叉驗證），除此之外記得在random forest中，bootstrap=True。但在extra-trees中，bootstrap=False。

這里也給出一篇老外寫的文章：調整你的隨機森林模型參數　

這里我使用了scikit-learn自帶的iris數據來進行隨機森林的預測：

[python]?view plain?copy

from?sklearn.tree?import?DecisionTreeRegressor

from?sklearn.ensemble?import?RandomForestRegressor

import?numpy?as?np

from?sklearn.datasets?import?load_iris

iris=load_iris()

#print?iris#iris的4個屬性是：萼片寬度　萼片長度　花瓣寬度　花瓣長度　標簽是花的種類：setosa?versicolour?virginica

print?iris['target'].shape

rf=RandomForestRegressor()#這里使用了默認的參數設置

rf.fit(iris.data[:150],iris.target[:150])#進行模型的訓練

#隨機挑選兩個預測不相同的樣本

instance=iris.data[[100,109]]

print?instance

print?'instance?0?prediction；',rf.predict(instance[0])

print?'instance?1?prediction；',rf.predict(instance[1])

print?iris.target[100],iris.target[109]

返回的結果如下：

(150,)

[[ 6.3 ?3.3 ?6. ? 2.5]

[ 7.2 ?3.6 ?6.1 ?2.5]]

instance 0 prediction； [ 2.]

instance 1 prediction； [ 2.]

2 2

在這里我有點困惑，就是在scikit-learn算法包中隨機森林實際上就是一顆顆決策樹組成的。但是之前我寫的決策樹博客中是可以將決策樹給顯示出來。但是隨機森林卻做了黑盒處理。我們不知道內部的決策樹結構，甚至連父節點的選擇特征都不知道是誰。所以我給出下面的代碼（這代碼不是我的原創），可以顯示的顯示出所有的特征的貢獻。所以對于貢獻不大的，甚至是負貢獻的我們可以考慮刪除這一列的特征值，避免做無用的分類。

[python]?view plain?copy

from?sklearn.cross_validation?import?cross_val_score,?ShuffleSplit

X?=?iris["data"]

Y?=?iris["target"]

names?=?iris["feature_names"]

rf?=?RandomForestRegressor()

scores?=?[]

for?i?in?range(X.shape[1]):

score?=?cross_val_score(rf,?X[:,?i:i+1],?Y,?scoring="r2",

cv=ShuffleSplit(len(X),?3,?.3))

scores.append((round(np.mean(score),?3),?names[i]))

print?sorted(scores,?reverse=True)

顯示的結果如下：

[(0.934, 'petal width (cm)'), (0.929, 'petal length (cm)'), (0.597, 'sepal length (cm)'), (0.276, 'sepal width (cm)')]

這里我們會發現petal width、petal length這兩個特征將起到絕對的貢獻，之后是sepal length，影響最小的是sepal width。這段代碼將會提示我們各個特征的貢獻，可以讓我們知道部分內部的結構。

求python寫的隨機森林的roc代碼

隨機森林在R packages和Python scikit-learn中的實現是當下非常流行的，下列是在R和Python中載入隨機森林模型的具體代碼：

Python

#Import Library

fromsklearn.ensemble import RandomForestClassifier #use RandomForestRegressor for regression problem

#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset

# Create Random Forest object

model= RandomForestClassifier(n_estimators=1000)

# Train the model using the training sets and check score

model.fit(X, y)

#Predict Output

predicted= model.predict(x_test)

R Code

library(randomForest)

x- cbind(x_train,y_train)

# Fitting model

fit- randomForest(Species ~ ., x,ntree=500)

summary(fit)

#Predict Output

predicted= predict(fit,x_test)

python 機器學習隨機森林怎么存起來用

你說的問題叫模型持久化，就是把學習好的模型保存起來，以后只要調用這個文件就可以了。

每個框架都應該有模型持久化函數，以sklearn為例：

from sklearn.externals import joblib

joblib.dump(clf, "train_model.m") ＃存儲

clf = joblib.load("train_model.m") ＃調用

當前名稱：隨機森林python函數 python隨機森林庫
網頁鏈接：http://www.yijiale78.com/article46/dodcdhg.html

成都網站建設公司_創新互聯，為您提供面包屑導航、網站改版、網站維護、網站建設、建站公司、網站設計公司

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

99偷拍视频精品区一区二,口述久久久久久久久久久久,国产精品夫妇激情啪发布,成人永久免费网站在线观看,国产精品高清免费在线,青青草在线观看视频观看,久久久久久国产一区,天天婷婷久久18禁,日韩动漫av在线播放直播

隨機森林python函數 python隨機森林庫

如何用python實現隨機森林分類

求python寫的隨機森林的roc代碼

python 機器學習隨機森林怎么存起來用