Rおよび"weka".うまく使いこなせる方法メタアルゴリズムとnfold評価方法は？

https://stackoverflow.com/questions/3871473

28-09-2019
|

質問

ここでは一例ですの問題

library(RWeka)
iris <- read.arff("iris.arff")

を行うnfoldsを得るには適切な精度の段階からありました。

m<-J48(class~., data=iris)
e<-evaluate_Weka_classifier(m,numFolds = 5)
summary(e)

その結果についての内容を記載していにより得られた建物のモデルのデータセットおよび試験でも、そのため正確な精度

現にあたAdaBoostに最適なパラメータの識別

m2 <- AdaBoostM1(class ~. , data = temp ,control = Weka_control(W = list(J48, M = 30)))
summary(m2)

その結果についての内容を記載してい取得するか、又はこれと同等以上のデータセットのモデルも同じものを評価し、その精度は代表者の実際の精度を社が使用しているその他のインスタンスを評価することができるモデルです。しかしこの手順は最適のモデルが構築されています。

主な問題であることができませんの最適化モデルを構築し、同時に試験したデータを使用しない、モデルを構築するために、利用nfold検証方法の正します。

解決

でしょうmisinterpreteの機能evaluate_Weka_classifier.両方の場合、evaluate_Weka_classifierなみの検証に基づく訓練データです。変更等はできませんので、モデルそのものです。比較の混乱行列の次のコード:

m<-J48(Species~., data=iris)
e<-evaluate_Weka_classifier(m,numFolds = 5)
summary(m)
e


m2 <- AdaBoostM1(Species ~. , data = iris ,
       control = Weka_control(W = list(J48, M = 30)))
e2 <- evaluate_Weka_classifier(m2,numFolds = 5)
summary(m2)
e2

いずれの場合においても、概要の評価に基づく訓練データの機能 evaluate_Weka_classifier() また、正しいcrossvalidation.もJ48もAdaBoostM1のモデル自体が更新されに基づくcrossvalidation.

現に関するAdaBoostアルゴリズムそのもの:実際、使用されないようにする方法は何らかの"重み付きcrossvalidation"の最終段階からありました。間違って分類項目はより重量のビルでの評価であること等しい重量のためのすべての観測。そこで、crossvalidationの最適化の結果なんで、一般の適応性の向上アルゴリズムです。

したい場合は、true crossvalidationを用い研修と評価、なにができるの

id <- sample(1:length(iris$Species),length(iris$Species)*0.5)
m3 <- AdaBoostM1(Species ~. , data = iris[id,] ,
      control = Weka_control(W = list(J48, M=5)))

e3 <- evaluate_Weka_classifier(m3,numFolds = 5)
# true crossvalidation
e4 <- evaluate_Weka_classifier(m3,newdata=iris[-id,])

summary(m3)
e3
e4

したい場合はモデルが更新されに基づくcrossvalidationいに異なるアルゴリズムの例 randomForest() からrandomForestパッケージです。その収集がセットに最適な樹木に基づくcrossvalidation.で組み合わせて使用することができるRWekaパッケージです。

編集：修正コードのための真のcrossvalidation.を使用 subset 引数の効果を evaluate_Weka_classifier() しています。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow