質問

方法論の精度をテストしたい。私はそれを〜400回走らせました、そして、私は各ランに対して異なる分類を得ました。また、私は基本的な真実、つまり、テストする本当の分類を持っています。

分類ごとに、混乱マトリックスを計算しました。ここで、全体的な混乱マトリックスを取得するために、これらの結果を集約したいと思います。どうすればそれを達成できますか?

全体的な混乱マトリックスを取得するために、すべての混乱マトリックスを合計してもいいですか?

役に立ちましたか?

解決

私はこれに対する標準的な答えを知りませんが、私は何度かそれについて考えました、そして私は共有するいくつかのアイデアがあります。

混乱マトリックスが1つある場合、モデルを混乱させる(誤分類)クラスを分類する方法の写真が多かれ少なかれあります。分類テストを繰り返すと、複数の混乱マトリックスが表示されます。問題は、意味のある集計混乱マトリックスを取得する方法です。答えは、意味のある意味(しゃれを意図した)の意味に依存します。意味のある単一のバージョンはないと思います。

1つの方法は、複数のテストの大まかなアイデアに従うことです。一般に、より正確な結果を得るために、何かを複数回テストします。一般的な原則として、複数のテストの結果を平均化すると推定値の分散が減少するため、結果として推定値の精度が向上します。もちろん、このようにして、位置ごとに合計して、テストの数で除算することで進めることができます。さらに進むことができ、混乱マトリックスの各セルの値のみを推定する代わりに、信頼区間、t値などを計算することもできます。これは私の観点からは大丈夫です。しかし、それは物語の片側だけを伝えます。

調査される可能性のあるストーリーの反対側は、同じインスタンスの結果がどれほど安定しているかです。私が極端な例を挙げていくことを例示するために。 3つのクラスの分類モデルがあるとします。これらのクラスが同じ割合であると仮定します。モデルが1つのクラスを完全に予測でき、他の2つのクラスがランダムなパフォーマンスを備えている場合、0.33 + 0.166 + 0.166 = 0.66の誤分類比を持つことになります。これは良いように思えるかもしれませんが、たとえ単一の混乱マトリックスを見ても、最後の2つのクラスでのパフォーマンスが大きく異なることはわかりません。複数のテストが役立ちます。しかし、混乱マトリックスを平均するとこれが明らかになりますか?私の信念はそうではありません。平均化により、同じ結果が多かれ少なかれ与えられ、複数のテストを行うと、推定の分散が減少するだけです。しかし、予測の野生の不安定性については何も述べていません。

したがって、混乱マトリックスを作成する別の方法は、各インスタンスの予測密度をよりよく伴うことができます。インスタンスごとにカウントすることにより、特定のクラスが予測された回数をカウントすることで、この密度を構築できます。正規化後、各インスタンスには、単一の予測ラベルではなく予測密度があります。単一の予測ラベルは、予測クラスで1の確率があり、それぞれのインスタンスごとに他のクラスで0の確率がある傾向密度で類似していることがわかります。この密度を持つことで、各インスタンスから確率を追加し、凝集した混乱マトリックスの対応するセルにクラスを予測することにより、混乱マトリックスを構築できます。

これにより、以前の方法のように同様の結果が得られると主張することができます。しかし、これは時々、モデルの分散が低い場合、2番目の方法がテストからのサンプルがどのように描画されるかによってあまり影響を受け、したがって、より安定して現実に近いと思います。

また、3番目の方法を取得するために2番目の方法が変更される場合があります。この方法では、特定のインスタンスの予測から最高密度のラベルを予測として割り当てることができます。

私はそれらのことを実装していませんが、時間を費やす価値があると信じているので、さらに勉強するつもりです。

他のヒント

「マスター混乱マトリックス」を達成する方法はいくつかあります。

  1. すべての混乱マトリックスを一緒に合計します。提案したように、これを合計すると、混乱マトリックスが得られます。これの問題は、合計を解釈できないことです。

  2. エントリの平均。この方法はナンバーワンと同じですが、各エントリを試行回数(ケースでは〜400)だけ分けます。これは私の好みの方法です。なぜなら、各カテゴリを実際に(平均) + - (エラー測定)に変換し、実際にどのカテゴリが最も揮発性または安定しているかを確認できるからです。ただし、この「エラー測定」の解釈に注意してください。

  3. 混乱数の問題特定の測定を報告します。たとえば、数字に外れ値がある場合、中央値は手段よりも好まれます。

報告することも可能な他の統計があります。個々の分類を追跡するための方法をやり直すことができます。次に、「同じままで正確な分類の%」などの他の重要な統計情報を言うことができます...

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top