算出の相互のための情報の選択研修セJava

https://stackoverflow.com/questions/2002521

18-09-2019
|

質問

シナリオ

る試みを行っていますの実施監修の学習データセット内のJava GUIアプリケーション.ユーザがリストの項目は報告書の'の検査、ラベルのご用意を表します。一度学習が完了したら、ラベルインスタンスを与える学習アルゴリズムです。この試みは他の項目はどれでは、ユーザーまたいとして指定されている。

でも、ユーザーの時刻ていかなければいけないので選択についての情報のほとんどのコレクション全体の報告として、ユーザーラベルします。私の理解で計算する必要があると思うの和のすべての相互の情報の値をそれぞれの報告をしなければならないかを指します。のラベルを付け報告書から学習し、それを形成するために用いられるベイジアンネットワークの確率でバイナリ値になった。

例

ここでは、人工的な例についてご説明する説明、明らかに混乱がん間違いなく使用、誤用語:-)と呼ば、申請を表示ニュース記事はユーザーが行います。で選択するニュース記事を表示す最初のユーザの好みを示します。特徴のニュースのある相関関係は country of origin, category または date.ではないのでユーザーラベルの単一ニュースとして興味深いの場ではスコットランドから、この機械学習者が増加し機その他のニューススコットランドから面白い、ユーザーです。類似のカテゴリーなどのスポーツや日付などの月12日2004年.

この設定で算出できる方を選択せるためにすべてのニュース記事などカテゴリー別に、日まではランダムに発注し、その算出の好みとして、ユーザーます。何をしたいと思っているかのような"ヘッド開始"この順序により、ユーザーによっては少数の特定のニュース記事と言えばいいの教師付き学習することはできない。選択の事例、ユーザーになって考えるコレクションの全種類の話しました。ここでの相互の情報が入れるようにしたいでしょう。各物語を知りたいどのくらいので教えてくださいその他の話が持っていることから、ユーザーです。例えば、多くのお話から、スコットランドしていただきたいと思いるユーザ分類に少なくともその一人です。類似の他の相関演算機能などのカテゴリー。に達の目標は、事例報告がされているがその定義が行われ、そのほか多くの情報になりました。

問題

私の数学は錆びないと思うの新しい機械学習んのトラブルが変換を定義の相互情報への実装にはJava.Wikipedia記述する方程式を相互に情報:

$mutual information equation$

しかし、私はただこの実際に使用できる時は何もないと分類され、学習アルゴリズムによって計算されていないものだ。

していったとえば、私は多くの新しいunlabelledこのクラスのインスタンス:

public class NewsStory {
    private String countryOfOrigin;
    private String category;
    private Date date;
    // constructor, etc.
}

私の特定のシナリオとの相関関係分野の特徴に基づく 完全一致 そのため、たとえば、ある日、10年間で差が日付と同等にその不平等です。

の要因の相関(例えばは日により介入り。) 必ずしも一致しなかできる定義済みおよび定数です。するということではなく、これの機能 p(x,y) は所定の値、または私はミでしょうか？

の質問 (た)

かく実施し互いに情報計算されるこの説のニュースだろうか。図書館のjavadocコードの例。すべて歓迎します。また、このアプローチは根本的に欠陥があるのかである場合のように大切にして、次のように答えた。

PS.その図書館"Weka"とApache Mahoutくていいですから、ひとこと触れていない本当に役立ちました。まだ検索を通じてトの両方のこれらの図を見たものがお互いの情報に注目する必要があると主張した。何を思ったが差しなどの資源へのコード例では、javadoc)がこれらの図書館と相互の情報です。

解決

私は推測する問題というように...

これらのリストを非標識-事例の並べ替えリストからの予測精度のモデルを向上させた場合、ユーザーに表示の例では、追加での研修のセットです。"

そのような場合にはならないと思い相互情報の利用ができない計算マイルとう場合がございます。の定義にはマイルでのランダム変数および個別のインスタンスなランダム変数をかけて食べるという習慣があります。

の機能や、クラスラベルできるものとしてランダム変数です。それは、その分布の値のデータセットです。ご数の変化を計測することにより、相互間での情報は、特に、どのよう二重化する"one機能の一つとなることが特徴は、クラスのレーベル、マーケティングなどの特徴あることが予測が可能。こうして人は、通常、相互の情報教師付き学習問題です。

と思いferdystschenkoの提案は共同で、アクティブラーニング方法である。

応Grundlefleckのコメント行い、ビット深い専門用語を使ってのJavaオブジェクトに似...

以下を使用しており、"インスタンス','も','レポート"や"例"を参照されるオブジェクトのclasified.そう、考えようものとしてのインスタンスのJavaクラス(私の定型のコンストラクタ):


class Example
{ String f1;
  String f2;
}

Example e1 = new Example("foo", "bar");
Example e2 = new Example("foo", "baz");

通常の用語の機械学習e1は例, は、すべての事例について特徴 f1およびf2は、e1、f1の値が'foo'およびf2は値'bar'.集例と呼ばれる データセット.

すべての値f1全てのデータセットは、この文字列のリストで入手できると考える。えないという理想があると思いまの特徴として ランダム変数 そのそれぞれの値のリストはサンプルからランダム変数です。たしますので、例えば、計算のMI間f1およびf2.の擬似コードのようなものです:

mi = 0
for each value x taken by f1:
{  sum = 0
   for each value y taken by f2:
   {  p_xy = number of examples where f1=x and f2=y
      p_x = number of examples where f1=x
      p_y = number of examples where f2=y
      sum += p_xy * log(p_xy/(p_x*p_y))
   }
   mi += sum
}

ができない計算マイルとe1とe2で定義されていないすることができてうれしいです。

他のヒント

知ってい情報を得るのみでの接続が決定木(DTs)の建設にはDTに分割できるようにする各ノードの一つを最大限に引き出す情報。Ｄｔｓて実施した"Weka"なのではありませんが直接ではないわからない場合は"Weka"き計算の情報を得るためには、特定の分割の下、DTノードです。

万谷塘文化公園などの見所も理解していますが正しくものと思いましようとするということで、一般的に言われるアクティブラーニング.まず、最初に必要な初期標識トレーニングのデータであるfrbへの機械学習アルゴリズムです。そして識別ラベルセットの非標識インスタンスを返し信頼度をおすすめします。インスタンスの低信頼度は、通常のものも参考に、"セレクションガイド"タブではこれらの人の付与してもらいラベルでこれらを手動で追加されていれば、研修、retrain自分級機、全体のものまで自分級機では高い精度でその他の停止基準を満たすとなのでこの作品かってしまいましたが原理的には使用ML-アルゴリズムの実装"Weka"その他のML-枠組みとしてアルゴリズムを選択できる戻り値の信頼の場合ベイジアンションに関する情報発信の方法ように確率).

ご質問を編集しようとして来かりを目指します。ばんは、計算MIしStompChickenの回答および擬似コードできないより鮮明に見せなければならない思います。るのかもマイルはたいという再発明をするつもりはありま

ましょう概:いる分類器を更新するユーザーです。このクラシックケースゕクテゖブ-ラーニングただし、初期の分級機（きばねのように、ユーザーのランダムなデータのラベルがいかないオプション）するための初期段階から、少なくとも一部に少量の標識トレーニングデータのための教師付き学習.しかし、全てきている非標識データです。でどこまでできるとみられます。

、こちらをクリックして下さいがクラスターそのグループの関連するインスタンスの標準クラスタリングアルゴリズムによる"Weka"または特定のクラスタリングツールのような Cluto.場合は現在のイングリッシュブレックファスト中心のインスタンスの各クラスター（xの数によってクラスターの忍耐のユーザのユーザーラベルとしても面白いのは面白くありません、このレーベルのその他のインスタンスのクラスターとして少なくとも中央）出来上がりになると、トレーニングを行いデータでご利用頂けるお客様からの初期段階およびキックオフのアクティブラーニング工程を更新する分類器をユーザーマークの新しいインスタンスとして興味深いです。いと思ったのだという名称を使うようにな計算によるマイルは基本的に同様のものを誤送のお料です。

がわからない内容のシナリオでは、私は考えるべきことがいらないかも意識に全てのデータを除くについて興味のある方はもちろんのラベルです。ばかクラスターデータを一度に行う事によって、ユーザのピ項目の興味深い人から中央会員のすべてのクラスターの提案その他の項目から選択したクラスターとしてもては、同様に興味深いものです。考えても一部のランダムインスタンスからその他のクラスターがいくつもありますが、なかった場合には、ユーザーを選択しこれらは、このように対応するクラスターが一般的に面白いです。がある場合矛盾およびユーザーの好みのメンバーがクラスターは他の同一、そしてre-クラスタのデータを細かい粒度のグループを識別する良いか悪いです。再研修ステップにも影することを確認することにより、階層型クラスタリング開始から、旅のクラスターの階層毎に矛盾のユーザー入力ます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow