質問

だが、こうした問題を少しトリッキー.もう知的な変化を対象としています。りませんのデータセット(データ)のお知らないんですよ。能の訓練データを見るための推測の分類アルゴリズムの分類このデータはもらえますか?と言えるでし何かしらがしま)を使用する必要があります非線形や線形分類アルゴリズム?

ちなみに、私が使ってい"WEKA"を、データ解析などを解析した。

ご意見募集お願い致します。

役に立ちましたか?

解決

うわー、あなたには、いくつかのトレーニングデータを持っているし、あなたがセルに文書内の単語、またはgeneseを表す特徴を見ているかどうかを知っていて、チューニングする分類器を必要としませんので。あなたはどんな意味情報を持っていないので、まあ、あなたは、データセットの統計的性質を調べることで、このソリーをしなければならないとしている。

まず、問題を定式化するために、これは単なる非線形対線形以上です。あなたは本当にこのデータを分類するために探している場合は、あなたが本当に行う必要があり、各カーネル関数がかかる場合がありますまた、直鎖状であってもよい分類器、または非線形(ガウス、多項式、双曲線などのためのカーネル関数を選択することです設定する必要があるであろう一つ以上のパラメータ。与えられた分類問題に対する最適なカーネル関数とパラメータセットを決定することは、本当に解決される問題ではない、唯一の有益な経験則があるとは、Googleが「カーネル関数を選択する」または「カーネルを選択します関数」多くのアプローチがありますが、あなたが最も基本的な、よく旅の一つは基本的にあなたがカーネル法とAを試してみてくださいparameters--の勾配降下を行うことです。さまざまなアプローチを提案し、テストする多くの研究論文に扱われますあなたがsatisfacを取得するまで、パラメータセット、半分のあなたのデータポイントの電車とあなたがどのように見るが。そして、あなたはパラメータの異なるセットを試してみて、あなたがどのように参照してください。あなたは、精度の最高の改善の方向にパラメータを動かしますトーリー結果ます。

あなたは良いカーネル関数を見つけるために、すべてのこのような複雑通過する必要があり、単純に線形または非線形への回答をしたくない場合。その後、質問は主にダウン二つのものに来る:非線形分類器は、彼らが自由のより多くの次元を持っているので、過剰適合(undergeneralizing)のリスクが高くなります。彼らは単にかなり良い一般化を考え出すよりも、良好なデータ点の集合を記憶クラシファイアに苦しむことができます。一方、線形分類器は合わせて以下の自由を持っており、直線的に分離可能でないデータの場合には、優れた意思決定機能を見つけることに失敗し、高いエラー率に苦しんでいます。

残念ながら、私は質問ばかり分類器自体を試してみて、それが実行する方法を確認する以外に、「このデータは直線的に分離可能である」と答えた方が良い数学的な解決策を知りません。そのために、あなたは私よりも賢い答えを必要としています。

編集:この研究論文は、与えられたデータセットは直線的に分離可能であることに来てどれだけ近いかを決定することができるはずのように見えるのアルゴリズムを記述する

http://www2.ift.ulaval.ca/~mmarchand/出版/ wcnn93aa.pdfする

他のヒント

実は、これ 二つの 質問一;-)

  • 特徴選択を
  • リニアな

"を追加したアルゴリズムの選択"では、と思います三つの最も基本的な質問の分類器のデザイン。

ちなみに、この 良いもの していないドメインのノウハウをいう内容のガイドの選択の特徴や主張するの線形性の特徴空間です。ことになるの楽しさをデータマイニング:推定などの詳細情報無事前。(ちなみに、対象領域における専門知識がダブルチェックの結果、分級機、多すぎると事前の洞察があり逃すい鉱山です。なくな知識になれることだから、これからの構築方法論を適用し吟味の結果を

で提供 特定の ご案内、多くの詳細は左の質問がなかったことんやBS-ingうこ;-).しいように思えますが、ことによって、下記の一般のアドバイスする

  • 各アルゴリズムを使うことにより、正確に各パラメータのセットを指定されたアルゴリズム)が必要となりま 実に多くのテストを.理論できるものでもありのままにたくさんの"試行錯誤".いただけ クロス-検証 貴重な技術。
    このようにし、サイズによっては、訓練データ"となっておりますのでランダムに分割での訓練データを複数の部品や電車の分類器を一【数】これらの部品、その評価、分級機、その性能もしくは複数]。各runでの測定に関する諸指標の評価だけでなく、国内メーカーとしての誤分類誤り(MCE)からではないことがおわかり頂けどのように分類器を行い、これらの指標は、いやその変動をどの関連性の選択した機能および/またはその不足や規模線形

  • 独自の直線性の仮定のものである 正の値数値 が特徴です。この特徴においては奇数の範囲等
    各寸法を確立する範囲内で、2.5標準偏差の右の中央値は、変換の特徴値の比率に基であることが判明した。

  • 変換公称属性をバイナリーのもの, 作として多くの寸法が異なる価値、名目の属性。(多いと思いアルゴリズムの恐まいま

  • 一度定数文字列比較的良い性能(言33%MCE)を行なわなければならない同一試験シリーズは、そのような分級機による変更のみのパラメータです。例えば除去すが、場合による低次元性識別の改善やが故障して来ます。

  • 損失係数は非常に敏感なパラメータ.みっつ"reasonnable"でも入値はバルクの検査、微調整の損失です。

  • しの"dump"情報が提供されなかった場合は、SVM恐.これらの結果を非常に貴重な情報をどのようなオプティマイザは"考える"

  • 覚えていることかできた範定のデータセットに与えられたドメインがあり非常に低のデータから別のドメイン...

  • コーヒーをいいます。すべて失敗したいアイルランドの;-)

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top