ニューラル ネットワーク トレーニング用のデータセット [終了]
-
12-09-2019 - |
質問
人工ニューラル ネットワークのさまざまなトレーニング方法をテストおよび比較するための比較的単純なデータセットを探しています。入力と出力のリスト (0 ~ 1 に正規化) の入力形式に変換するための前処理があまりかからないデータが必要です。リンクをいただければ幸いです。
解決
なぜトレーニングデータとしてsin関数のような単純な何かを試してみませんか?あなたはトレーニング方法を比較しているし、本当にあなたのためにネットワークを訓練しているか気にしないので、それが仕事とトレーニングデータを生成することは容易でなければなりません。
xが入力され、出力関数の値であり、SIN(X)を使用してネットワークを訓練します。あなたのケースで追加の利点は、結果の絶対値が0〜1の範囲内に既にあるということです。それは同様に、他の数学関数で動作します。
他のヒント
https://archive.ics.uci.edu/ml には、カリフォルニア大学であります機械学習データセットのアーバインリポジトリ。それは本当に素晴らしいリソースだ、と私は、彼らがすべてのCSVファイルであると信じています。
一部のリソースは、
sinC 関数。
+---- | sin(x) | ------- when x != 0 | x sinC = | | | 1 otherwise +----
の
sin(x)
@adrianbanksが言ったように機能します。アルゴリズムに対する新しい変更をテストするには、古き良き n パリティ テストを使用します。
Iris データセット、セミオン手書き数字データセットなど、その他の関数など。
UCI 機械学習リポジトリ: archive.ics.uci.edu/ml/datasets.html
- これは、多くの回帰データセットを含む別のリソースです。 www.dcc.fc.up.pt/~ltorgo//Regression/DataSets.html 。これらの多くは UCI ML リポジトリから入手できます。
- データセットは次から取得できます https://www.kaggle.com/ さまざまな実用的なデータセットに対応します。
これらについては多くの前処理は必要ないと思います。カテゴリ変数と同様に、GUI テキスト エディタを使用してバイナリ変数にすばやく置き換えることができます。たとえば、 アワビ データセットには 1 つのカテゴリ属性 (性別) があり、男性を表す「M」、女性を表す「F」、幼児を表す「I」の 3 つの値があります。テキスト エディタで Ctrl + R を押すと、出現するすべての「M」を次の文字に置き換えることができます。 1,0,0
, 、「F」のすべての出現 0,1,0
そして「I」のすべての出現 0,0,1
(ファイルが CSV 形式であることを考慮します)。これにより、カテゴリ変数が迅速に置き換えられます。
あなたがいるなら R, 、その後、を使用できます normalizeData
付属の機能 RSNNS パッケージ データを 0 と 1 でスケーリングおよび正規化します。
他の環境にいる場合 オクターブ または マットラボ, 、時間をかけてコードを書くだけで済みます。これらの環境で使用できる関数はわかりませんが、コードを使用してデータをスケーリングしたり正規化したりしています。
関数を使うと作業がとても楽になり、データを用意したら、修正したデータをファイルに保存します。
1 つ覚えておいてください、ニューラル ネットワークのトレーニングの目標は、特定のトレーニング セットでうまく機能するようにネットワークをトレーニングすることだけではありません。主な目標は、ネットワークが (直接的または間接的に) 見ていない新しいデータに対して最良のエラーが発生するようにネットワークをトレーニングすることです。
http://neuroph.sourceforge.net/sample_projects.htmlする 多くのサンプルプロジェクトや有名なデータがあります。
ここではいくつかの手書きや他のデータベースには、トレーニング目的のためのものです。
http://www.cs.nyu.edu/~roweis/data。 HTML の
は興味深いサイドノートとして、〜は、妻との戦いの後、2010年に自殺をコミットしroweis:<のhref = "http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-を_n_421500.html」のrel = "nofollowを"> http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html を。
私は、OCR(光学式文字認識)を実行するためにそれらを使用することにより、学部としてのANNを学びました。私は、これは素敵なユースケースだと思います。
データにラベルを付ける(例えば、8×8画素、64の入力ノードにつながる)文字やフォームトレーニング/テストデータセットを抽出し、テキストの2ページをスキャン。 ANNを訓練し、テストデータセットを使用してスコアを取得します。最高のスコアを取得するために、ネットワークトポロジー/パラメータとチューニングにネットワークを変更します。
あなたは、ここでバウンディングNLP、画像分類へのNERからいくつかの興味深いデータセットを見つけることができます: https://dataturks.com/projects/trendingする