質問

だから私は「冷蔵庫マグネット」をインタラクティブにしています、そして私はユーザーがドラッグするための言葉のための有効なデータセットを見つけようとしていました。

このデータセットを使用しています。しかし、それほど大きくない

役に立ちましたか?

解決

あなたがこれを行うことができる一つの方法は、テキストのコーパスをダウンロードしてから、表示される各単語の番号をカウントアップするスクリプトを実行することです。次に、ある値 n を選び、 n (丸め)で除算します。各単語について、分割された各カウントの磁石を作ります。あなたはあなたが最後に服用したい磁石の数に基づいて n を選ぶべきです。

これは、磁石の分布が単語の分布と一致するという利点を有する。たとえば、「The」が1000回現れると、「男」が320回、「歩く」150回、「スキップ」を「スキップ」し、 n を100倍にして100倍にしてください。 10「The」磁石、3「MAN」、1「散歩」、および0「スキップ」を作る。

カウントの対数を取り、スキューを試して縮小することをお勧めします。ワードディストリビューションは Zipfian 、あなたは何千もの "散歩のための"磁石を終わらせるかもしれません")

最後に、このアプローチについての素晴らしいことは、特定のドメインでそれを実行してそのドメインのための単語の磁石を設定することができるということです。たとえば、ニュース物語のように聞こえる単語の磁石を作りたい場合は、ニュース記事のコーパスでそれを実行してください。あなたがおとぎ話のように聞こえる単語の磁石を作りたいのであれば、おとぎ話のコーパスでそれを走ります。

あなたが本当に空想を得たいのなら、 tf-idf そのドメインの最も代表的な単語を選択してから、それらを共通の関数の単語で混合します。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top