質問

私は自然言語処理に関するプロジェクトに取り組んでいます。しかし、私は入力ニューロンの固定サイズのANNを持っているポイントで立ち往生しています。

IMDBムービーレビューセットを使用してセンチメント分析を行おうとしています。それを行うために、まず、各単語の単語埋め込みを計算して、単語コンテキストマトリックスを作成し、SVDを適用しました。だから私は埋め込みマトリックスという言葉を持っています。しかし、神経ネットに供給できるように、文のベクトル(文の各単語の埋め込みを含む)を固定サイズに圧縮する最良の方法はわかりません。私はPCAを試しましたが、結果は満足していませんでした。

何か助けがありますか?

役に立ちましたか?

解決

最も簡単な方法は、単語の埋め込みを平均することです。これは非常にうまく機能します。もう1つのことは、各ドキュメントを単語の袋として表現することです。つまり、語彙のサイズのベクトルを持つことです。ベクトル内の各要素は、特定の単語がドキュメントで言及されていた回数を表します(たとえば、ベクトルの最初の要素は、単語の回数を表します a 言及されたなど)。あとがき、ベクトルのサイズを縮小するために、次のようなテクニックを使用できます LDA, 、svd、または 自動エンコーダー.

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top