文のサイズを修正する最良の方法[センチメント分析

https://datascience.stackexchange.com/questions/17709

22-10-2019
|

質問

私は自然言語処理に関するプロジェクトに取り組んでいます。しかし、私は入力ニューロンの固定サイズのANNを持っているポイントで立ち往生しています。

IMDBムービーレビューセットを使用してセンチメント分析を行おうとしています。それを行うために、まず、各単語の単語埋め込みを計算して、単語コンテキストマトリックスを作成し、SVDを適用しました。だから私は埋め込みマトリックスという言葉を持っています。しかし、神経ネットに供給できるように、文のベクトル（文の各単語の埋め込みを含む）を固定サイズに圧縮する最良の方法はわかりません。私はPCAを試しましたが、結果は満足していませんでした。

何か助けがありますか？

解決

最も簡単な方法は、単語の埋め込みを平均することです。これは非常にうまく機能します。もう1つのことは、各ドキュメントを単語の袋として表現することです。つまり、語彙のサイズのベクトルを持つことです。ベクトル内の各要素は、特定の単語がドキュメントで言及されていた回数を表します（たとえば、ベクトルの最初の要素は、単語の回数を表します a 言及されたなど）。あとがき、ベクトルのサイズを縮小するために、次のようなテクニックを使用できます LDA, 、svd、または自動エンコーダー.

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange