線形/増分トピックを使用してテキストドキュメントを分類します

https://datascience.stackexchange.com/questions/8114

16-10-2019
|

質問

いくつかの異なる次元を使用して、テキストドキュメントを分類しようとしています。本質的に線形または段階的なサイズや関連性など、分類する任意のトピックを作成しようとしています。例えば：

サイズ：小さな、小さく、中、大きく、巨大。関連性：悪い、わかりました、良い、素晴らしい、素晴らしい

私は手作業で分類子を訓練しています。たとえば、このドキュメントは「小さな」ものを表しており、この他のドキュメントでは「大きな」ものについて説明しています。このためにマルチラベルまたはマルチクラスのSVMを試してみると、うまく機能せず、論理的にも意味がありません。

この線形タイプのデータを予測するのに役立つモデルを使用する必要がありますか？現在、Scikit-Learnを使用して、単語のTFIDFベクトルを使用しています。

解決

これらの出力寸法を継続的にしたい場合は、サイズと関連性のメトリックを実際に値するターゲットに変換するだけです。その後、実行できます回帰分類の代わりに、さまざまなモデルのいずれかを使用します。これらのすべての出力を一度に予測するために、マルチターゲットニューラルネットをトレーニングしようとすることもできます。

さらに、最初にaを使用することを検討する場合がありますトピックモデルそのような LDA 機能空間として。

値に基づいて、「関連性」は、感情分析.

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange