質問

いくつかの異なる次元を使用して、テキストドキュメントを分類しようとしています。本質的に線形または段階的なサイズや関連性など、分類する任意のトピックを作成しようとしています。例えば:

サイズ:小さな、小さく、中、大きく、巨大。関連性:悪い、わかりました、良い、素晴らしい、素晴らしい

私は手作業で分類子を訓練しています。たとえば、このドキュメントは「小さな」ものを表しており、この他のドキュメントでは「大きな」ものについて説明しています。このためにマルチラベルまたはマルチクラスのSVMを試してみると、うまく機能せず、論理的にも意味がありません。

この線形タイプのデータを予測するのに役立つモデルを使用する必要がありますか?現在、Scikit-Learnを使用して、単語のTFIDFベクトルを使用しています。

役に立ちましたか?

解決

これらの出力寸法を継続的にしたい場合は、サイズと関連性のメトリックを実際に値するターゲットに変換するだけです。その後、実行できます 回帰 分類の代わりに、さまざまなモデルのいずれかを使用します。これらのすべての出力を一度に予測するために、マルチターゲットニューラルネットをトレーニングしようとすることもできます。

さらに、最初にaを使用することを検討する場合があります トピックモデル そのような LDA 機能空間として。

値に基づいて、「関連性」は、 感情分析.

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top