線形/増分トピックを使用してテキストドキュメントを分類します
-
16-10-2019 - |
質問
いくつかの異なる次元を使用して、テキストドキュメントを分類しようとしています。本質的に線形または段階的なサイズや関連性など、分類する任意のトピックを作成しようとしています。例えば:
サイズ:小さな、小さく、中、大きく、巨大。関連性:悪い、わかりました、良い、素晴らしい、素晴らしい
私は手作業で分類子を訓練しています。たとえば、このドキュメントは「小さな」ものを表しており、この他のドキュメントでは「大きな」ものについて説明しています。このためにマルチラベルまたはマルチクラスのSVMを試してみると、うまく機能せず、論理的にも意味がありません。
この線形タイプのデータを予測するのに役立つモデルを使用する必要がありますか?現在、Scikit-Learnを使用して、単語のTFIDFベクトルを使用しています。
所属していません datascience.stackexchange