テキストマイニングタスクのドキュメントで間違った単語を処理する方法は？

https://stackoverflow.com/questions/4276500

28-09-2019
|

質問

トピックモデリング（Mallet）を適用したい一連の非公式文書（数千）があります。問題は、文書にはかなりの数のスペルの単語があることです。ほとんどは、「 'juz」 - >' just '、' alr ' - >' clouth 'のような短い形式やローカルな専門用語など、意図的なものです。さまざまな著者の独特のスタイルの執筆スタイルのために、これらのバリエーションのいくつかが存在します。

それらをマレットに与えた後、私は生成されたトピックの1つが実際にはスペルのある一連のストップワードのセットであることをちょっと悩ませました。これらの言葉は、同じ著者の文書の小さなサブセットで主に使用されているため、マレットがそれを拾い上げたと思います。

私の質問は、私はこれらのスペルミスのある単語のセットを綴り、修正し、おそらくそれらにさらなるタスクを実行する前に、どこかに修正されたテキストを保存することですか？これは、正しくコミットする前に修正を手動で検証する必要があることを意味すると思いますか？これを行うための最も「効率的な」方法は何でしょうか？

または、私は実際にこれらの間違った言葉を無視しますか？

解決

現在、ストップワードをどうしますか？トピックモデリングをしている場合、それらを除外するのは理にかなっています。もしそうなら、なぜこれらの条件を除外してみませんか？

返信に応じて編集

LDA内のストップワードの処理に関する調査が、より原則的な方法であります。頭に浮かぶ2つの論文があります：

[1]設定した予測タスクで明らかに役立つ用語加重スキームを使用します[2]は、すべての停止単語を含むいくつかのトピックと、コーパス全体に共通する他の単語を含むいくつかのトピックにつながるという単語分布よりも、非対称の事前の事前を使用します。

LDAの停止単語やその他の非トピック語を自動的に推測する最良の方法は、まだ研究の質問であるように思えます。

他のヒント

間違いのある単語の影響や、あなたのトピックモデリングの結果に関する誤った補正された間違いの言葉の影響を知らずに答えることができるとは思いません。したがって、より多くの情報を提供できれば、それは良いことです。

しかし、少なくとも修正が明らかに元の著者の意図である場合、私はあなたがそれらを修正したいと思っていたでしょう。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow