「ノイジー化」テキストデータのライブラリまたはテクニックはありますか？

https://datascience.stackexchange.com/questions/14805

16-10-2019
|

質問

データ増強 画像データとオーディオデータ（音声認識など）の手法は成功しており、現在は一般的です。

増強するライブラリまたはテクニックはありますか文章データ？

例えば：

In：「お元気ですか？」
out：['お元気ですか？'、 'お元気ですか？

解決

Googleスペルチェックデータなどのデータセットが必要です。ウィーク付きエラーコーパスデータセット。コーパスは、1,200万を超える文で構成されており、合計1400万のさまざまなタイプの編集があります。この編集には、スペルエラーの修正、文法エラー補正、スタイルの変更が含まれます。これらはすべて、ウィキペディアの修正履歴からです。データセットの所有者（著者）は、これのデータマイニングプロセスについて説明しています論文. 。また、この質問を確認してください Quora スペルエラーを備えたさまざまなデータセットへのリンクが含まれています。最後にこれページ便利なこともあります。

他のヒント

質問で言及したような特定の簡単なルールをコーディングできます。さらに、次のような知識ベースを使用できますフリーベースと wordnet 言語モデルを豊かにする。これは必ずしもデータを「noisify」するわけではなく、下流タスクの画像に対するデータ増強の影響と同様の影響を与えることに注意してください。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange