「ノイジー化」テキストデータのライブラリまたはテクニックはありますか?
-
16-10-2019 - |
質問
データ増強 画像データとオーディオデータ(音声認識など)の手法は成功しており、現在は一般的です。
増強するライブラリまたはテクニックはありますか 文章 データ?
例えば:
In:「お元気ですか?」
out:['お元気ですか?'、 'お元気ですか?
解決
Googleスペルチェックデータなどのデータセットが必要です。 ウィーク付きエラーコーパス データセット。コーパスは、1,200万を超える文で構成されており、合計1400万のさまざまなタイプの編集があります。この編集には、スペルエラーの修正、文法エラー補正、スタイルの変更が含まれます。これらはすべて、ウィキペディアの修正履歴からです。データセットの所有者(著者)は、これのデータマイニングプロセスについて説明しています 論文. 。また、この質問を確認してください Quora スペルエラーを備えたさまざまなデータセットへのリンクが含まれています。最後にこれ ページ 便利なこともあります。
所属していません datascience.stackexchange