質問

データ増強 画像データとオーディオデータ(音声認識など)の手法は成功しており、現在は一般的です。

増強するライブラリまたはテクニックはありますか 文章 データ?

例えば:

In:「お元気ですか?」
out:['お元気ですか?'、 'お元気ですか?

役に立ちましたか?

解決

Googleスペルチェックデータなどのデータセットが必要です。 ウィーク付きエラーコーパス データセット。コーパスは、1,200万を超える文で構成されており、合計1400万のさまざまなタイプの編集があります。この編集には、スペルエラーの修正、文法エラー補正、スタイルの変更が含まれます。これらはすべて、ウィキペディアの修正履歴からです。データセットの所有者(著者)は、これのデータマイニングプロセスについて説明しています 論文. 。また、この質問を確認してください Quora スペルエラーを備えたさまざまなデータセットへのリンクが含まれています。最後にこれ ページ 便利なこともあります。

他のヒント

質問で言及したような特定の簡単なルールをコーディングできます。さらに、次のような知識ベースを使用できます フリーベースwordnet 言語モデルを豊かにする。これは必ずしもデータを「noisify」するわけではなく、下流タスクの画像に対するデータ増強の影響と同様の影響を与えることに注意してください。

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top