NLP:(小規模な) コーパスの構築、または「専門的ではない英語のテキスト ファイルを大量にどこで入手できますか?」

StackOverflow https://stackoverflow.com/questions/137380

  •  02-07-2019
  •  | 
  •  

質問

小さなコーパスで使用するための日常英語テキストのアーカイブまたはコレクションをどこで見つけるかについて提案がある人はいますか?私はグーテンベルク プロジェクトの書籍を実用的なプロトタイプに使用してきましたが、より現代的な言語を取り入れたいと考えています。あ 最近の答え ここで間接的に偉大なことを指しました usenet の映画レビューのアーカイブ, 、私には思いつかなかった、そして非常に良いです。この特定のプログラムの場合、技術的なユースネット アーカイブやプログラミング メーリング リストは結果に偏りがあり、分析するのが困難ですが、一般的なブログのテキストやチャットのトランスクリプト、または他の人にとって役立つ可能性のあるものであれば、非常に役立ちます。また、あまりマークアップされていない部分的またはダウンロード可能なリサーチ コーパス、またはウィキペディア記事の適切なサブセットを見つけるためのヒューリスティック、またはその他のアイデアも非常に高く評価されます。

(ところで、私が何か巨大なものを指摘することでモラルハザードが生じると思われる場合に備えて、私はダウンロードをせず、そのような素材をホストするサーバーに負荷をかけない意図的に遅いスクリプトを使用して、善良な市民をしています。)

アップデート:ユーザー S0rin は、ウィキペディアがクロールを要求しておらず、 このエクスポートツール その代わり。プロジェクト Gutenberg にはポリシーが指定されています ここ, 結論から言うと、クロールはしないようにしてください。ただし、必要な場合は次のことを行ってください。「リクエスト間で少なくとも 2 秒待機するようにロボットを設定します。」

更新 2 指摘してくれた回答者のおかげで、ウィクペディアのダンプが最適です。結局、ここから英語版を使用しました。 http://download.wikimedia.org/enwiki/20090306/ 、そしてスペインのダンプは約半分の大きさです。クリーンアップする必要はありますが、それだけの価値はあり、リンクには有用なデータがたくさん含まれています。


役に立ちましたか?

解決

  • Wikipediaダンプを使用します
    • 多くのクリーンアップが必要
  • nltk-data の内容が役立つかどうかを確認する
    • コーパスは通常非常に小さい
  • Wacky には無料のコーパスがあります
    • タグ付き
    • ツールキットを使用して独自のコーパスをスパイダーできます
  • Europarl は無料であり、ほとんどすべての学術MTシステムの基礎となっています。
    • 話し言葉、翻訳済み
  • Reuters Corpora は無料ですが、CDでのみ利用可能です

いつでも独自のものを入手できますが、注意してください。HTMLページは頻繁にクリーンアップする必要があるため、RSSフィードに制限してください。

これを商業的に行う場合、 LDC が実行可能な代替手段になる可能性があります。

他のヒント

ウィキペディアは進むべき道のように聞こえます。 実験的なウィキペディアAPI がありますが、どのように役立つかわかりませんできます。これまでは、カスタムスパイダーまたは wget を使用してWikipediaのみをスクレイピングしました。

その後、RSSフィードで記事の全文を提供するページを検索できます。 RSS。HTMLタグが邪魔にならないため。

メーリングリストやUsenetをスクレイピングすると、いくつかの欠点があります。AOLbonicsとTechspeakを取得することになり、コーパスがひどく傾きます。

古典的なコーパスは、ペンツリーバンクとイギリス国立コーパスですが、支払われます。 コーポラリストアーカイブを読むか、質問することもできます。おそらく、 Web as Corpus ツールを使用して有用なデータを見つけることができます。

実際には、任意のWebページでの言語処理を可能にする小さなプロジェクトを構築しています。今後数週間以内に使用できるようになるはずですが、これまでのところ、実際にはスクレーパーを意味するものではありません。しかし、そのためのモジュールを書くことはできたと思います。機能はすでにそこにあると思います。

支払いを希望する場合は、ペンツリーバンクなどの言語データコンソーシアムで利用可能なデータを確認してください。

ウィキペディアが最善の方法のようです。はい、出力を解析する必要があります。しかし、ウィキペディアのカテゴリのおかげで、さまざまな種類の記事や単語を簡単に入手できます。例えばすべての科学カテゴリを解析することにより、多くの科学用語を取得できます。場所に関する詳細は、地理的な名前などに偏っています。

あなたは明らかなものをカバーしました。私が考えることができる他の唯一の領域は補足しすぎます:

1)ニュース記事/ブログ。

2)雑誌は多くの無料の資料をオンラインで投稿しています。トピックの適切な断面を取得できます。

ウィキペディアのデータを調べてみると、彼らが行っていたことに気づきました。 テレビや映画の脚本の本文に関する分析. 。興味深いテキストかもしれないと思いましたが、すぐにアクセスできるものではありませんでした。実際、テキストはどこにでもあり、構造化されており、十分に予測可能であるため、クリーンアップすることは可能です。 このサイト, 、「ネット上の 1 つの場所にある映画の脚本と脚本の束」という分かりやすいタイトルのこの記事は、同様の質問でこのスレッドに出会った人にとっておそらく役立つでしょう。

ここで引用コンテンツを入手できます(制限付き形式): http://quotationsbook.com/services/

このコンテンツは、たまたまFreebaseにあります。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top