NLP: Gebäude (small) Korpora, oder „Wo viele nicht allzu spezialisiert englischsprachige Textdateien bekommen?“

https://stackoverflow.com/questions/137380

02-07-2019
|

Frage

Hat jemand einen Vorschlag für wo Archive oder Sammlungen des täglichen englischen Textes für die Verwendung in einem kleinen Korpus zu finden? Ich habe für einen funktionierenden Prototyp Gutenberg-Projekt Bücher wurde verwendet und möchte mehr zeitgenössische Sprache integrieren. Ein letzte Antwort hier darauf indirekt zu einem großen Archiv von usenet-Filmberichte , die mir nicht vorgekommen war, und ist sehr gut. Für dieses spezielle Programm technische direkte Download-Archive oder Programmierung Mailinglisten würde die Ergebnisse kippen und schwer zu analysieren, aber jede Art von allgemeinem Blog-Text, oder Chat-Protokolle, oder alles, was für andere nützlich gewesen sein mag, wäre sehr hilfreich. Auch ein teilweise oder herunterladbare Forschung Korpus, der nicht zu stark ausgeprägt-up oder eine Heuristik für eine geeignete Untergruppe von Wikipedia-Artikeln zu finden, oder jeder anderen Idee wird sehr geschätzt.

(BTW, ich bin ein guter Bürger w / r / t Herunterladen, ein absichtlich langsam Skript verwenden, die nicht auf Servern Hosting Materials verlangt, für den Fall wahrnehmen Sie eine moralische Gefahr Zeige mir etwas enorm.)

UPDATE : User S0rin darauf hinweist, dass wikipedia Anfragen kein Crawling und bietet das Export-Tool statt. Project Gutenberg hat eine Richtlinie angegeben hier , unterm Strich, versuchen Sie nicht zu kriechen, aber wenn Sie müssen: „Konfigurieren Sie Ihren Roboter mindestens 2 Sekunden zwischen den Anfragen warten“

UPDATE 2 Die Wikpedia Deponien sind der Weg zu gehen, dank den Beantworter, die sie hingewiesen. Ich landete mit der englischen Version von hier: http://download.wikimedia.org/enwiki/20090306 / , und eine spanische Dump etwa halb so groß. Sie sind einige Arbeit zu reinigen, aber es lohnt sich, und sie enthalten eine Menge nützlicher Daten in den Links.

Lösung

Verwenden Sie die Wikipedia-Dumps
- braucht viel Bereinigung
Prüfen Sie, ob alles in nltk-Daten hilft
- die Corpora sind in der Regel recht klein
Wacky Menschen einige freie Corpora haben
- markiert
- Sie können Ihren eigenen Korpus mit ihrem Toolkit
Europarl ist kostenlos und die Basis so ziemlich jedes akademische MT-System
- gesprochene Sprache, übersetzt
Die Reuters Corpora sind kostenlos, aber nur auf der CD

Sie können jederzeit Ihre eigenen, aber seien Sie gewarnt: HTML-Seiten müssen oft schwere Bereinigung, so beschränken sich auf RSS-Feeds

Wenn Sie dies kommerziell zu tun, die LDC könnte eine brauchbare Alternative sein.

Andere Tipps

Wikipedia klingt wie die Art und Weise zu gehen. Es gibt eine experimentelle Wikipedia API , die von Nutzen sein könnte, aber ich habe keine Ahnung, wie Es klappt. Bisher habe ich nur gekratzt Wikipedia mit benutzerdefinierten Spinnen oder sogar wget.

Dann könnten Sie für die Seiten suchen, die ihren vollständigen Artikeltext in RSS-Feeds anbieten. RSS-Feeds, weil keine HTML-Tags erhalten im Weg.

Scraping Mailinglisten und / oder das Usenet hat mehr disatvantages. Sie AOLbonics und im Jargon der Wissenschaft würden immer, und das wird schlecht Ihren Korpus kippen

Die klassischen Corpora sind die Penn Treebank und der British National Corpus, aber sie sind bezahlt. Sie können die Corpora Listenarchive lesen, oder sie sogar fragen. Vielleicht finden Sie nützliche Daten finden mit dem Web als Corpus Tools.

Ich habe eigentlich ein kleines Projekt im Bau, die linguistische Verarbeitung auf beliebigen Web-Seiten ermöglicht. Es sollte für den Einsatz in den nächsten Wochen fertig sein, aber es ist bisher nicht wirklich bedeutet ein Schaber zu sein. Aber ich konnte ein Modul für sie schreiben, ich denke, die Funktionalität ist schon da.

Wenn Sie bereit sind, Geld zu zahlen, sollten Sie die Daten auf dem Linguistic Data Consortium überprüfen, wie die Penn Treebank.

Wikipedia scheint der beste Weg zu sein. Ja würden Sie die Ausgabe analysieren müssen. Aber dank wikipedias Kategorien könnte man leicht verschiedene Arten von Artikeln und Worten bekommen. z.B. alle Wissenschaft Kategorien durch Parsen könnten Sie viel Wissenschaft Worte bekommen. Einzelheiten zu den Orten, die in Richtung geographische Namen verzerrt werden, etc.

Sie haben die offensichtlichen bedeckt. Die einzigen anderen Bereiche, die ich von zu ergänzen denken kann:

1) Neue Nachrichten / Blogs.

2) Zeitschriften sind eine Menge kostenlosen Material veröffentlichen online, und Sie können einen guten Querschnitt von Themen erhalten.

Mit Blick auf die wikipedia Daten Ich bemerkte, dass sie eine Analyse gemacht hatte auf Leichen von tv und Film-Skripte . Ich dachte, das könnte interessant Text aber nicht leicht zugänglich - es stellt sich heraus, es ist überall, und es ist strukturiert und vorhersehbar genug, dass es möglich sein sollte, reinigen Sie es nach oben. Diese Seite „hilfreich Ein Bündel von Film-Skripte und Drehbücher in einem Ort auf dem‚Netz betitelte “, wäre wohl sinnvoll sein, für jeden, der mit einer ähnlichen Frage auf diesen Thread stolpert.

Sie können die Notierungen Inhalt erhalten (in begrenzten Form) hier: http://quotationsbook.com/services/

Dieser Inhalt geschieht auch auf Freebase sein.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow