Frage

Ich suche nach einem Korpus von Text über einige Versuchsvolltext-Stil Datensuche auszuführen. Entweder etwas, das ich herunterladen kann, oder ein System, das es erzeugt. Etwas ein bisschen mehr zufällig wäre besser, z.B. 1.000.000 wikipedia Artikel in einem Format einfach in eine 2-Säule Datenbank einzufügen (id, Text).

Irgendwelche Ideen oder Anregungen?

War es hilfreich?

Lösung

Ich werde dies dort werfen, da ich vertraut bin mit ihm - Prosper.com macht ihr Mitglied entliehen werden Inserate für die Analyse über einen XML-Export . Der Export würde etwa 50.000 Kreditanträge mit Beschreibungen haben und über 1 Millionen Mitgliederprofilen (obwohl viele von denen sind leer).

Andere Tipps

Projekt Gutenberg hat 32.000 Bücher zur Verfügung.

Edit: Ab sofort (17.06.16) gibt es 52.284 eBooks kostenlos zum Download als Textdatei in UTF-8 in einer Vielzahl von Themen (Von der Wissenschaft zur Religion). Auch in den Formaten EPUB, Kindle oder HTML-Format. Überprüfen Sie hier Projekt Gutenberg

Warum nicht verwenden, um eine Wikipedia-Dump ?

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top