Frage

Ich schreibe einige Code, der bestimmte Statistiken über Wortverwendungen berechnet.

Wer weiß, wo ich eine Datenbank von rohen Nachrichtenartikel aus verschiedenen Themen über einen Zeitraum von (sagen wir) finden die im letzten Jahr? Vorzugsweise würden sie entweder im Textformat oder XML sein. Der Versuch, schabt Inhalt aus zufälligen Websites ist keine gute Option.

Ich weiß, geht nach vorn konnte ich wahrscheinlich sie selbst archivieren. Allerdings muß ich Kick, den Prozess mit einem Bündel von bestehenden Artikeln beginnen ... je mehr desto besser.

Jede andere Ideen für Korpusdaten-Sets, die leicht in einfachen Parse-Form sind auch anerkannt werden würde.

War es hilfreich?

Lösung

Sie könnten versuchen, die Internet Archive . Sie haben einen Textabschnitt, aber ich weiß nicht, ob es Nachrichten hat. Vielleicht haben Sie auch in der Lage von Hauptstelle Nachrichtenartikel zu ziehen ihre Wayback Maschine benutzen, um ihren RSS-Feeds verwendet wird.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top