Frage

Ist dort ein Algorithmisch Ansatz zur Ermittlung der in einem Absatz angegebenen Daten korrelieren mit bestimmten Ereignissen (Phrasen) im Absatz?

Beim Beispiel betrachten Sie den folgenden Absatz:

Im Juni 1970 legte der große Führer den Eid ab. Aber erst nach Mai 1972 übernahm er nach dem Tod des Außenministers die Zügel des Landes. Während er bis Mitte 1980 die Unterstützung der Bevölkerung genoss, begann sein Einfluss danach zu fallen.

Gibt es einen Algorithmus (deterministisch oder stochastisch)#, der ein 2-Tupel (Datum, Ereignis) erzeugen kann, wobei die Veranstaltung wird im Absatz impliziert, um auf dem aufgetreten zu sein Datum? Im obigen Fall:

  • (Juni 1970, Great Leader nahm Eid)
  • (Mai 1972, übernahm die Zügel)

    oder noch besser

  • (Mai 1972, der große Anführer übernahm die Zügel)
  • (1980, Einflusssturz)

#Later Addition

War es hilfreich?

Lösung

Im Allgemeinen wird das Problem der Identifizierung von Daten und anderen zeitlichen Markierungen im Text als Problem von bezeichnet Extrahieren zeitlicher Referenzen. Die verknüpfte Suche führt Sie zu Papieren, die sich darauf beziehen.

Andere Tipps

Da Sie um einen algorithmischen Ansatz bitten, werde ich so hartnäckig sein wie ein Algorithmus. Es tut mir leid, diese Frage so zu behandeln, aber da sie kein komplexes theoretisches Problem erscheint, werde ich die möglichen Ansätze synthetisieren.

Frage: Können Sie mir eine algorithmische Definition eines Datums und eines bestimmten Ereignisses geben?

Falls Sie können: Da Ihre Definition algorithmisch ist, dann ist dies wahrscheinlich eine Art von Art von formelle Grammatik, und Ihr Problem wird es sein, diese Grammatik einzustellen, um jeden Fall zu fangen, den Sie berücksichtigen müssen. (Ich bin interessiert, wenn Sie mir eine genaue Definition geben können, die nicht eine formelle Grammatik)

Wenn Sie nicht können: Dann können Sie zumindest Beispiele finden. Alles klar dann. Der Beste - und nur ich kann mir vorstellen - sind Algorithmen für maschinelles Lernen, die Sie trainieren müssen, um Ihre Daten und dann Ihre Veranstaltungen zu erkennen. (Mit einem Korpus von von Hand kommentierten Sätzen) Dies ist jedoch im Vergleich zu einem großen handgemachten Regexp, der wahrscheinlich den Job erledigen wird, ziemlich überdurchschnittlich. Wenn Sie es wirklich, wirklich wollen, denke ich, dass die effizienteste diese Art von Regexp als Parameter für den Lernalgorithmus sein wird, aber Sie fragen bessere Lernexperten.

Viel Glück damit, es ist viel einfacher, nur darüber zu sprechen (in beiden Fällen).

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit cs.stackexchange
scroll top