Frage

Die deutsche Webseite nandoo.net bietet die Möglichkeit, einen Artikel zu verkürzen. Wenn Sie den Prozentwert mit einem Schieberegler ändern, der Text ändert und einige Sätze ausgelassen werden.

Sie können das hier in Aktion sehen:

  

http://www.nandoo.net/read/article/299925/

Die Meldung ist auf der linken Seite und Tags markiert sind. Der Schieber ist auf der Oberseite der zweiten Säule. Je mehr Sie den Regler nach links bewegen, desto kürzer wird der Text.

Wie kann man so etwas anbieten? Gibt es Algorithmen, die Sie verwenden können, um das zu erreichen?

Meine Idee war, dass ihr Algorithmus, um die Anzahl von Tags und Substantiven in einem Satz zählt. Dann werden die Sätze mit geringsten Anzahl von Tags / Substantive sind außen vor.

Könnte das wahr sein? Oder Sie noch eine andere Idee?

Ich hoffe, dass Sie mir helfen können. Vielen Dank im Voraus!

War es hilfreich?

Lösung

In der Regel wollen Sie die Sätze halten, die Worte, die zu diesem Artikel mehr eindeutig sind.

Das heißt, je mehr „generic“ der Satz ist, desto weniger wird es diesen besonderen Artikel beschreibt.

Der normale Weg, dies zu tun ist Bayes Analyse ähnlich wie ein Spam-Filter. Zuerst bestimmen, welche Wörter in der gesamten Artikel erscheinen häufiger als man erwarten würde, dann die Sätze finden, die diese Wörter kennzeichnen.

Andere Tipps

Dies ist ein heißes Forschungsthema in der Computerlinguistik. Der flache Ansatz, Bayes-Filter verwendet wird, ist nicht wahrscheinlich, perfekte Ergebnisse zu erzielen -. Aber Sie wahrscheinlich nicht brauchen, perfekte Ergebnisse sowieso

In CL, die 80-20 Regel schnell wird die 95-5-Regel, so dass, wenn Sie zufrieden sind mit dem, was Sie durch seichtes Methode erreichen können, überspringen Sie diese Antwort.

Wenn Sie möchten, um zu sehen, ob Sie sich auf Ihre Ergebnisse verbessern können, können Sie versuchen, einige bessere Ressourcen zu finden. Die Aufgabe, die Sie sich beziehen, ist ‚Textzusammenfassung‘ in der Forschungsgemeinschaft genannt, und es hat seine eigene Webseite rel="nofollow das ist hoffnungslos veraltet. Mani und Maybury (1999) ist wahrscheinlich eine gute Übersicht (ich habe es nicht gelesen, mich), aber auch ziemlich veraltet. Neuere ist Martin Hassels Dissertation zum Thema und auch ziemlich erschöpfend, einschließlich sprachunabhängig (sprich: statistisch, dh flach). Methoden

Wie immer wird Google in der Lage sein, Ihnen zu helfen, auch. Suchen Sie einfach nach Textzusammenfassungs rel="nofollow.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top