Tag-Generierung aus einem kleinen Text-Inhalt (wie tweets)

https://stackoverflow.com/questions/2764116

02-10-2019
|

Frage

Ich habe schon gefragt, eine ähnliche Frage früher aber ich habe notcied dass ich habe große constrain: ich arbeite an kleine Textsätze suchs als Benutzer Tweets Tags (Stichworte) zu erzeugen

Und es scheint, wie die akzeptierte Vorschlag (punktweisen gegenseitigen Information Algorithmus) zur Arbeit auf größere Dokumente gemeint ist.

Mit diesem constrain (auf kleinen Satz von Texten arbeiten), wie kann ich Tags generieren?

Viele Grüße

Lösung

zweistufiger Ansatz für Mehrwort-Tags

Sie könnten bündeln alle die Tweets in einem einzigen größeren Dokument und extrahieren Sie die n interessanteste Collocationen aus der ganzen Sammlung von Tweets. Sie könnten dann gehen Sie zurück und Tag jeden Tweet mit den Kollokations, die in ihm auftreten. Mit diesem Ansatz n würde die Gesamtzahl der Mehrwort-Tags, die für den gesamten Datensatz erzeugt werden würde.

Für die erste Stufe, könnten Sie die NLTK Code verwenden hier gepostet . Die zweite Stufe kann mit nur einem einfachen for-Schleife über alle Tweets erreicht werden. Allerdings, wenn die Geschwindigkeit wichtig ist, könnten Sie PyLucene , um schnell die Tweets zu finden, die jede Kollokations enthalten .

Tweet Ebene PMI für Einzelwort Tags

Wie auch hier vorgeschlagen , für Wort-Tags , können Sie die punktweisen gegenseitigen Information jedes einzelnen Wortes und den Tweet selbst berechnen könnte, dh

PMI(term, tweet) = log [ P(term, tweet) / (P(term)*P(tweet))

Auch dies wird Ihnen ungefähr sagen, wie viel weniger (oder mehr) überraschen Sie sind über den Begriff in dem spezifischen Dokument als appose stoßen sie in der größeren Sammlung zu kommen. Sie könnten den Tweet mit einem paar Begriffen dann markieren, die den höchsten PMI mit dem Tweet haben.

Allgemeine Änderungen für Tweets

Einige Änderungen möchten Sie vielleicht machen, wenn sie mit Tweets Tagging sind:

Verwenden Sie nur ein Wort oder Kollokations als Tag für einen Tweet, wenn es innerhalb einer bestimmten Anzahl oder den Prozentsatz der anderen Tweets auftritt . Andernfalls wird PMI-Tag Tweets mit ungeraden Terme neigt, die in nur einen tweet auftreten, aber das ist nirgendwo sonst zu sehen, zum Beispiel Rechtschreibfehler und Tastatur Lärm wie # @ $ # @ $% !.
Skalieren Sie die Anzahl der Tags mit der Länge eines jeden tweet verwendet. Sie könnten 2 oder 3 interessante Tags für mehr Tweets extrahieren können. Aber für eine kürzere 2 Wort tweet, werden Sie wahrscheinlich wollen nicht jedes einzelne Wort und Kollokations zu Tag verwenden es . Es ist wahrscheinlich wert mit unterschiedlichen Cut-offs für das Experimentieren, wie viele Tags, die Sie wollen die Tweet Länge gegeben zu extrahieren.

Andere Tipps

Ich habe ein Verfahren früher, für kleinen Textinhalt wie SMSes verwendet, wo ich die gleiche Zeile zweimal nur wiederholen. Überraschenderweise das funktioniert gut für solche Inhalte, wo ein Substantiv auch das Thema sein könnte. Ich meine, Sie brauchen es nicht zu wiederholen, denn es ist das Thema zu sein.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow