Frage

Ich dachte an einen PHP-Skript zu schreiben, die eine CMS'd zum Inhalt (dh Datenbankfeld) und dann automatisch generieren (X) HTML META Beschreibung & Stichwort-Tags analysieren würden, aber wie immer gibt es keinen Punkt, das Rad neu zu erfinden, so ich frage mich, ob jemand von einem solchen Tierchen weiß?

Der ehemalige wäre ich vorstellen, so etwas wie eine relativ einfache regex den ersten Satz oder zwei, zu greifen, während die letztere wahrscheinlich-Dictionaries Beseitigung von Wörtern gegen eine gemeinsame Wörter beinhalten würde und dann Gewichtung der Frequenz oder ähnliches.

War es hilfreich?

Lösung

Die Probleme, die Sie erwägen, sind von zweierlei Art: eine der Keyword-Extraktion und einer der Dokumentzusammenfassungs. Die erste, die ich offensichtlich für Keywords hat einen sehr einfachen naiven Ansatz verwenden würde: das häufigste Wort in dem Inhalt auswählen, abzüglich alle Stoppwörter (dies in Wikipedia nachschlagen, wenn Sie nicht wissen, was diese sind). Es gibt viele weitere fortgeschrittene Methoden, einschließlich der Gewichtung für die Aufnahme von Synonymen, die Lage in Text oder Markup, und vieles mehr. Es gibt ein paar Beispiele für einfache Keyword-Extraktion Skripte in PHP Sie wahrscheinlich ohne Probleme umsetzen können. Google-Suche nur so etwas wie „PHP Stichwort Extraktion“ und Sie werden ein paar finden.

Das zweite Problem, auf der anderen Seite, ist ein wenig schwieriger, und ist immer noch die Quelle von vielen wissenschaftlichen Arbeiten. Sie würden Verdichtung für einen sehr gründlichen Meta-Description-Tag benötigen. Es kann eigentlich nicht wert Ihre Zeit, wenn Sie nicht für eine lange angelegte AI Projekt suchen, die noch als starre oder inkohärent kann sich lösen. Ein anderer Ansatz wäre einfach eine Heuristik, die Keyword-Extraktion verwendet: „Dieser Artikel ist über (ersten häufigste Schlüsselwort), (zweithäufigste Schlüsselwort) und (dritthäufigste Schlüsselwort).“ Sie sind zumindest immer den Vorteil der Montage in einigen Inhalten sowohl Schlüsselwort und Beschreibung. Wenn Sie möchten, dass es aufzurütteln, einige Synonyme stattdessen verwenden. Es ist ein semi-funktionalen PHP Implementierung von WordNet rel="nofollow, aber ich würde Outsourcing die vorschlagen Natural Language Toolkit für Python für das Heben schwerer Lasten gibt, wie die meiste Arbeit bereits erledigt ist.

Ich möchte einen kurzen Moment, um Ihre Forschung auf diesem Gebiet zu fördern und die naysaying von Herrn Warnica ignorieren. Meta-Informationen sind wichtig, sowohl für die Klassifizierung von Dokumenten und Extraktion von Informationen im Bereich der Suche. Es wäre nicht dumm, die Daten zu haben, und es ist in der Tat lohnt es für große Content-Management-Systeme zu automatisieren. Viel Glück mit Ihren Bemühungen.

Andere Tipps

Die Yahoo Pipes Begriff Extractor Modul tut etwas Ähnliches, was Sie wollen. Leider bin ich keine Kenntnis von der Quelle zu den Rohren Module offen ist.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top