Frage

angesichts der URL eines bekannten Unternehmens (zB http://mcdonalds.com/ ), wie würde Sie automatisch und zuverlässig die Firmennamen (in diesem Fall „Mc Donalds“)?

finden

Danke

Edit: jemand gestimmt, diese Frage zu schließen, vielleicht muss ich die Motivation erklären. Ich habe eine große Liste von Unternehmen URLs und ich möchte Daten über die einzelnen Unternehmen zu finden, mit Google Maps. Und die Suche Google Maps mit dem Firmennamen funktioniert viel besser als die URL an.

Entfernen von ‚http‘ und ‚com‘ funktioniert in vielen Fällen, vor allem für namhafte Unternehmen, aber nicht alle. Ich fand die Whois-Aufzeichnungen nicht sehr hilfreich waren.

Ich habe gehofft, eine Art öffentlichen Datenbank gibt es Unternehmen URLs übereinstimmt, sondern über eine bisher nicht gekommen.

War es hilfreich?

Lösung

Sie müßten Ihre eigene Lookup-Tabelle erstellen: Sie müßten versuchen, diese Informationen aus dem HTML unter der URL für themost genaue Daten, zum Beispiel zu analysieren: Holen Sie sich den HTML-Seite Titel, oder suchen Sie die Copyright-Meldung

Andere Tipps

sehr wahrscheinlich, sie werden es im <title/> Elemente. Parse diese und vergleichen Sie es mit der Domäne der Website. Wenn es eine signifikante Überlappung ist, ist es Ihr Spiel. Wenn nicht, versuchen einige Heuristiken auf den Titel (wie Name alles vor >> oder so ist).

Wenn es ein größeres Unternehmen ist, dann könnte man auch das Glück, an dem NIC-Eintrag suchen (aka Whois) für ihre Domäne.

Whois Datenbank eine Hilfe sein kann, obwohl es immer wieder Fälle Kante, die Sie mit mehr müssen handhaben Aufwand.

Wenn Sie genau sein wollen, würde ich sagen, Amazon Mechanical Turk.

Versuchen Sie cURL und DOMDocument zu verwenden.

loadhtml ($ result);     $ Title = $ Dom-> getElementsByTagName ( "title");     echo $ Titel-> Artikel (0) -> nodeValue; ?>

Werfen Sie einen Blick auf dem Meta-Tag

könnten Sie verwenden die whois Informationen. Es sollte Bibliotheken sein, damit Sie tun, dass in einer sauberen Art und Weise. Sie didnt erwähnen, welche Art von Technologie, die Sie verwenden werden ...

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top