Domanda

data l'URL di una nota azienda (ad esempio http://mcdonalds.com/ ), come sarebbe automaticamente e in modo affidabile trovare il nome della società (in questo caso "Mc Donalds")?

Grazie

Edit: qualcuno ha votato per chiudere questo problema, quindi forse ho bisogno di spiegare la motivazione. Ho un grande elenco di URL aziendali e voglio trovare dati su ogni società utilizzando Google Maps. E la ricerca di Google Maps con il nome della società funziona molto meglio l'URL.

La rimozione 'http' e 'com' funziona in molti casi, in particolare per le aziende ben note, ma non tutti. Ho trovato i record whois non sono stati molto utili.

Speravo ci fosse una sorta di banca dati pubblica società a URL corrispondenti, ma non ho incontrato uno così lontano.

È stato utile?

Soluzione

Si avrebbe bisogno di creare il proprio tabella di ricerca: Si dovrebbe cercare di analizzare queste informazioni dal HTML all'URL per themost dati accurati, ad esempio:? Ottenere la pagina titolo HTML, o cercare il messaggio Copyright

Altri suggerimenti

Molto probabile avranno nell'elemento <title/>. Analizzare questo e confrontarlo con dominio del sito web. Se v'è una sovrapposizione significativa, è il tuo partner. In caso contrario, provare alcune euristiche sul titolo (come il nome è tutto prima >> o tali).

Se si tratta di una società più grande, allora si potrebbe anche essere fortunati guardando l'entrata NIC (aka Whois) per il loro dominio.

Whois banca dati può essere di qualche aiuto, anche se ci sono sempre margini casi che si dovrà gestire con più sforzo.

Se si vuole essere precisi, direi Mechanical Turk di Amazon.

Prova ad usare cURL e DOMDocument.

loadHTML ($ risultato);     $ Title = $ dom-> getElementsByTagName ( "titolo");     echo $ titolo-> item (0) -> nodeValue; ?>

Date un'occhiata al il meta tag

È possibile utilizzare il whois informazioni. Non ci dovrebbero essere le biblioteche a lasciartelo fare in modo pulito. Voi non ha ancora parlare di quello tipo di tecnologia che userete ...

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top