encontrar o nome da empresa na URL
-
19-09-2019 - |
Pergunta
dada a URL de uma empresa bem conhecida (por exemplo http://mcdonalds.com/ ), como seria você automaticamente e de forma confiável encontrar o nome da empresa (neste caso, "Mc Donalds")?
Graças
Edit: alguém votou para fechar esta pergunta, talvez por isso eu preciso explicar a motivação. Eu tenho uma grande lista de URLs empresa e eu quero encontrar dados sobre cada empresa usando o Google Maps. E pesquisar o Google Maps com o nome da empresa funciona muito melhor do que a URL.
A remoção 'http' e 'com' funciona em muitos casos, particularmente para empresas bem conhecidas, mas não todos. Eu encontrei os registros Whois não foram muito úteis.
Eu estava esperando que houvesse algum tipo de empresas correspondentes de bancos de dados públicos para URLs, mas não se deparar com um até agora.
Solução
Você precisa criar sua própria tabela de pesquisa: Você teria que tentar e analisar essas informações do html no URL para themost dados precisos, por exemplo:? Obter a página Título Html, ou olhar para a mensagem de Copyright
Outras dicas
bastante provável que eles vão tê-lo no elemento <title/>
. Analisar isso e compará-lo ao domínio do site. Se há uma sobreposição significativa, é o seu jogo. Se não, tente algumas heurísticas sobre o título (como o nome é tudo antes >>
ou tal).
Se for uma grande empresa, então você pode também ter sorte olhando para a entrada NIC (aka Whois) para o seu domínio.
Whois banco de dados pode ser de alguma ajuda, embora há sempre casos extremos que você terá que lidar com com mais esforço.
Se você quiser ser preciso, eu diria amazon Mechanical Turk.
Tente usar cURL e DOMDocument.
loadHTML ($ resultado); $ Title = $ dom-> getElementsByTagName ( "título"); echo $ epígrafe> item (0) -> nodeValue; ?>Veja a meta tag
Você pode usar o href="http://whois.org/" rel="nofollow noreferrer"> Whois . Deve haver bibliotecas para deixá-lo fazer isso de uma forma limpa. Voc no mencionar o tipo de tecnologia que você vai usar ...