Вопрос

учитывая URL-адрес хорошо известной компании (например http://mcdonalds.com/), как бы вы автоматически и надежно нашли название компании (в данном случае "Mc Donalds")?

Спасибо

Редактировать:кто-то проголосовал за закрытие этого вопроса, так что, возможно, мне нужно объяснить мотивацию.У меня есть большой список URL-адресов компаний, и я хочу найти данные о каждой компании с помощью Google Maps.А поиск в Google Maps по названию компании работает намного лучше, чем по URL.

Удаление "http" и "com" работает во многих случаях, особенно для известных компаний, но не для всех.Я обнаружил, что записи whois оказались не очень полезными.

Я надеялся, что существует какая-то общедоступная база данных, сопоставляющая компании с URL-адресами, но пока ни с одной не сталкивался.

Это было полезно?

Решение

Вам нужно будет создать свою собственную таблицу подстановки:Вам нужно было бы попытаться проанализировать эту информацию из html по URL для получения наиболее точных данных, например:получить заголовок Html-страницы или поискать сообщение об авторских правах?

Другие советы

Вполне вероятно, что они получат это в <title/> элемент.Проанализируйте это и сравните с доменом веб-сайта.Если есть значительное совпадение, это ваше совпадение.Если нет, попробуйте применить некоторые эвристические методы к названию (например, название - это все, что было раньше >> или что-то подобное).

Если это более крупная компания, то вам также может повезти, если вы посмотрите запись NIC (она же Whois) для их домена.

Whois база данных может оказать некоторую помощь, хотя всегда есть крайние случаи, с которыми вам придется обращаться с большими усилиями.

Если вы хотите быть точным, я бы сказал, amazon mechanical turk.

Попробуйте использовать cURL и DOMDocument.

loadHTML($result);$title = $dom->getElementsByTagName("заголовок");echo $title-> элемент (0)-> Значение узла;?>

Взгляните на мета-тег

Вы могли бы использовать whois Информация.Должны существовать библиотеки, позволяющие вам делать это чистым способом.Вы не упомянули, какой тип технологии вы будете использовать...

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top