给定的一个众所周知的公司(例如 http://mcdonalds.com/ )的URL

,如何将您自动可靠地找到该公司的名称(在这种情况下,“麦Donalds”)?

由于

编辑:有人投票决定关闭这个问题,所以也许我需要解释的动机。我公司的URL的大名单,我想找到使用谷歌地图每家公司的数据。并与该公司名称搜索谷歌地图的工作比URL好得多。

删除“HTTP”和“COM”不工作在很多情况下,特别是知名企业,但不是全部。我发现WHOIS记录不是非常有帮助。

我希望有某种公共数据库匹配公司的网址,而是跨越一个到目前为止还没有到来。

有帮助吗?

解决方案

您需要创建自己的查找表:你将不得不尝试在URL解析从HTML此信息themost准确的数据,如:获取HTML页面的标题,或查找版权信息

其他提示

很可能它们将具有它在<title/>元件。解析这个并将其与该网站的域名。如果有显著的重叠,这是你的对手。如果没有,请尝试在标题一些启发式(如名称为>>或前等一切)。

如果这是一家大公司,那么你也可以幸运地看到在NIC条目(又名域名注册)为他们的域名。

域名注册数据库可能会有所帮助,但总有一些边缘,你将有更多的办案努力。

如果你想准确的,我会说亚马逊的Mechanical Turk。

尝试使用卷曲和DOM文档。

loadHTML($结果);     $标题= $ dom->的getElementsByTagName( “标题”);     回声$标题 - >项(0) - >的nodeValue; ?>

在元标记看看

您可以使用的whois信息。应该有图书馆让你做,在一个干净的方式。你没有提到你会使用什么类型的技术......

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top