URL에서 회사 이름을 찾으십시오

https://stackoverflow.com/questions/1707725

19-09-2019
|

문제

잘 알려진 회사의 URL을 감안할 때 (예 : http://mcdonalds.com/), 회사 이름 (이 경우 "MC Donalds")을 어떻게 자동으로 안정적으로 찾을 수 있습니까?

감사

편집 : 누군가 가이 질문을 마무리하기로 투표 했으므로 동기를 설명해야 할 수도 있습니다. 회사 URL 목록이 많으며 Google지도를 사용하여 각 회사에 대한 데이터를 찾고 싶습니다. 회사 이름으로 Google지도를 검색하는 것이 URL보다 훨씬 잘 작동합니다.

'http'및 'com'을 제거하는 것은 많은 경우, 특히 잘 알려진 회사에서는 효과가 있지만 전부는 아닙니다. 나는 Whois 기록이 그다지 도움이되지 않는다는 것을 알았습니다.

나는 회사를 URL과 일치시키는 일종의 공개 데이터베이스가 있기를 바랐지만 지금까지는 오지 않았습니다.

해결책

자신의 조회 테이블을 만들어야합니다. 정확한 데이터에 대한 URL에서 HTML 에서이 정보를 구문 분석해야합니다. 예 : HTML 페이지 제목을 가져 오거나 저작권 메시지를 찾으십니까?

다른 팁

그들은 그것을 가질 가능성이 높습니다 <title/> 요소. 이것을 구문 분석하고 웹 사이트의 도메인과 비교하십시오. 중복이 중복되면, 그것은 당신의 일치입니다. 그렇지 않다면 제목에 대한 휴리스틱을 사용해보십시오 (이름은 Everything Everything 이전 >> 또는 그런).

그것이 대기업이라면, 당신은 또한 그들의 도메인에 대한 NIC 항목 (일명 Whois)을보고 운이 좋을 수도 있습니다.

우스 데이터베이스는 약간의 도움이 될 수 있지만, 더 많은 노력으로 처리 해야하는 가장자리 사례가 항상 있습니다.

당신이 정확하고 싶다면 아마존 기계식 터크라고 말할 것입니다.

컬과 domdocument를 사용하십시오.

loadhtml ($ result); $ title = $ dom-> getElementsByTagName ( "title"); echo $ title-> item (0)-> nodevalue; ?>

메타 태그를 살펴보십시오

당신은 사용할 수 있습니다 우스 정보. 깨끗한 방식으로 그렇게 할 수있는 라이브러리가 있어야합니다. 당신은 어떤 유형의 기술을 사용할 것인지 언급하지 않았습니다 ...

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow