컨텐츠가 잘못된 웹 페이지를 긁는 데 문제가 있습니다
-
19-09-2019 - |
문제
나는 다음에 위치한 페이지를 긁어 내기 위해 htmlagilitypack 라이브러리를 사용하는 c# 코드를 작성했습니다. 세계 최대의 도시 지역 (2 페이지). 불행히도 페이지는 기형 콘텐츠로 구성됩니다.
나는이 페이지를 긁어내는 방법에 대한 곤경에 처해있다. 내가 가지고있는 현재 코드 (아래에 나타난)는 HTML을 구문 분석 할 때 얼립니다.
HtmlNodeCollection cityRecords = _htmlDocument.DocumentNode.SelectNodes("//table[@class='boldtable']//tr[position() != 1]");
CityNodes = (from node in cityRecords.Descendants()
where node.Name == "td"
select node).ToList();
목표는 각 데이터 포인트와 함께 페이지에 나열된 각 도시를 구문 분석하는 것입니다. 더 이상 아무것도. 위의 코드를 수정하거나 자유롭게 사용 가능한 다른 라이브러리를 사용하는 방법에 대한 권장 사항을 찾고 있습니다.
감사!
해결책
구문 분석하기 전에 HTML Tidy를 통해 컨텐츠를 실행하십시오.
제휴하지 않습니다 StackOverflow