컨텐츠가 잘못된 웹 페이지를 긁는 데 문제가 있습니다

https://stackoverflow.com/questions/1908378

19-09-2019
|

문제

나는 다음에 위치한 페이지를 긁어 내기 위해 htmlagilitypack 라이브러리를 사용하는 c# 코드를 작성했습니다. 세계 최대의 도시 지역 (2 페이지). 불행히도 페이지는 기형 콘텐츠로 구성됩니다.

나는이 페이지를 긁어내는 방법에 대한 곤경에 처해있다. 내가 가지고있는 현재 코드 (아래에 나타난)는 HTML을 구문 분석 할 때 얼립니다.

 HtmlNodeCollection cityRecords = _htmlDocument.DocumentNode.SelectNodes("//table[@class='boldtable']//tr[position() != 1]");
 CityNodes = (from node in cityRecords.Descendants()
              where node.Name == "td"
              select node).ToList();

목표는 각 데이터 포인트와 함께 페이지에 나열된 각 도시를 구문 분석하는 것입니다. 더 이상 아무것도. 위의 코드를 수정하거나 자유롭게 사용 가능한 다른 라이브러리를 사용하는 방법에 대한 권장 사항을 찾고 있습니다.

감사!

해결책

구문 분석하기 전에 HTML Tidy를 통해 컨텐츠를 실행하십시오.

http://tidy.sourceforge.net/

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow