어떻게 동적으로 생성 된 웹 페이지를로드 할 수 있습니까?

c# data-scrubbing html html-agility-pack

문제

웹 페이지를로드하려고합니다. http://www.artstation.com/artist/nicotine 페이지를 스크럽 할 수 있습니다. 불행히도 페이지가 코드를 통해 생성 된 것 같습니다. 그래서 찾고있는 태그를 사용할 수 없습니다. .

다음과 같이로드하는 것은 작동하지 않습니다. 생성하는 내용이 아닌 소스 자바 스크립트 만로드하기 때문입니다.

HtmlWeb htmlWeb = new HtmlWeb();
imagepage = htmlWeb.Load(http://www.artstation.com/artist/nicotine);

태그를 제거 할 수 있도록 브라우저에 표시된 페이지를 페이지로로드하려면 어떻게해야합니까?

인기 답변

이 경우 HtmlAgilityPack을 사용할 수 없습니다. HAP이 서버에 페이지 파일을 제공하도록 요청할 때이 파일의 내용은 웹 브라우저에서 아직 파싱 / 실행되지 않았으므로 여기에있는 JavaScript는 아직 아무 것도하지 않았습니다.

이에 대한 해결 방법이 있습니다. 셀레늄 이나 팬텀 을 사용하여 동적으로 생성 된 태그의 내용을 가져올 수 있습니다. 이러한 도구는 브라우저 스택을 가지고 있으며 JavaScript를 실행합니다. 이처럼 많은 다른 도구와 많은 예제를 찾을 수 있습니다.




아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.