플래시 기반 사이트를 긁는 방법?

c# flash html-agility-pack web-crawler web-scraping

문제

우리는 HTML 기반 사이트에 대해 데이터를 긁어 내기 위해 Html Agility Pack 을 사용하고 있습니다. 플래시 기반 사이트를 다룰 수있는 HTML 민첩성 팩 과 같은 DLL이 있습니까?

인기 답변

그것은 정말로 당신이 스크랩하려고하는 사이트에 달려 있습니다. 이와 관련하여 두 가지 유형의 사이트가 있습니다.

  • 사이트에 swf 파일 내에 데이터가있는 경우 swf 파일을 디 컴파일하여 내부의 데이터를 읽어야합니다. 충분한 작업을 통해 프로그래밍 방식으로 수행 할 수 있습니다. 그러나이 경우 데이터를 수동으로 수집하는 것이 더 쉬울 수도 있습니다. 아마도 많은 부분을 변경하지 않을 것이기 때문입니다.

  • 그러나 대부분의 경우 특히 데이터가 많은 사이트의 경우 플래시 파일이 실제로 외부 API에 연결됩니다. 이 경우 플래시를 모두 무시하고 API에 직접 액세스 할 수 있습니다. 확실하지 않다면 Firebug의 넷 패널을 활성화하고 브라우징을 시작하십시오. 그것이 외부 api를 사용하는 경우에 그것은 분명하게되어야합니다.
    API를 찾으면 필요한 데이터를 제공하기 위해 API를 조작하는 방법을 리버스 엔지니어링 할 수 있습니다.

또한 충분히 큰 사이트 인 경우 동일한 데이터를 가져 오는 비 발광 방식이있을 수 있습니다.

  • 모바일 사이트 (플래시가없는)가있을 수 있습니다. iPhone 사용자 에이전트로 사이트에 액세스 해보십시오.
  • 크롤러 용 사이트 (예 : googlebot)가있을 수 있습니다. googlebot 사용자 에이전트로 사이트에 액세스 해보십시오.

편집 : 크롤링 (크롤링은 임의의 사이트에서 데이터를 가져 오는 것을 의미 함)에 대한 이야기가 아니라 (특정 사이트에서 구조화 된 데이터 가져 오기) 스크랩하면 Googlebot이 플래시 콘텐츠를 스크랩하지 않아도 할 수있는 일이 많지 않습니다. 주로 HTML과 달리 플래시에는 텍스트 란 무엇인지, 링크는 무엇인지 등을 즉시 알 수있는 표준화 된 구문이 없습니다.




아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.