Google 검색 결과의 사이트 위치 얻기

.net c# google-search html-agility-pack parsing

문제

일부 알고리즘이나 파서가 Google 검색 결과에서 사이트 위치를 얻어야한다고 코딩하고 싶습니다. 문제는 Google 페이지 레이아웃이 변경되어 알고리즘을 수정 / 변경해야 할 때마다 발생합니다. 당신은 어떻게 생각하십니까? Google의 사이트 위치를 결정하는 데 필요한 기술 / 조언 / 트릭이 있습니까?

어떻게 강력한 위치 탐지 알고리즘을 만들 수 있습니까?

그 목적으로 C #, .NET 2.0 및 HtmlAgilityPack을 사용하고 싶습니다. 조언이나 제안은 매우 감사하겠습니다. 미리 감사드립니다, 얘들 아!


POST UPDATE

나는 구글이 머신 쿼리를 막기 위해 captcha를 보여줄 것이라는 것을 알고있다. 나는 특별한 서비스를 받았는데, 그것은 captcha를 인식 할 것이다. 너희들이 정확한 긁어 모으기에 대한 경험을 말해 줄 수 있니?

수락 된 답변

나는 1 년 전에 이것을 물었고 좋은 해답을 얻었습니다. 확실히 민첩성 팩은 갈 길입니다.

결국 우리 일을하고 아무런 문제없이 달려간 거친 긁는 도구를 작성했습니다. Google을 비교적 가볍게 치고있었습니다 (하루에 약 25 개의 검색어). 우리는 1) 질서와 2) 시간, 3) 질의 사이에 일시 중지 된 시간을 무작위로 선정하는 예방 조치를 취했다. 그게 도움이되는지는 모르겠지만 우리는 captcha에 맞지 않았습니다.

우리는 지금 그다지 신경 쓰지 않습니다.

그것의 주요 약점은 /이었다 :

  • 첫 번째 페이지를 확인하는 데 귀찮았을뿐입니다 (첫 번째 X 페이지를 보았던 향상된 버전을 코딩했을 수도 있지만 Google에서 감지하는 측면에서 위험 할 수 있습니다).

  • 그것의 결과는 신뢰할 수없고 뛰어 들었다. 당신이 3 일 때 무작위로 하루를 제외하고 당신은 매일 8 위가 될 수 있습니다. 아마도 ... 신중하게 일일 또는 주간 독서를하고 순위를 기록한다는 전체적인 생각은 너무 결함이 있습니다.

구글이 코드를 깨는에 대한 질문에 대답하기 : Google은 모든 개월 만에 근본적으로 주요 변경을하지 않았다 우리는 그것을 실행하지만 그들은 우리가 결과의 저장되었다 "스냅 샷"파산 뭔가 변경하는 (어쩌면 CSS 변경?) 결과의 신뢰성을 향상시키는 데는 아무 것도하지 않았다.


인기 답변

Google은 자신의 서비스에 액세스 할 수있는 많은 API 를 제공합니다. 검색에는 맞춤 검색 API가 있습니다.




아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.