我想编写一些算法或解析器,它应该在谷歌搜索结果中获得站点位置。问题是每次谷歌页面布局都会改变我应该更正/更改算法。你怎么认为男人会经常改变?有关于确定Google网站位置的任何技巧/建议/窍门吗?
如何制作稳健的位置检测算法?
我想为此目的使用C#,.NET 2.0和HtmlAgilityPack。任何建议或建议将非常感谢。先谢谢你,伙计们!
POST更新
我知道谷歌会显示验证码以防止机器查询。我得到了特殊的服务,这将识别任何验证码。你能告诉我你在精确刮擦结果方面的经验吗?
一年前我问了这个问题并得到了一些好的答案。绝对是Agility Pack的出路。
最后,我们做了代码粗略刮刀,其所做的工作,并没有任何问题跑了。我们相对轻松地打击谷歌(每天约25次查询)。我们采取了随机预防措施1)订单和2)时间和3)查询之间暂停的时间。我不知道是否有任何帮助,但我们从来没有被验证码击中。
我们现在不打扰它了。
它的主要弱点是:
我们只打算检查第一页(我们可能已经编写了一个增强版本,该版本查看了前X页,但可能会有更高的风险 - 就Google被检测到而言)。
它的结果不可靠并且跳了起来。你可以连续几周每周排名第8,除了你第三次随机的一天。也许......仔细阅读每日或每周阅读并记录我们的排名的整个想法太缺陷了
要回答你关于谷歌破坏你的代码的问题:谷歌在我们运行它的所有月份都没有进行根本性的改变,但他们改变了一些东西 ,打破了我们保存结果的“快照”(可能是CSS改变?)没有做任何事情来提高结果的可信度。