Ich verwende das Html Agility Pack und erhalte diesen Fehler. "Der Remote-Server hat einen Fehler zurückgegeben: (500) Interner Serverfehler." auf bestimmten Seiten.
Jetzt bin ich nicht sicher, was das ist, da ich Firefox verwenden kann, um zu diesen Seiten ohne irgendwelche Probleme zu kommen.
Ich habe das Gefühl, dass die Website selbst blockiert und keine Antwort sendet. Gibt es eine Möglichkeit, wie ich meinen HTML-Agility-Pack-Anruf mehr wie einen Anruf machen kann, der von FireFox aufgerufen wird?
Ich habe bereits einen Timer eingestellt, so dass er nur alle 20 Sekunden auf die Website sendet.
Gibt es eine andere Methode, die ich verwenden kann?
Legen Sie einen User-Agent fest , der einem normalen Browser ähnelt. Ein Benutzeragent ist ein HTTP-Header, der vom HTTP-Client (Browser) übergeben wird, um sich gegenüber dem Server zu identifizieren.
Es gibt viele Möglichkeiten, wie Server Scraping erkennen können und es ist nur ein Wettrüsten zwischen dem Scraper und dem Scrapee (?), Je nachdem, wie schlecht der eine oder andere auf Daten zugreifen will. Einige der Dinge, die Ihnen helfen, unentdeckt zu bleiben, sind:
Auch hier könnte die Liste weitergehen, je nachdem, wie anspruchsvoll das Server-Setup ist.