Comment gratter un site flash?

c# flash html-agility-pack web-crawler web-scraping

Question

Nous utilisons Html Agility Pack pour collecter des données pour un site HTML; y at-il une DLL comme Html Agility Pack pour gratter le site flash?

Réponse populaire

Cela dépend vraiment du site que vous essayez de supprimer. Il existe deux types de sites à cet égard:

  • Si le site contient les données dans le fichier swf, vous devrez alors décompiler le fichier swf et lire les données qu'il contient. avec assez de travail, vous pouvez probablement le faire par programme. Toutefois, si tel est le cas, il pourrait être plus facile de simplement rassembler les données manuellement, car elles ne vont probablement pas beaucoup changer.

  • Si la plupart des cas cependant, en particulier avec des sites contenant beaucoup de données, le fichier flash contacte en réalité une API externe. Dans ce cas, vous pouvez simplement ignorer le flash et accéder directement à l'API. Si vous n'êtes pas sûr, activez simplement le panneau réseau de Firebug et commencez à naviguer. Si vous utilisez une API externe, cela devrait devenir évident.
    Une fois que vous avez trouvé cette API, vous pouvez probablement faire de l'ingénierie inverse pour la manipuler afin de vous fournir toutes les données dont vous avez besoin.

Notez également que si le site est assez grand, il existe probablement des méthodes non flash pour accéder aux mêmes données:

  • Il peut avoir un site mobile (sans flash) - essayez d’accéder au site avec un agent utilisateur iPhone.
  • Il pourrait avoir un site pour les robots d'exploration (comme googlebot) - essayez d'accéder au site avec un agent utilisateur googlebot.

ÉDITER: si vous parlez d’analyser (crawling, c’est d’obtenir des données d’un site quelconque) plutôt que de récupérer (obtenir des données structurées d’un site spécifique), vous ne pouvez pas grand-chose, même Google ne lise pas le contenu Flash. Principalement parce que contrairement au HTML, le flash n'a pas de syntaxe standardisée qui permet de dire immédiatement ce qu'est un texte, ce qu'est un lien, etc.



Sous licence: CC-BY-SA with attribution
Non affilié à Stack Overflow
Est-ce KB légal? Oui, apprenez pourquoi
Sous licence: CC-BY-SA with attribution
Non affilié à Stack Overflow
Est-ce KB légal? Oui, apprenez pourquoi