Je suis un programmeur .NET. J'ai besoin de travailler sur un projet de raclage Web. Je veux avoir une idée sur HTMLAgilityPack vs BeautifulSoup.
Beaucoup de gens disent que BeautifulSoup est bien meilleur que HTMLAgilityPack. Mais pour cela, je dois apprendre le python.
Ma question est la suivante: est-il raisonnable pour moi d’apprendre Python et BeautifulSoup ou de continuer avec C # et HTMLAgilityPack?
Toute autre suggestion est la bienvenue.
Dans le monde C # .NET, je recommanderais HTMLAgilityPack car il est très flexible. Il vous permet de manipuler du HTML mal formé comme s'il s'agissait d'un XML bien formé. Vous pouvez donc utiliser XPath ou simplement itérer sur des nœuds.
BeautifulSoup est un excellent moyen de supprimer le code HTML, mais du point de vue des développeurs, il n’est pas facile de se familiariser avec une technologie totalement nouvelle. Je recommanderais donc vivement HTMLAgilityPack si vous êtes un gars de .NET.
Vous pouvez obtenir un grand succès avec la combinaison de HTML Agility Pack , d'expressions régulières et de XDocument (LINQ -> XMLy stuff)
C'est extrêmement puissant - LINQ et lambda (partie 3) - HTML Agility Pack est un post de blog de Vijay Santhanam qui m'a séduit.
CsQuery , une bibliothèque que j'ai créée, est une alternative relativement nouvelle à Html Agility Pack. Il offre les avantages suivants:
Désavantages:
Vous pouvez l'obtenir à partir de nuget: Install-Package CsQuery
.