c#.net4 - 正規表現対htmlアジリティパック

c# html-agility-pack memory regex

質問

早いのは何ですか?私はちょうどHTMLアジリティパックを使用している大量のメモリを消費するWebスクレーパーを作った。

メモリプロファイラーでプロファイリングすると、HTMLDocument、HTMLNodeなどのインスタンスが大量のメモリーを占めていることがわかりました。

私はおそらくより速く、より効率的な正規表現を使用するように感じる、私は間違っていますか?

受け入れられた回答

reg-exはhtmlアジリティーパックよりもずっと高速になります。

しかし、htmlは必ずしも整形式である必要はないことを覚えておく必要があります。 reg-exだけを使用して、正しいデータを検索すると失敗することがあります。ブラウザは間違いを非常に寛容にしています。

アジリティパックは素晴らしいツールです。それは消費しているそのメモリのための多くの機能を提供します。


人気のある回答

あなたが正確に何をするかに応じて、物事をスピードアップし、正規表現を使用してmemを解放することが可能です。問題は、データを抽出しているページがどれだけ堅牢で整形式であるかです。 Regexは、あなたが野生で遭遇する可能性のある完全に有効な、しかし予期せぬHTML構造によって、はるかに簡単に混乱します。




ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ
ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ