c # .net4 - пакет обновления regex vs html

c# html-agility-pack memory regex

Вопрос

Что быстрее? Я просто создал веб-скребок, который использует пакет гибкости HTML, и он потребляет огромное количество памяти.

Профилировав его профилировщиком памяти, я обнаружил, что экземпляры HTMLDocument, HTMLNode и т. Д. Занимают больше всего объема памяти.

Мне кажется, что было бы быстрее и эффективнее использовать регулярное выражение, я не прав?

Принятый ответ

Reg-ex будет намного быстрее, чем html agilty pack.

Но вы должны помнить, что html не всегда должен быть хорошо сформирован. Поиск правильных данных, которые вы хотите использовать только с помощью reg-ex, может завершиться неудачей. Браузеры очень прощают ошибки.

Пакет гибкости - отличный инструмент. Он обеспечивает множество функций для этой памяти, которую он потребляет.


Популярные ответы

В зависимости от того, что именно вы делаете, действительно можно было бы ускорить процесс и освободить некоторый mem, используя регулярное выражение. Вопрос в том, насколько жесткими и хорошо сформированными являются страницы, из которых вы извлекаете данные. Regex гораздо легче смущает совершенно корректными, но неожиданными конструкциями HTML, которые вы можете встретить в дикой природе.



Related

Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow
Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow