c # .net4 - 정규식 대 html 민첩성 팩

c# html-agility-pack memory regex

문제

뭐가 더 빠릅니까? 방금 HTML 민첩성 팩을 사용하는 웹 스크래퍼를 만들었고 엄청난 양의 메모리를 소비했습니다.

메모리 프로파일 러를 사용하여 프로파일 링하면 HTMLDocument, HTMLNode 등 인스턴스가 가장 많은 양의 메모리를 차지하는 것으로 나타났습니다.

아마 더 빠르고 더 정규식을 사용하는 것이 좋을 것 같은데, 틀렸어?

수락 된 답변

reg-ex는 html 애질런트 팩보다 훨씬 빠릅니다.

그러나 html이 항상 잘 형성되어있을 필요는 없음을 기억해야합니다. reg-ex 만 사용하여 올바른 데이터를 검색하는 데 실패 할 수 있습니다. 브라우저는 실수에 대해 매우 용서하고 있습니다.

민첩성 팩은 훌륭한 도구입니다. 그것은 소비하고있는 메모리에 많은 기능을 제공합니다.


인기 답변

정확히 무엇을 하느냐에 따라 일을 빠르게하고 정규 표현식을 사용하여 mem을 비우는 것이 가능할 수 있습니다. 문제는 데이터를 추출하는 페이지가 얼마나 강건하고 잘 형성되어 있는지입니다. Regex는 완벽하게 유효하지만 예기치 않은 HTML 구조로 인해 쉽게 혼동 될 수 있습니다.




아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.