HtmlAgilityPack을 사용하여 구문 분석 된 HTML에서 모든 클래스 및 ID 제거

c# html html-agility-pack

문제

일부 HTML 페이지를 구문 분석하기 위해 HtmlAgilityPack 을 사용합니다.이 페이지에서 html 태그를 추출합니다.

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

반환 된 HTML에서 각 태그에는 클래스와 ID가 포함되어 있습니다. 모든 ID와 모든 클래스를 제거하려면 어떻게해야합니까?

수락 된 답변

어쩌면이 링크 : link를 확인해야 합니다 .

내가 할 수있는 한 HtmlNode가있을 때 속성 속성을 사용할 수 있음을 알립니다. 이 컬렉션에는 제거 할 속성의 이름을받는 Remove (문자열) 메서드가 있습니다. 글쎄, 한 작은 프로젝트에서 이렇게 사용했다. 이게 도움이 될지 모르겠습니다.

그래서 기본적으로:

HtmlNode bodyContent = document.DocumentNode.SelectSingleNode("//body");
var all_text = bodyContent.SelectNodes("//div | //ul | //p | //table");

foreach(var node in all_text)
{
   node.Attributes.Remove("class");
   node.Attributes.Remove("id");
} 



아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.