HtmlAgilityPack 파일로드 중

c# html-agility-pack

문제

파일 시스템에서 파일을로드하려고 할 때 문제가 있습니다. 일부 HTML 컨트롤의 가치에서 스팬 값 내에 "<"기호보다 작음

HtmlDocument doc = new HtmlDocument();
doc.OptionReadEncoding = true;

//StreamReader str = new StreamReader(fileName, Encoding.UTF8);
StreamReader str = new StreamReader(@"E:\HTMLS\OEL\1030,1.html",Encoding.UTF8,true);

doc.Load(str.BaseStream, Encoding.ASCII);
//string streamString = str.ReadToEnd().
str.Close();
//all nodes

doc.DocumentNode.Descendants().Where(x => x.Name == "#text" && (x.InnerText == "\r\n\t" || x.InnerText == "\r\n" || x.InnerText == "\r\n\t\t")).ToList().ForEach(x => x.Remove());
List<HtmlNode> listHtmlNode = doc.DocumentNode.Descendants("table").ToList();

인기 답변

< 와 같은 기호는 HTML에 포함되어서는 안됩니다. 당신의 html에 html을 넣으면 html이 유효하지 않게되고 HTMLAgility 팩이 제대로 수행되지 않게됩니다.

html로 인코딩해야한다면 인코딩해야합니다. <%lt; 가됩니다 %lt; http://www.w3schools.com/html/html_entities.asp 여기를 참조하십시오 .




아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.