XPath에서 HtmlAgilityPack으로 "src"값을 선택하십시오.

c# html-agility-pack xpath

문제

나는 크롤링 엔진의 개발 과정에 있습니다. 내 프로그램은 Xpath를 통해 HtmlAgilityPack으로 웹 사이트를 크롤링합니다. 이미지 src 태그를 직접 가져와야합니다. 아래에서 내 간단한 코드가 올바르게 작동하지 않는 것을 볼 수 있습니다. 조언을 주셔서 감사합니다!

추신 : "char 문제를 무시하십시오, XPath 패턴은 데이터베이스에 의해 제공됩니다.

Agility.DocumentNode.SelectSingleNode("//img[@id="product_photo"]/@src");

그리고 이것은 내가 기어 가기 위해 필요로하는 선입니다. ( *...* 부분은 추출 할 블록을 보여줍니다.

Agility.DocumentNode.SelectSingleNode("//img[@id="product_photo"]/@src");

일부 페이지는 메타 태그로 이미지를 제공하므로 .Attributes["src"] 작동하지 않습니다.

업데이트 : 내 쿼리 및 결과를 여기에서 볼 수 있습니다. 질문

인기 답변

당신은 "src"또는 다른 속성 값을 다음과 같이 사용할 수 없습니다 :

Agility.DocumentNode.SelectSingleNode(yourXpath);

사용하는 것만 으로 :

Agility.DocumentNode.SelectSingleNode(yourXpath);

그것은 XPath가 HtmlAgilityPack 클래스의 SelectSingleNode () func에 의해 속성의 값을 반환 할 수 없기 때문입니다. 따라서 SelectSingleNode(yourXpath).value 사용하거나 파싱 후에 Regex를 사용하여 outerText없이 "src"만 가져와야합니다.




아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.