C #에서 "HTML 민첩성 팩"으로 HTML로 분류되지 않은 구문 분석

.net c# html html-agility-pack web-scraping

문제

HTML Agility Pack을 사용하여 HTML 문서의 태그가없는 텍스트를 구문 분석하려고합니다. 다음 HTML은 내가 처리 할 HTML 구조의 예제이고 마지막 div 아래의 텍스트는 추출 할 텍스트의 예입니다. ( "나는 팔고있다 ..."로 시작하여 "... 서비스 또는 제안"으로 끝남)

<div class="mapbox">
    <div id="map" class="viewposting" data-latitude="32.965732" data-longitude="-96.882528" data-accuracy="22"></div>
    
    <p class="mapaddress">
        <small>
        (<a target="_blank" href="https://maps.google.com/maps/preview/@32.965732,-96.882528,16z">google map</a>)
        </small>
    </p>
</div>
    <p class="attrgroup">

            <span><b>2012 jeep grand cherokee laredo</b></span>
            <br>
    </p>
    <p class="attrgroup">
            <span>VIN: <b>ask me</b></span>
            <br>
            <span>condition: <b>excellent</b></span>
            <br>
            <span>cylinders: <b>6 cylinders</b></span>
            <br>
            <span>drive: <b>rwd</b></span>
            <br>
            <span>fuel: <b>gas</b></span>
            <br>
            <span>odometer: <b>98000</b></span>
            <br>
            <span>title status: <b>clean</b></span>
            <br>

            <span>transmission: <b>automatic</b></span>
            <br>

    </p>
    
        <div class="print-information print-qrcode-container">
            <p class="print-qrcode-label">QR Code Link to This Post</p>
            <div class="print-qrcode" data-location="east"></div>
        </div>
I am selling my 2012 Jeep Grand Cherokee. The Jeep runs and drives great. Zero issues. Always been well maintained and serviced on time. Very dependable car has never left me stranded. Very healthy. Everything works like it should. This Grand Cherokee would make a great family car or First car.<br>
<br>
*3.6 V6 <br>
*Automatic Transmission <br>
*98,000 Original Miles<br>
*Leather and Heated Seats<br>
*Navigation<br>
*Back Up Camera <br>
*Good Tires<br>
*Cold A/C Hot Heater <br>
*Clean Texas Title<br>
*Clean Carfax<br>
Much More!!<br>
<br>
Call or Text me for anymore information. <br>
 <a href="/fb/dal/cto/6620220745" class="showcontact" title="click to show contact info" rel="nofollow">show contact info</a>
    
            <li>do NOT contact me with unsolicited services or offers</li>

아무도 이걸하는 방법을 말해 줄 수 있습니까? .NET에서 HTML 민첩성 팩을 사용하여 텍스트를 추출하는 방법은 무엇입니까?

미리 감사드립니다.

수락 된 답변

문서를로드 한 후 xpath를 사용하여 특정 노드 다음의 텍스트를 선택하십시오.

const string xpath = "//div[@class='print-information print-qrcode-container']/following-sibling::text()[1]";
string text = doc.DocumentNode.SelectSingleNode(xpath).InnerText;

보고:

내 2012 지프 그랜드 체로키를 팔고 있습니다. 지프는 달리고 중대하게 운전합니다. 제로 문제. 언제나 잘 관리되고 정시에 서비스되었습니다. 매우 신뢰할 수있는 자동차는 나를 좌초시키지 않았다. 굉장히 건강한. 모든 것이 제대로 작동합니다. 이 그랜드 체로키는 훌륭한 가족 용 자동차 또는 첫 번째 자동차를 만들 것입니다.

그리고 visca catalunya!



아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.