Не удалось определить XPath в HtmlAgilityPack

c# html-agility-pack xpath

Вопрос

Я пытаюсь обойти создание первого приложения C # (которое может сделать больше, чем просто сказать «Hello world»),

теперь в html-файле было много тегов (но у них было всего два h4-тега, которые приведены ниже.), но вот часть, которая меня интересует:

<table width="100%" height="400" border="0" align="center" cellpadding="0" cellspacing="0" bordercolor="#111111" background="images/page_bg.gif" style="BORDER-COLLAPSE: collapse">

<tbody valign="top">
<tr>
<td>

<table width="80%" border="0" valign=top background="images/page_bg.gif">
 <tr>
 <td>

  <div align="center">
   <h4 align="center">
      <font face="Verdana, Arial, Helvetica, sans-serif" size="2">
      <b>
      <font size="4" face="Arial, Helvetica, sans-serif">
      UNWANTED TEXT
       </font></b></font></h4>

  <p><br />
  Name  :  {NAME HERE} <br>Number : {NUMBERS HERE}<br>Number2 : {NUMBERS2}<br><br><h4>UNWANTED TEXT</h4><br>detail NO.  :  <span class=style7>{NUmbers3}</span><br><br><a href=http://test.xom>UNWANTED TEXT</a><br><br>                    
  </p>
  <p class="content"><em><strong>
  <p>&nbsp;</p>

Я хочу получить NAME, Numbers1, Numbers2, Numbers3, Итак, я думаю, я должен сделать что-то вроде этого =

 //div[@align = "centre"]/h4/followingsibling::Text();

но, конечно, это неполно, любые идеи о том, как я должен это делать, я получил Xpath из firebug: /html/body/table/tbody/tr[2]/td/table/tbody/tr/td/table/tbody/tr[2]/td/div/table/tbody/tr/td/table/tbody/tr/td/div/h4

я также пробовал делать (для того, чтобы сначала получить исходные данные, а затем обрезать их дальше)

 HtmlNodeCollection node = doc.DocumentNode.SelectNodes("//table[@height='400']//div[@align='centre']"//p);
            foreach(HtmlNode node1 in node)    
                textBox1.Text += node1.InnerText;

Но узел здесь передается как NULL. Любая помощь приветствуется.

Принятый ответ

Firefox добавляет тег tbody в таблицу (в исходном html этот тег может отсутствовать). Поэтому я бы предложил не писать весь путь, найти наиболее характерный путь и использовать //. Например, // div [@ class = 'data'] / table // tr / td


Популярные ответы

Вы заметили, что у вас есть @align="centre" но HTML имеет align="center" (как, например, английское и американское правописание)?



Related

Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow
Лицензировано согласно: CC-BY-SA with attribution
Не связан с Stack Overflow