HtmlAgilityPack en train de lire les données d'une page HTML

c# html-agility-pack

Question

J'essaie d'obtenir des données d'une table HTML à l'aide du pack d'agilité HTML, mais je ne reçois que les données de la première ligne du tableau.

Le code html que je lis est le suivant:

<div id="mainDiv">
    <table id="tbl">
        <thead>
            <tr>
                <th class="tbl_col1">UserName</th>
                <th class="tbl_col2">Points</th>
            </tr>
        </thead>
        <tbody>     
          <tr data-source="provider1">
            <td class="tbl_col1">
                <a href="/Users/1090" id="UserLink" target="_blank">UserName1</a>           
            </td>
            <td class="tbl_col2">
                <a href="/UserPoints/1090" id="PointLink" target="_blank">1892 <span class="up_arrow">&nbsp;</span></a>             
            </td>           
          </tr>
          <tr data-source="provider2">
            <td class="tbl_col1">
                <a href="/Users/1090" id="UserLink" target="_blank">UserName2</a>           
            </td>
            <td class="tbl_col2">
                <a href="/UserPoints/1090" id="PointLink" target="_blank">3217 <span class="down_arrow">&nbsp;</span></a>               
            </td>           
         </tr>
        </tbody>
    </table>
</div>  

J'utilise ce code

var UserTable = htmlDocument.DocumentNode.SelectSingleNode("//div[@id='mainDiv']").SelectSingleNode("//table[@id='tbl']").SelectSingleNode("//tbody").SelectNodes("//tr");
foreach (var row in UserTable)
{
    if (row.Attributes["data-source"] != null)
    {
        string Source = row.Attributes["data-source"].Value;
        string UserName = row.SelectSingleNode("td[@class='tbl_col1']").SelectSingleNode("//a[@id='UserLink']/text()").InnerText;
        string Points = row.SelectSingleNode("td[@class='tbl_col2']").SelectSingleNode("//a[@id='PointLink']/text()").InnerText;
        Console.WriteLine(Source + "\t" + UserName + "\t" + Points);
    }
}

Mais je continue à recevoir cette sortie:

provider1       UserName1       1892
provider2       UserName1       1892

Réponse acceptée

Vous avez posé des hypothèses erronées: //a[@id='UserLink']/text() et //a[@id='PointLink']/text() effectue une recherche dans le document entier. C'est pourquoi vous obtenez le premier noeud tr . Il suffit d'utiliser:

string UserName = row.SelectSingleNode("td[@class='tbl_col1']/a[@id='UserLink']/text()").InnerText;
string Points = row.SelectSingleNode("td[@class='tbl_col2']/a[@id='PointLink']/text()").InnerText;

Aussi, vous pouvez vraiment simplifier le reste de votre code:

var UserTable = doc.DocumentNode.SelectNodes("//div[@id='mainDiv']/table[@id='tbl']/tbody/tr");
foreach (var row in UserTable)
{
    if (row.Attributes["data-source"] != null)
    {
        string Source = row.Attributes["data-source"].Value;
        string UserName = row.SelectSingleNode("td[@class='tbl_col1']/a[@id='UserLink']/text()").InnerText;
        string Points = row.SelectSingleNode("td[@class='tbl_col2']/a[@id='PointLink']/text()").InnerText;
        Console.WriteLine(Source + "\t" + UserName + "\t" + Points);
    }
}


Related

Sous licence: CC-BY-SA with attribution
Non affilié à Stack Overflow
Sous licence: CC-BY-SA with attribution
Non affilié à Stack Overflow