Comment puis-je obtenir le lien et le contenu de tr avec HtmlAgilityPack?

c# html-agility-pack html-parsing parsing

Question

J'utilise ce code pour obtenir la source HTML de l'URL avec HtmlAgilityPack:

private string GetUrlSource(string urlAddress)
        {
            string content = string.Empty;
            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(urlAddress);
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            if (response.StatusCode == HttpStatusCode.OK)
            {
                Stream receiveStream = response.GetResponseStream();
                StreamReader readStream = null;
                if (response.CharacterSet == null)
                    readStream = new StreamReader(receiveStream);
                else
                    readStream = new StreamReader(receiveStream, Encoding.GetEncoding(response.CharacterSet));
                content = readStream.ReadToEnd();
                response.Close();
                readStream.Close();
            }
            return content;
        }

Ensuite, utilisez ce code pour obtenir des données:

                var source = GetUrlSource(urlAddress);
                var htmlDoc = new HtmlAgilityPack.HtmlDocument();
                htmlDoc.LoadHtml(source);
var nodes = htmlDoc.DocumentNode.SelectNodes("//div[@class='linear-view']/table/tr/td");

et mon résultat pour les nœuds sont:

<tr>
  <th>Title</th>
  <th>Publisher</th>
</tr>
<tr>
  <td><a href="http://link1.com" id="14.4">Title1</a></td>
  <td>Publisher1</td>
</tr>
<tr>
  <td><a href="http://link2.com" id="12.0">Title2</a></td>
  <td>Publisher2</td>
</tr>
<tr>
  <td><a href="http://link3.com/" id="84.4">Title3</a></td>
  <td>Publisher3</td>
</tr>

J'utilise ce code pour obtenir des données:

foreach (var node in nodes)
                {
                    HtmlNodeCollection rows = node.SelectNodes(".//a");
                    if (rows != null)
                    {
                        for (int j = 0; j < rows.Count; ++j)
                        {
                            var link = rows[j].Attributes["href"].Value;
                            var title = rows[j].InnerText;
                        }
                    }
                    else
                    {
                        var publisher = node.InnerText;
                    }
                }

Comment puis-je obtenir le lien, le titre et l'éditeur de chaque tag tr sans si & else? par exemple: http://link1.com , Title1 , Publisher1 et http://link2.com , Title2 , Publisher2 et http://link3.com , Title3 , Publisher3

Réponse acceptée

Une des nombreuses manières possibles:

//select <tr> having child node <td>
var tr = doc.DocumentNode.SelectNodes("//div[@class='linear-view']/table/tr[td]");
foreach (HtmlNode node in tr)
{
    //select <td> having child node <a>
    var td1 = node.SelectSingleNode("./td[a]"); //or using index: ./td[1]
    var link = td1.FirstChild.Attributes["href"].Value;
    var title = td1.InnerText;
    //select <td> not having child node <a>
    var publisher = node.SelectSingleNode("./td[not(a)]") //using index: ./td[2]
                        .InnerText;
}


Sous licence: CC-BY-SA with attribution
Non affilié à Stack Overflow
Est-ce KB légal? Oui, apprenez pourquoi
Sous licence: CC-BY-SA with attribution
Non affilié à Stack Overflow
Est-ce KB légal? Oui, apprenez pourquoi