Ich bin neu in Webscraping und versuche, Daten von einer Website mit HTMLAgilityPack mit ASP.NET C # zu erhalten. HTML-Struktur, die ich analysieren möchte, ist:
<li class='subsubnav' id='new-women-clothing'>
<span class='cat-name'>CLOTHING</span>
<ul>
<li><a href="/womenswear/womens-just-in" id="just-in">Just In</a></li>
<li><a href="/womenswear/new-season-exclusives" id="exclusives">Exclusives</a></li>
<li><a href="/womenswear/new-season-dresses" id="dresses-&-gowns">Dresses & Gowns</a></li>
<li><a href="/womenswear/new-season-coats" id="coats">Coats</a></li>
<li><a href="/womenswear/new-season-jackets" id="jackets">Jackets</a></li>
<li><a href="/womenswear/new-season-shirts-and-blouses" id="shirts-&-blouses">Shirts & Blouses</a></li>
<li><a href="/womenswear/new-season-tops" id="tops">Tops</a></li>
<li><a href="/womenswear/new-season-knitwear" id="knitwear">Knitwear</a></li>
<li><a href="/womenswear/new-season-sweatshirts" id="sweatshirts">Sweatshirts</a></li>
<li><a href="/womenswear/new-season-skirts-and-shorts" id="skirts-&-shorts">Skirts & Shorts</a></li>
<li><a href="/womenswear/new-season-trousers" id="trousers">Trousers</a></li>
<li><a href="/womenswear/new-season-jumpsuits" id="jumpsuits">Jumpsuits</a></li>
<li><a href="/womenswear/new-season-jeans" id="jeans">Jeans</a></li>
<li><a href="/womenswear/new-season-swimwear" id="swimwear">Swimwear</a></li>
<li><a href="/womenswear/new-season-lingerie" id="lingerie">Lingerie</a></li>
<li><a href="/womenswear/new-season-nightwear" id="nightwear">Nightwear</a></li>
<li><a href="/womenswear/sportswear" id="sportswear">Sportswear</a></li>
<li><a href="/womenswear/ski-wear" id="ski-wear">Ski Wear</a></li>
</ul>
</li>
Ich bekomme die Elternkategorien, die in diesem Fall KLEIDUNG ist perfekt, aber ich bin nicht in der Lage, Elemente in Ul.
hier ist mein c # code:
var html = new HtmlDocument();
html.LoadHtml(new WebClient().DownloadString("http://www.harrods.com/men/t-shirts?icid=megamenu_MW_clothing_t_shirts"));
var root = html.DocumentNode;
var nodes = root.Descendants();
var totalNodes = nodes.Count();
var dt = root.Descendants().Where(n => n.GetAttributeValue("class", "").Equals("cat-name"));
foreach(var x in dt)
{
foreach (var element in x.Descendants("ul"))
{
child_data.Add(new cat_childs(element.InnerText));
}
data.Add(new Categories(x.InnerText,child_data));
}
test.DataSource = data;
test.DataBind();
Wie kann ich den Link und den Text von Anchor-Tags innerhalb von <ul>
?
Wenn Sie die Iteration auf span
mit class='cat-name'
aufbauen wollen, dann folgt die Ziel- ul
Relation zum span
folgenden Geschwister anstelle des Nachkommens . Sie können mit SelectNodes()
zu folgenden Geschwisterelemente von Strom erhalten span
, etwa so:
foreach (var x in dt)
{
foreach (var element in x.SelectNodes("following-sibling::ul/li/a"))
{
child_data.Add(new cat_childs(element.InnerText));
}
data.Add(new Categories(x.InnerText,child_data));
}
UPDATE:
Es scheint, dass das eigentliche Problem darin liegt, dass die Variable child_data
außerhalb der äußeren Schleife deklariert wird. child_data
bedeutet, dass Sie child_data
zu derselben child_data
Instanz child_data
. Versuchen Sie, es innerhalb der äußeren Schleife zu deklarieren, direkt nach foreach (var x in dt){
. Alternativ können Sie die gesamten Codes als LINQ-Ausdruck schreiben, etwa so:
var data = (from d in dt
let child_data = x.SelectNodes("following-sibling::ul/li/a")
.Select(o => new cat_childs(o.InnerText))
.ToList()
select new Categories(x.InnerText, child_data)
).ToList();
Verwenden Sie diesen XPath. Es wird alle <li> erhalten, die eine <span> enthalten, die eine class = 'cat-name' hat. Danach wählt es alle <a> s aus, die von <li> eingeschlossen sind.
//If the span has no influence on what you want you can simply use:
//HtmlNodeCollection hNC = htmlDoc.DocumentNode.SelectNodes("//ul/li/a");
HtmlNodeCollection hNC = htmlDoc.DocumentNode.SelectNodes("//li/span[@class='cat-name']/parent::*/ul/li");
foreach (HtmlNode h in hNC)
{
Console.Write(h.InnerText+" ");
Console.WriteLine(h.GetAttributeValue("href", ""));
}