如何從包含其他隱藏跨度的跨度獲取內部文本?

c# html html-agility-pack

我有一些測試html頁面

<!DOCTYPE html>
<html lang="en" xmlns="http://www.w3.org/1999/xhtml">
<head>
    <meta charset="utf-8" />
    <title>Page for test</title>
</head>
<body>
    <div class="r_tr">
        <span class="r_rs">Inner text<span class="otherSpan" style="display: none">text</span></span>
    </div>
</body>
</html>

我想得到“內心文字”。我正在使用HtmlAgilityPack。我寫這個方法

<!DOCTYPE html>
<html lang="en" xmlns="http://www.w3.org/1999/xhtml">
<head>
    <meta charset="utf-8" />
    <title>Page for test</title>
</head>
<body>
    <div class="r_tr">
        <span class="r_rs">Inner text<span class="otherSpan" style="display: none">text</span></span>
    </div>
</body>
</html>

但是這個方法返回“Inner texttext”。我寫了一些單元測試來解釋我的問題

<!DOCTYPE html>
<html lang="en" xmlns="http://www.w3.org/1999/xhtml">
<head>
    <meta charset="utf-8" />
    <title>Page for test</title>
</head>
<body>
    <div class="r_tr">
        <span class="r_rs">Inner text<span class="otherSpan" style="display: none">text</span></span>
    </div>
</body>
</html>

和結果

<!DOCTYPE html>
<html lang="en" xmlns="http://www.w3.org/1999/xhtml">
<head>
    <meta charset="utf-8" />
    <title>Page for test</title>
</head>
<body>
    <div class="r_tr">
        <span class="r_rs">Inner text<span class="otherSpan" style="display: none">text</span></span>
    </div>
</body>
</html>

一般承認的答案

我不知道XPath,但這裡是使用LINQ的解決方案:

String inner = (from x in doc.DocumentNode.Descendants()
                where x.Name == "span"
                && x.Attributes["class"].Value == "r_rs"
                select 
                      (from y in x.ChildNodes
                       where y.Name == "#text"
                       select y.InnerText).FirstOrDefault()
                ).FirstOrDefault();

熱門答案

首先,您的spanXPath不正確。 //在開頭意味著“從根開始”,因此row.SelectSingleNode(spanXPath)將始終在文檔中為第一個元素提供類r_rs ,而不是在行中。刪除//以解決此問題。

然後, text()是文本節點的XPath。您可以使用

var span = row.SelectSingleNode(spanXPath);
var textNode = span.SelectSingleNode("text()");
text = textNode.InnerText;
Console.WriteLine("textL {0}", text);

foreach循環中獲取所選範圍中的第一個文本節點。




許可下: CC-BY-SA with attribution
不隸屬於 Stack Overflow
這個KB合法嗎? 是的,了解原因
許可下: CC-BY-SA with attribution
不隸屬於 Stack Overflow
這個KB合法嗎? 是的,了解原因