XPath在瀏覽器和HtmlAgilityPack中給出不同的結果

c# html-agility-pack xpath

我試圖在C#程序中使用HtmlAgilityPack解析網頁的一部分。以下是本部分的簡化版本(2015年1月30日下午2:40美國東部時間編輯):

<html>
    <body>
        <div id="main-box">
            <div>
                <div>...</div>
                <div>

                    <div class="other-classes row-box">
                        <div>...</div>
                        <div>...</div>
                        <div>
                            <p>
                                <a href="/some/other/path">
                                    <img src="/path/to/img" />
                                </a>
                            </p>
                            <p>
                                ...
                                <a href="/test/path?a=123">Correct</a> extra text
                            </p>
                        </div>
                        <div>
                            ...
                            <p>
                                <ul>
                                    ...
                                    <li>
                                        <span>
                                            <a href="/test/path?a=456&b=123">Never Selected</a>
                                            and <a href="/test/path?a=789">Never Selected</a>.
                                        </span>
                                    </li>
                                </ul>
                            </p>
                        </div>
                        ...
                    </div>

                    <div class="other-classes row-box">
                        <div>...</div>
                        <div>...</div>
                        <div>
                            <p>
                                No "a" tag this time
                            </p>
                        </div>
                        <div>
                            <p>
                                <ul>
                                    <li>
                                        <span>
                                            <span style="display:none;">
                                                <a href="/some/other/path">Never Selected</a>
                                            </span>
                                        </span>
                                    </li>
                                    <li>
                                        <span>
                                            <a href="/test/path?a=abc&b=123">Correct</a>
                                            and <a href="/test/path?a=def">Wrongly Selected</a>.
                                        </span>
                                    </li>
                                </ul>
                            </p>
                        </div>
                        ...
                    </div>

                    <div class="other-classes row-box">
                        <div>...</div>
                        <div>...</div>
                        <div>
                            <p>
                                <span>
                                    <a href="/test/path?a=ghi">Correct</a>
                                </span>
                            </p>
                            <p>
                                ...
                                <a href="/test/path?a=jkl">Wrongly Selected</a> extra text
                            </p>
                        </div>
                        <div>
                            <p>
                                <ul>
                                    ...
                                    <li>
                                        <span>
                                            <a href="/test/path?a=mno&b=123">Never Selected</a>
                                            and <a href="/test/path?a=pqr">Never Selected</a>.
                                        </span>
                                    </li>
                                </ul>
                            </p>
                        </div>
                        ...
                    </div>

                </div>
            </div>
        </div>
    </body>
</html>

我試圖獲得第一個也是唯一一個帶有GET參數“a”的第一個“a”標籤,每個div的第3個或第4個子div中帶有“row-box”類(帶有“Correct”一詞的那個)在上面的例子中)。我想出了以下XPath,它獲取了這些節點,並且只有Chrome的檢查器和Firefox的Firepath附加組件中的這些節點(包裝易讀性):

//div[@id="main-box"]/div/div[2]/div[contains(@class, "row-box")]/div[
  (position() = 3 or position() = 4) and descendant::a[
    contains(@href, "a=")
  ]
][1]/descendant::a[contains(@href, "a=")][1]

但是,當我使用HttpWebRequest加載此頁面時,將響應流加載到HtmlDocument對像中,並使用此XPath在其DocumentNode屬性上調用SelectNodes(xpath),它不僅返回三個正確的節點,還返回帶有文本的兩個標記上例中的“錯誤選擇”。我注意到這實際上就像我上面使用XPath一樣,除了沒有最後一個“[1]”,就像這樣(包裝易讀性):

//div[@id="main-box"]/div/div[2]/div[contains(@class, "row-box")]/div[
  (position() = 3 or position() = 4) and descendant::a[
    contains(@href, "a=")
  ]
][1]/descendant::a[contains(@href, "a=")]

我已經確定我正在使用最新版本的HtmlAgilityPack,在我的XPath上嘗試了幾種變體來確定它是否達到了一些任意的最大長度或類似的其他簡單問題,並嘗試研究類似的問題而沒有成功。我嘗試使用相同的基本概念將更簡單的HTML結構組合在一起進行測試,但無法重現該問題,因此我懷疑HtmlAgilityPack如何解析此結構中的某些內容可能是一個微妙的問題。

如果有人知道可能導致此問題的原因,或者有更好的方法來編寫將獲得正確節點的XPath表達式並希望不會導致HtmlAgilityPack出現問題,我將非常感激。

編輯

正如所建議的,這裡是我正在使用的C#代碼的簡化版本,我已經確認它可以為我重現問題。

using System;
using System.Net;
using HtmlAgilityPack;

...

static void Main(string[] args)
{
    string url = "http://www.deerso.com/test.html";
    string xpath = "//div[@id=\"main-box\"]/div/div[2]/div[contains(@class, \"row-box\")]/div[(position() = 3 or position() = 4) and descendant::a[contains(@href, \"a=\")]][1]/descendant::a[contains(@href, \"a=\")][1]";
    int statusCode;
    string htmlText;

    HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);

    request.Accept = "text/html,*/*";
    request.Proxy = new WebProxy();
    request.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:35.0) Gecko/20100101 Firefox/35.0";

    using (var response = (WebResponse)request.GetResponse())
    {
        statusCode = (int)((HttpWebResponse)response).StatusCode;
        using (var stream = response.GetResponseStream())
        {
            if (stream != null)
            {
                using (var reader = new System.IO.StreamReader(stream))
                {
                    htmlText = reader.ReadToEnd();
                }
            }
            else
            {
                Console.WriteLine("Request to '{0}' failed, response stream was null", url);
                htmlText = null;
                return;
            }
        }
    }

    HtmlNode.ElementsFlags.Remove("form"); //fix for forms
    HtmlDocument doc = new HtmlDocument();
    doc.LoadHtml(htmlText);

    HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes(xpath);

    foreach (HtmlNode node in nodes)
    {
        Console.WriteLine("Node Found:");
        Console.WriteLine("Text: {0}", node.InnerText);
        Console.WriteLine("Href: {0}", node.Attributes["href"].Value);
        Console.WriteLine();
    }

    Console.WriteLine("Done!");
}

熱門答案

基於更新的Html的新答案

我們不能使用//a[contains(@href,'a=')][1]過濾器,因為它是從其直接父項中選擇第一個<a>元素。

我們需要添加括號以在過濾器中包含後代運算符,即

(//a[contains(@href,'a=')])[1]

但是,如果我們擴展它以將第一個後代過濾器應用於另一個節點集中的每個節點,則生成的xpath表達式無效:

//div[contains(@class,'row-box')](//a[contains(@href,'a=')])[1]

我認為我們需要將其分為兩個步驟:

  1. 獲取包含我們想要的特定鏈接的div元素組。
  2. 從該組中的每個元素獲取第一個後代鏈接元素

在C#中,這看起來像:

// Get the <div> elements we know are ancestors to the <a> elements we want
HtmlNodeCollection topDivs = doc.DocumentNode.SelectNodes("//a[contains(@href,'?a=')]/ancestor::div[contains(@class,'row-box')]");

// Create a new list to hold the <a> elements
List<HtmlNode> linksWeWant = new List<HtmlNode>(topDivs.Count)

// Iterate through the <div> elements and get the first descendant
foreach(var div in topDivs)
{
    linksWeWant.Add(div.SelectSingleNode("(//a[contains(@href,'?a=')])[1]"));
}

老答案

使用此頁面作為指導我將xpath表達式放在一起:

當我在HtmlAgilityPack中運行它時,我只返回這三個元素:

<a href = "/test/path?a=123">
<a href = "/test/path?a=abc&b=123">
<a href = "/test/path?a=ghi">

這是表達式的細分:

//div[contains(@class,'row-box')]        -> Get nodeset of <div class="*row-box*"> elements
/descendant::a                           -> From here get all descendant <a> elements
[contains(@href,'a=') and position()=1]  -> Filter according to href value and element being the first descendant

我相信你問題中xpath的關鍵區別是/descendant::a[contains(@href,'a=') and position()=1] vs /descendant::a[contains(@href,'a=')][1] 。分別應用[1]是作為第一個孩子而不是第一個孩子過濾。




許可下: CC-BY-SA with attribution
不隸屬於 Stack Overflow
這個KB合法嗎? 是的,了解原因
許可下: CC-BY-SA with attribution
不隸屬於 Stack Overflow
這個KB合法嗎? 是的,了解原因