ブラウザとHtmlAgilityPackで異なる結果を出すXPath

c# html-agility-pack xpath

質問

私は、C#プログラムでHtmlAgilityPackを使用してWebページのセクションを解析しようとしています。以下は、このページのこのセクションの簡略化されたバージョンです(編集日2012年1月30日午後2時40分EST)。

<html>
    <body>
        <div id="main-box">
            <div>
                <div>...</div>
                <div>

                    <div class="other-classes row-box">
                        <div>...</div>
                        <div>...</div>
                        <div>
                            <p>
                                <a href="/some/other/path">
                                    <img src="/path/to/img" />
                                </a>
                            </p>
                            <p>
                                ...
                                <a href="/test/path?a=123">Correct</a> extra text
                            </p>
                        </div>
                        <div>
                            ...
                            <p>
                                <ul>
                                    ...
                                    <li>
                                        <span>
                                            <a href="/test/path?a=456&b=123">Never Selected</a>
                                            and <a href="/test/path?a=789">Never Selected</a>.
                                        </span>
                                    </li>
                                </ul>
                            </p>
                        </div>
                        ...
                    </div>

                    <div class="other-classes row-box">
                        <div>...</div>
                        <div>...</div>
                        <div>
                            <p>
                                No "a" tag this time
                            </p>
                        </div>
                        <div>
                            <p>
                                <ul>
                                    <li>
                                        <span>
                                            <span style="display:none;">
                                                <a href="/some/other/path">Never Selected</a>
                                            </span>
                                        </span>
                                    </li>
                                    <li>
                                        <span>
                                            <a href="/test/path?a=abc&b=123">Correct</a>
                                            and <a href="/test/path?a=def">Wrongly Selected</a>.
                                        </span>
                                    </li>
                                </ul>
                            </p>
                        </div>
                        ...
                    </div>

                    <div class="other-classes row-box">
                        <div>...</div>
                        <div>...</div>
                        <div>
                            <p>
                                <span>
                                    <a href="/test/path?a=ghi">Correct</a>
                                </span>
                            </p>
                            <p>
                                ...
                                <a href="/test/path?a=jkl">Wrongly Selected</a> extra text
                            </p>
                        </div>
                        <div>
                            <p>
                                <ul>
                                    ...
                                    <li>
                                        <span>
                                            <a href="/test/path?a=mno&b=123">Never Selected</a>
                                            and <a href="/test/path?a=pqr">Never Selected</a>.
                                        </span>
                                    </li>
                                </ul>
                            </p>
                        </div>
                        ...
                    </div>

                </div>
            </div>
        </div>
    </body>
</html>

私は最初の "a"タグをGETパラメータ "a"をクラス "row-box"(各単語の "Correct"という単語を持つクラス)の各divの3番目または4番目の子divに入れようとしています。上記の例ではそれらの中に)。私はこれらのノードと、ChromeのインスペクタとFirefoxのFirepathアドオン(読みやすくするためにラップされている)の両方で、これらのノードとこれらのノードだけを取得する次のXPathを考え出しました。

//div[@id="main-box"]/div/div[2]/div[contains(@class, "row-box")]/div[
  (position() = 3 or position() = 4) and descendant::a[
    contains(@href, "a=")
  ]
][1]/descendant::a[contains(@href, "a=")][1]

しかし、このページをHttpWebRequestを使用してロードし、HtmlDocumentオブジェクトに応答ストリームをロードし、このXPathを使用してDocumentNodeプロパティでSelectNodes(xpath)を呼び出すと、3つの正しいノードだけでなく、テキストとともに2つのタグ上記の例では「間違って選択」されています。私はこれが最後の "[1]"を除いて上記のXPathを使用した場合と実質的に同じであることに気付きました。

//div[@id="main-box"]/div/div[2]/div[contains(@class, "row-box")]/div[
  (position() = 3 or position() = 4) and descendant::a[
    contains(@href, "a=")
  ]
][1]/descendant::a[contains(@href, "a=")]

私はHtmlAgilityPackの最新バージョンを使用していることを確認し、XPathでいくつかのバリエーションを試して、多少の最大長や他の単純な問題に遭遇したかどうかを判断し、同様の問題を成功させないで調べようとしました。同じ基本コンセプトを使ってテストをしましたが、それを再現することができなかったので、HtmlAgilityPackがこの構造体でどのように解析するかは微妙な問題かもしれません。

誰もがこの問題の原因を知っている場合や、正しいノードを取得し、HtmlAgilityPackで問題が起きないようにするXPath式を記述するためのより良い方法があれば、私は非常に感謝しています。

EDIT

提案したように、私が使用しているC#コードの簡略化されたバージョンはここにあります。私が確認したことは、私の問題を再現しています。

using System;
using System.Net;
using HtmlAgilityPack;

...

static void Main(string[] args)
{
    string url = "http://www.deerso.com/test.html";
    string xpath = "//div[@id=\"main-box\"]/div/div[2]/div[contains(@class, \"row-box\")]/div[(position() = 3 or position() = 4) and descendant::a[contains(@href, \"a=\")]][1]/descendant::a[contains(@href, \"a=\")][1]";
    int statusCode;
    string htmlText;

    HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);

    request.Accept = "text/html,*/*";
    request.Proxy = new WebProxy();
    request.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:35.0) Gecko/20100101 Firefox/35.0";

    using (var response = (WebResponse)request.GetResponse())
    {
        statusCode = (int)((HttpWebResponse)response).StatusCode;
        using (var stream = response.GetResponseStream())
        {
            if (stream != null)
            {
                using (var reader = new System.IO.StreamReader(stream))
                {
                    htmlText = reader.ReadToEnd();
                }
            }
            else
            {
                Console.WriteLine("Request to '{0}' failed, response stream was null", url);
                htmlText = null;
                return;
            }
        }
    }

    HtmlNode.ElementsFlags.Remove("form"); //fix for forms
    HtmlDocument doc = new HtmlDocument();
    doc.LoadHtml(htmlText);

    HtmlNodeCollection nodes = doc.DocumentNode.SelectNodes(xpath);

    foreach (HtmlNode node in nodes)
    {
        Console.WriteLine("Node Found:");
        Console.WriteLine("Text: {0}", node.InnerText);
        Console.WriteLine("Href: {0}", node.Attributes["href"].Value);
        Console.WriteLine();
    }

    Console.WriteLine("Done!");
}

人気のある回答

更新されたHTMLに基づく新しい答え

//a[contains(@href,'a=')][1]フィルタは直接の親から最初の<a>要素を選択しているので使用できません。

フィルタに子孫演算子を含めるために、角括弧を追加する必要があります。

(//a[contains(@href,'a=')])[1]

しかし、別のノードセット内の各ノードに最初の子孫フィルタを適用するように展開すると、結果のxpath式は無効になります。

//div[contains(@class,'row-box')](//a[contains(@href,'a=')])[1]

私はそれを2つのステップに分ける必要があると思う:

  1. 私たちが望む特定のリンクを含むdiv要素のグループを取得します。
  2. そのグループの各要素から最初の子孫リンク要素を取得します。

C#では次のようになります。

// Get the <div> elements we know are ancestors to the <a> elements we want
HtmlNodeCollection topDivs = doc.DocumentNode.SelectNodes("//a[contains(@href,'?a=')]/ancestor::div[contains(@class,'row-box')]");

// Create a new list to hold the <a> elements
List<HtmlNode> linksWeWant = new List<HtmlNode>(topDivs.Count)

// Iterate through the <div> elements and get the first descendant
foreach(var div in topDivs)
{
    linksWeWant.Add(div.SelectSingleNode("(//a[contains(@href,'?a=')])[1]"));
}

古い答え

このページを参考にして、私はxpath式をまとめる:

HtmlAgilityPackで実行すると、次の3つの要素だけが返されます。

<a href = "/test/path?a=123">
<a href = "/test/path?a=abc&b=123">
<a href = "/test/path?a=ghi">

式の内訳は次のとおりです。

//div[contains(@class,'row-box')]        -> Get nodeset of <div class="*row-box*"> elements
/descendant::a                           -> From here get all descendant <a> elements
[contains(@href,'a=') and position()=1]  -> Filter according to href value and element being the first descendant

私はあなたの質問のxpathとの主な違いは/descendant::a[contains(@href,'a=') and position()=1] vs /descendant::a[contains(@href,'a=')][1][1]個別に適用すると、最初の子孫ではなく最初の子としてフィルタリングされます。



ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ
ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ