HTMLAgilityPack getクラスinnerText

c# class html-agility-pack http innertext

質問

私はクラスのinnerTextを取得しようとしています。これは私のコードです:

using (HttpClient clientduplicate = new HttpClient())
{
    clientduplicate.DefaultRequestHeaders.Add("User-Agent",
        "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; WOW64; Trident / 6.0)");

    using (HttpResponseMessage responseduplicate = await clientduplicate.GetAsync(@"https://www.investing.com/news/stock-market-news/warren-buffett:-i-bought-$12-billion-of-stock-after-trump-won-456954")
    using (HttpContent contentduplicate = responseduplicate.Content)
    {
        try
        {
            string resultduplicate = await contentduplicate.ReadAsStringAsync();

            var websiteduplicate = new HtmlDocument();
            websiteduplicate.LoadHtml(resultduplicate);

            var titlesduplicate = websiteduplicate.DocumentNode.Descendants("div").FirstOrDefault(o => o.GetAttributeValue("class", "") == "arial_14 clear WYSIWYG newsPage");
            var match = Regex.Match(titlesduplicate.InnerText, @"(.*?)<!--", RegexOptions.Singleline).Groups[1].Value;

            Debug.WriteLine(match.TrimStart());
        }
        catch(Exception ex1)
        {
            var dialog2 = new MessageDialog(ex1.Message);
            await dialog2.ShowAsync();
        }
    }
}

今問題は、これが私に絵の上のテキストを返すということです。私は回避策を見つけることができますが、私はこれに他のアプローチがあるのだろうかと思っていました。何かがより簡単/より速い。

私が他の記事/ URLにこれを使用すると、他に小さなバグがあります。

受け入れられた回答

これを行うには多くの方法があります。 1つの方法は、innerTextを取得する前にカルーセルのdivを削除することです: doc.DocumentNode.Descendants("div").FirstOrDefault(_ => _.Id.Equals("imgCarousel"))?.Remove();




ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ
ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ