HTMLアジリティパック - コンテンツを削除せずに不要なタグを削除しますか?

c# html-agility-pack

質問

私はここでいくつかの関連する質問を見てきましたが、彼らは私が直面している同じ問題について正確には話しません。

HTML Agility Packを使用して、タグ内のコンテンツを失うことなく、HTMLから不要なタグを削除したいと考えています。

例えば、私のシナリオでは、タグ " b "、 " i "、 " u "を保存したいと思います。

そして次のような入力の場合:

<p>my paragraph <div>and my <b>div</b></div> are <i>italic</i> and <b>bold</b></p>

結果のHTMLは次のようになります。

my paragraph and my <b>div</b> are <i>italic</i> and <b>bold</b>

私はHtmlNodeRemoveメソッドを使ってHtmlNodeが、私のコンテンツも削除しています。助言がありますか?

受け入れられた回答

私はOdedの提案に基づいてアルゴリズムを書いた。ここにあります。魅力のように動作します。

strongemu 、生のテキストノードを除くすべてのタグを削除します。

internal static string RemoveUnwantedTags(string data)
{
    if(string.IsNullOrEmpty(data)) return string.Empty;

    var document = new HtmlDocument();
    document.LoadHtml(data);

    var acceptableTags = new String[] { "strong", "em", "u"};

    var nodes = new Queue<HtmlNode>(document.DocumentNode.SelectNodes("./*|./text()"));
    while(nodes.Count > 0)
    {
        var node = nodes.Dequeue();
        var parentNode = node.ParentNode;

        if(!acceptableTags.Contains(node.Name) && node.Name != "#text")
        {
            var childNodes = node.SelectNodes("./*|./text()");

            if (childNodes != null)
            {
                foreach (var child in childNodes)
                {
                    nodes.Enqueue(child);
                    parentNode.InsertBefore(child, node);
                }
            }

            parentNode.RemoveChild(node);

        }
    }

    return document.DocumentNode.InnerHtml;
}

人気のある回答

HTML文字列から不要なhtmlタグのリストを再帰的に削除する方法

私は@mathiasの回答を受け取り、Extensionメソッドを改良してList<string> (例: {"a","p","hr"} )として除外するタグのリストを提供できるようにしました。私はまた、それが再帰的に正しく動作するようにロジックを修正しました:

public static string RemoveUnwantedHtmlTags(this string html, List<string> unwantedTags)
    {
        if (String.IsNullOrEmpty(html))
        {
            return html;
        }

        var document = new HtmlDocument();
        document.LoadHtml(html);

        HtmlNodeCollection tryGetNodes = document.DocumentNode.SelectNodes("./*|./text()");

        if (tryGetNodes == null || !tryGetNodes.Any())
        {
            return html;
        }

        var nodes = new Queue<HtmlNode>(tryGetNodes);

        while (nodes.Count > 0)
        {
            var node = nodes.Dequeue();
            var parentNode = node.ParentNode;

            var childNodes = node.SelectNodes("./*|./text()");

            if (childNodes != null)
            {
                foreach (var child in childNodes)
                {
                    nodes.Enqueue(child);                       
                }
            }

            if (unwantedTags.Any(tag => tag == node.Name))
            {               
                if (childNodes != null)
                {
                    foreach (var child in childNodes)
                    {
                        parentNode.InsertBefore(child, node);
                    }
                }

                parentNode.RemoveChild(node);

            }
        }

        return document.DocumentNode.InnerHtml;
    }



ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ
ライセンスを受けた: CC-BY-SA with attribution
所属していない Stack Overflow
このKBは合法ですか? はい、理由を学ぶ