J'essaie de supprimer les balises span, font, b, s, strike (et tout autre élément interne) du contenu HTML tout en préservant le texte et les balises <br>
qu'il contient. Pour cela, j'utilise le pack d'agilité HTML. J'ai réussi à préserver le texte mais les balises <br>
sont toujours un problème. Des idées?
Voici le code:
private void removeTagsButPreserveText2(HtmlNode nodeToRemove)
{
var parent = nodeToRemove.ParentNode;
var prev = nodeToRemove.PreviousSibling;
if (prev != null)
{
var child = nodeToRemove.SelectNodes("./br");
if (child == null)
{
parent.InsertAfter(documentToSearch.CreateTextNode(nodeToRemove.InnerText + " "), prev);
nodeToRemove.Remove();
}
else
{
foreach (var item in child)
{
var parent2 = item.PreviousSibling;
if (parent2 != null)
{
if (parent2.InnerText.HasDate())
{
var newNode = parent.InsertAfter(documentToSearch.CreateTextNode(parent2.InnerText), prev);
parent.InsertAfter(documentToSearch.CreateElement("br"), newNode);
nodeToRemove.Remove();
}
}
}
}
}
}
Par exemple, l'entrée sera:
<p><font face="Arial" size="2"><strike>
<span style="font-weight: 400"><font color="#000000">Paper
Submission (Full
Paper) Before
<span lang="en-us">September</span> 20, 201<span lang="en-us">2</span></font></span></strike><font color="#FF0000"><br>
Notification of
Acceptance On <span lang="en-us">October 5</span>, 201<span lang="en-us">2</span><br>
Authors'
Registration Before
<span lang="en-us">October 20</span>, 201<span lang="en-us">2</span><br>
ICNIT 2012 Conference
Dates November
17 - 18, 2012</font></font></p>
et le résultat devrait ressembler à ceci:
<p>Paper Submission (Full Paper) Before September 20, 2012<br>
Notification of Acceptance On October 5, 2012<br>
Authors' Registration Before October 20, 2012<br>
ICNIT 2012 Conference
Dates November
17 - 18, 2012</p>
Pour ce type de manipulation HTML, il existe une excellente bibliothèque appelée HTML Agility Pack .
Voici une question similaire qui indiquera la bonne direction: Pack d'agilité HTML - Supprime un élément, mais pas innerHtml