Ich versuche zu konvertieren HTML
zu PDF
mit iTextSharp in einer ASP.NET
Web - Anwendung , die sowohl verwendet MVC und Web - Formulare . Die Elemente <img>
und <a>
haben absolute und relative URLs, und einige der <img>
-Elemente sind base64 . Typische Antworten hier bei SO- und Google-Suchergebnissen verwenden generisches HTML
zu PDF
Code mit XMLWorkerHelper
, das XMLWorkerHelper
so aussieht:
using (var stringReader = new StringReader(xHtml))
{
using (Document document = new Document())
{
PdfWriter writer = PdfWriter.GetInstance(document, stream);
document.Open();
XMLWorkerHelper.GetInstance().ParseXHtml(
writer, document, stringReader
);
}
}
Also mit Beispiel- HTML
wie folgt:
<div>
<h3>HTML Works, but Broken in Converted PDF</h3>
<div>Relative local <img>: <img src='./../content/images/kuujinbo_320-30.gif' /></div>
<div>
Base64 <img>:
<img src='' />
</div>
<div><a href='/somePage.html'>Relative local hyperlink, broken in PDF</a></div>
<div>
Die resultierende PDF: (1) fehlt alle Bilder, und (2) alle Hyperlinks mit relativen URLs sind gebrochen und verwenden ein Datei-URI-Schema ( file///XXX...
), anstatt auf die richtige Website zu zeigen .
Einige Antworten hier bei SO und anderen aus der Google-Suche empfehlen, relative URLs durch absolute URLs zu ersetzen, was für einmalige Fälle durchaus akzeptabel ist. Das globale Ersetzen aller <img src>
und <a href>
-Attribute durch eine <a href>
Zeichenfolge ist jedoch für diese Frage inakzeptabel. <a href>
Sie also bitte keine solche Antwort an, da sie entsprechend abgelehnt wird.
Ich suche nach einer Lösung, die für viele verschiedene Webanwendungen in Test-, Entwicklungs- und Produktionsumgebungen geeignet ist.
XMLWorker
versteht XMLWorker
nur absolute URIs , daher handelt es sich bei den beschriebenen Problemen um erwartetes Verhalten. Der Parser kann URI-Schemata oder -Pfade ohne zusätzliche Informationen nicht automatisch ableiten.
Das Implementieren eines ILinkProviders behebt das Problem mit fehlerhaften Hyperlinks, und das Implementieren eines IImageProviders behebt das Problem mit fehlerhaften Bildern . Da beide Implementierungen eine URI-Auflösung durchführen müssen, ist dies der erste Schritt. Die folgende Hilfsklasse erledigt dies und versucht auch, Web-Kontextaufrufe ( ASP.NET
) (Beispiele folgen) so einfach wie möglich zu gestalten:
// resolve URIs for LinkProvider & ImageProvider
public class UriHelper
{
/* IsLocal; when running in web context:
* [1] give LinkProvider http[s] scheme; see CreateBase(string baseUri)
* [2] give ImageProvider relative path starting with '/' - see:
* Join(string relativeUri)
*/
public bool IsLocal { get; set; }
public HttpContext HttpContext { get; private set; }
public Uri BaseUri { get; private set; }
public UriHelper(string baseUri) : this(baseUri, true) {}
public UriHelper(string baseUri, bool isLocal)
{
IsLocal = isLocal;
HttpContext = HttpContext.Current;
BaseUri = CreateBase(baseUri);
}
/* get URI for IImageProvider to instantiate iTextSharp.text.Image for
* each <img> element in the HTML.
*/
public string Combine(string relativeUri)
{
/* when running in a web context, the HTML is coming from a MVC view
* or web form, so convert the incoming URI to a **local** path
*/
if (HttpContext != null && !BaseUri.IsAbsoluteUri && IsLocal)
{
return HttpContext.Server.MapPath(
// Combine() checks directory traversal exploits
VirtualPathUtility.Combine(BaseUri.ToString(), relativeUri)
);
}
return BaseUri.Scheme == Uri.UriSchemeFile
? Path.Combine(BaseUri.LocalPath, relativeUri)
// for this example we're assuming URI.Scheme is http[s]
: new Uri(BaseUri, relativeUri).AbsoluteUri;
}
private Uri CreateBase(string baseUri)
{
if (HttpContext != null)
{ // running on a web server; need to update original value
var req = HttpContext.Request;
baseUri = IsLocal
// IImageProvider; absolute virtual path (starts with '/')
// used to convert to local file system path. see:
// Combine(string relativeUri)
? req.ApplicationPath
// ILinkProvider; absolute http[s] URI scheme
: req.Url.GetLeftPart(UriPartial.Authority)
+ HttpContext.Request.ApplicationPath;
}
Uri uri;
if (Uri.TryCreate(baseUri, UriKind.RelativeOrAbsolute, out uri)) return uri;
throw new InvalidOperationException("cannot create a valid BaseUri");
}
}
Die Implementierung von ILinkProvider
ist jetzt ziemlich einfach, da UriHelper
die Basis-URI UriHelper
. Wir brauchen nur das richtige URI-Schema ( file
oder http[s]
):
// make hyperlinks with relative URLs absolute
public class LinkProvider : ILinkProvider
{
// rfc1738 - file URI scheme section 3.10
public const char SEPARATOR = '/';
public string BaseUrl { get; private set; }
public LinkProvider(UriHelper uriHelper)
{
var uri = uriHelper.BaseUri;
/* simplified implementation that only takes into account:
* Uri.UriSchemeFile || Uri.UriSchemeHttp || Uri.UriSchemeHttps
*/
BaseUrl = uri.Scheme == Uri.UriSchemeFile
// need trailing separator or file paths break
? uri.AbsoluteUri.TrimEnd(SEPARATOR) + SEPARATOR
// assumes Uri.UriSchemeHttp || Uri.UriSchemeHttps
: BaseUrl = uri.AbsoluteUri;
}
public string GetLinkRoot()
{
return BaseUrl;
}
}
IImageProvider
erfordert nur eine einzige Methode der Umsetzung, Retrieve(string src)
, aber Store(string src, Image img)
ist einfach - Anmerkung Inline - Kommentare gibt und für GetImageRootPath()
:
// handle <img> elements in HTML
public class ImageProvider : IImageProvider
{
private UriHelper _uriHelper;
// see Store(string src, Image img)
private Dictionary<string, Image> _imageCache =
new Dictionary<string, Image>();
public virtual float ScalePercent { get; set; }
public virtual Regex Base64 { get; set; }
public ImageProvider(UriHelper uriHelper) : this(uriHelper, 67f) { }
// hard-coded based on general past experience ^^^
// but call the overload to supply your own
public ImageProvider(UriHelper uriHelper, float scalePercent)
{
_uriHelper = uriHelper;
ScalePercent = scalePercent;
Base64 = new Regex( // rfc2045, section 6.8 (alphabet/padding)
@"^data:image/[^;]+;base64,(?<data>[a-z0-9+/]+={0,2})$",
RegexOptions.Compiled | RegexOptions.IgnoreCase
);
}
public virtual Image ScaleImage(Image img)
{
img.ScalePercent(ScalePercent);
return img;
}
public virtual Image Retrieve(string src)
{
if (_imageCache.ContainsKey(src)) return _imageCache[src];
try
{
if (Regex.IsMatch(src, "^https?://", RegexOptions.IgnoreCase))
{
return ScaleImage(Image.GetInstance(src));
}
Match match;
if ((match = Base64.Match(src)).Length > 0)
{
return ScaleImage(Image.GetInstance(
Convert.FromBase64String(match.Groups["data"].Value)
));
}
var imgPath = _uriHelper.Combine(src);
return ScaleImage(Image.GetInstance(imgPath));
}
// not implemented to keep the SO answer (relatively) short
catch (BadElementException ex) { return null; }
catch (IOException ex) { return null; }
catch (Exception ex) { return null; }
}
/*
* always called after Retrieve(string src):
* [1] cache any duplicate <img> in the HTML source so the image bytes
* are only written to the PDF **once**, which reduces the
* resulting file size.
* [2] the cache can also **potentially** save network IO if you're
* running the parser in a loop, since Image.GetInstance() creates
* a WebRequest when an image resides on a remote server. couldn't
* find a CachePolicy in the source code
*/
public virtual void Store(string src, Image img)
{
if (!_imageCache.ContainsKey(src)) _imageCache.Add(src, img);
}
/* XMLWorker documentation for ImageProvider recommends implementing
* GetImageRootPath():
*
* http://demo.itextsupport.com/xmlworker/itextdoc/flatsite.html#itextdoc-menu-10
*
* but a quick run through the debugger never hits the breakpoint, so
* not sure if I'm missing something, or something has changed internally
* with XMLWorker....
*/
public virtual string GetImageRootPath() { return null; }
public virtual void Reset() { }
}
Basierend auf der XML Worker-Dokumentation ist es ziemlich einfach, die ILinkProvider
Implementierungen von ILinkProvider
und IImageProvider
in eine einfache Parser-Klasse IImageProvider
:
/* a simple parser that uses XMLWorker and XMLParser to handle converting
* (most) images and hyperlinks internally
*/
public class SimpleParser
{
public virtual ILinkProvider LinkProvider { get; set; }
public virtual IImageProvider ImageProvider { get; set; }
public virtual HtmlPipelineContext HtmlPipelineContext { get; set; }
public virtual ITagProcessorFactory TagProcessorFactory { get; set; }
public virtual ICSSResolver CssResolver { get; set; }
/* overloads simplfied to keep SO answer (relatively) short. if needed
* set LinkProvider/ImageProvider after instantiating SimpleParser()
* to override the defaults (e.g. ImageProvider.ScalePercent)
*/
public SimpleParser() : this(null) { }
public SimpleParser(string baseUri)
{
LinkProvider = new LinkProvider(new UriHelper(baseUri, false));
ImageProvider = new ImageProvider(new UriHelper(baseUri, true));
HtmlPipelineContext = new HtmlPipelineContext(null);
// another story altogether, and not implemented for simplicity
TagProcessorFactory = Tags.GetHtmlTagProcessorFactory();
CssResolver = XMLWorkerHelper.GetInstance().GetDefaultCssResolver(true);
}
/*
* when sending XHR via any of the popular JavaScript frameworks,
* <img> tags are **NOT** always closed, which results in the
* infamous iTextSharp.tool.xml.exceptions.RuntimeWorkerException:
* 'Invalid nested tag a found, expected closing tag img.' a simple
* workaround.
*/
public virtual string SimpleAjaxImgFix(string xHtml)
{
return Regex.Replace(
xHtml,
"(?<image><img[^>]+)(?<=[^/])>",
new MatchEvaluator(match => match.Groups["image"].Value + " />"),
RegexOptions.IgnoreCase | RegexOptions.Multiline
);
}
public virtual void Parse(Stream stream, string xHtml)
{
xHtml = SimpleAjaxImgFix(xHtml);
using (var stringReader = new StringReader(xHtml))
{
using (Document document = new Document())
{
PdfWriter writer = PdfWriter.GetInstance(document, stream);
document.Open();
HtmlPipelineContext
.SetTagFactory(Tags.GetHtmlTagProcessorFactory())
.SetLinkProvider(LinkProvider)
.SetImageProvider(ImageProvider)
;
var pdfWriterPipeline = new PdfWriterPipeline(document, writer);
var htmlPipeline = new HtmlPipeline(HtmlPipelineContext, pdfWriterPipeline);
var cssResolverPipeline = new CssResolverPipeline(CssResolver, htmlPipeline);
XMLWorker worker = new XMLWorker(cssResolverPipeline, true);
XMLParser parser = new XMLParser(worker);
parser.Parse(stringReader);
}
}
}
}
Wie inline kommentiert, verarbeitet SimpleAjaxImgFix(string xHtml)
speziell XHR, das möglicherweise nicht geschlossene <img>
-Tags XMLWorker
. XMLWorker
ist gültiges HTML
, aber ungültiges XML
, das XMLWorker
kaputt XMLWorker
. Eine einfache Erklärung und Implementierung, wie Sie mit XHR und iTextSharp ein PDF oder andere Binärdaten empfangen können, finden Sie hier .
In SimpleAjaxImgFix(string xHtml)
ein Regex
verwendet, damit jeder, der den Code verwendet ( Kopieren / Einfügen ?), nuget
weiteres nuget
Paket hinzufügen nuget
, sondern einen HTML
Parser wie HtmlAgilityPack verwenden sollte , da dies der Fall ist :
<div><img src='a.gif'><br><hr></div>
das mögen:
<div><img src='a.gif' /><br /><hr /></div>
mit nur wenigen Codezeilen:
var hDocument = new HtmlDocument()
{
OptionWriteEmptyNodes = true,
OptionAutoCloseOnEnd = true
};
hDocument.LoadHtml("<div><img src='a.gif'><br><hr></div>");
var closedTags = hDocument.DocumentNode.WriteTo();
Beachten Sie auch, dass Sie SimpleParser.Parse()
oben als allgemeinen Entwurf verwenden, um zusätzlich einen benutzerdefinierten ICSSResolver oder eine benutzerdefinierte ITagProcessorFactory zu implementieren , die in der Dokumentation erläutert werden .
Nun sollten die in der Frage beschriebenen Probleme behoben werden. Aufgerufen von einer MVC Action Method
:
[HttpPost] // some browsers have URL length limits
[ValidateInput(false)] // or throws HttpRequestValidationException
public ActionResult Index(string xHtml)
{
Response.ContentType = "application/pdf";
Response.AppendHeader(
"Content-Disposition", "attachment; filename=test.pdf"
);
var simpleParser = new SimpleParser();
simpleParser.Parse(Response.OutputStream, xHtml);
return new EmptyResult();
}
oder von einem Web Form
, das HTML
von einem Serversteuerelement abruft :
Response.ContentType = "application/pdf";
Response.AppendHeader("Content-Disposition", "attachment; filename=test.pdf");
using (var stringWriter = new StringWriter())
{
using (var htmlWriter = new HtmlTextWriter(stringWriter))
{
ConvertControlToPdf.RenderControl(htmlWriter);
}
var simpleParser = new SimpleParser();
simpleParser.Parse(Response.OutputStream, stringWriter.ToString());
}
Response.End();
oder eine einfache HTML-Datei mit Hyperlinks und Bildern im Dateisystem:
<h1>HTML Page 00 on Local File System</h1>
<div>
<div>
Relative <img>: <img src='Images/alt-gravatar.png' />
</div>
<div>
Hyperlink to file system HTML page:
<a href='file-system-html-01.html'>Page 01</a>
</div>
</div>
oder HTML von einer entfernten Website:
<div>
<div>
<img width="200" alt="Wikipedia Logo"
src="portal/wikipedia.org/assets/img/Wikipedia-logo-v2.png">
</div>
<div lang="en">
<a href="https://en.wikipedia.org/">English</a>
</div>
<div lang="en">
<a href="wiki/IText">iText</a>
</div>
</div>
Über zwei HTML
Snippets, die über eine Konsolen-App ausgeführt werden:
var filePaths = Path.Combine(basePath, "file-system-html-00.html");
var htmlFile = File.ReadAllText(filePaths);
var remoteUrl = Path.Combine(basePath, "wikipedia.html");
var htmlRemote = File.ReadAllText(remoteUrl);
var outputFile = Path.Combine(basePath, "filePaths.pdf");
var outputRemote = Path.Combine(basePath, "remoteUrl.pdf");
using (var stream = new FileStream(outputFile, FileMode.Create))
{
var simpleParser = new SimpleParser(basePath);
simpleParser.Parse(stream, htmlFile);
}
using (var stream = new FileStream(outputRemote, FileMode.Create))
{
var simpleParser = new SimpleParser("https://wikipedia.org");
simpleParser.Parse(stream, htmlRemote);
}
Eine ziemlich lange Antwort, aber wenn man sich die Fragen hier bei html
, pdf
und itextsharp
mit SO-Tags itextsharp
, gibt es zum Zeitpunkt dieses Schreibens (23.02.2016) 776 Ergebnisse gegenüber insgesamt 4.063 mit Tags versehenen itextsharp
- das sind 19% .
Sehr hilfreicher Beitrag,
Ich hatte das Problem, Bilder in meinem Bericht in HTML zu rendern. mit deinem post könnte ich es schaffen.
Ich arbeite mit asp.mvc 5.
Ich muss nur diese Methode der ImageProviderClass ändern
public virtual string GetImageRootPath() { return null; }
zu
public virtual string GetImageRootPath() { HostingEnvironment.MapPath("~/Content/Images/") }
Vielen Dank!