我為什麼要拾取外國字符,如何刪除它們?

c# html html-agility-pack string

當我使用HTML Agility Pack抓取H3標籤的InnerText時,我正在拾取額外的字符(Ã,)。

我不確定這些角色來自何處或如何刪除它們。

提取的字符串:

 Week 1

HTML來源:

 Week 1

現行代碼:

 Week 1

當前的解決方法 (從stackoverflow上的某個地方被盜,丟失了鏈接):

 Week 1

一般承認的答案

你需要先設置編碼...

htmlDoc.Load(new System.IO.StringReader(url), Encoding.UTF8);

這告訴敏捷包該字符是UTF8而不是其他編碼。

你需要在這裡做的原因是,這是在解析它時的重點。在此之後,您將存儲文字Ã,字符。

從互聯網下載HTML後字符串中的字符也可能是有意義的。


熱門答案

可能是你的字符編碼,將編碼設置為UTF-8




許可下: CC-BY-SA with attribution
不隸屬於 Stack Overflow
這個KB合法嗎? 是的,了解原因
許可下: CC-BY-SA with attribution
不隸屬於 Stack Overflow
這個KB合法嗎? 是的,了解原因