HtmlAgilityPack의 문제점

c# html-agility-pack

문제

나는 HtmlAgilityPack을 마스터한다. 미리로드 된 페이지에서 데이터를 가져 오려고합니다. 즉 : 1.htm 페이지가 있습니다. 나는 테이블 "운영 체제"반대쪽에서 값을 얻고 싶습니다. (문서 자체가 첨부 됨). 나는 이것을한다:

private void simpleButton1_Click(object sender, EventArgs e)
        {
            // Создаю экземпляр класса
            HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
            // Загружаю файл
            doc.Load(@"D:\(тут путь к файлу)\1.htm");
            // Пытаюсь получить информацию из ноды, но получаю null
            HtmlAgilityPack.HtmlNode bodyNode = doc.DocumentNode.SelectSingleNode("//TD[@CLASS=pt]");
            ...

일반적으로 파일에서 많은 정보를 추출 할 필요가 있지만, 한 줄을 얻으면 비유로 생각합니다.

필요한 줄은 다음과 같습니다.

 private void simpleButton1_Click(object sender, EventArgs e)
        {
            // Создаю экземпляр класса
            HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
            // Загружаю файл
            doc.Load(@"D:\(тут путь к файлу)\1.htm");

            foreach (HtmlAgilityPack.HtmlNode node in doc.DocumentNode.SelectNodes("//body/table[2]/tr[8]/td[4]"))
            {
                string stroka = node.InnerText;
            }

그러나이 옵션은 "이마에 있습니다." 내 문서의 구조를 변경하지 않은 경우. 그리고 수색의 도움으로 가능한 방법은 아직 밝혀지지 않았습니다.

파일

수락 된 답변

그러면 테이블 사전을 이름순으로 반환합니다. 각 테이블은 첫 번째 열을 키로, 두 번째 열을 값으로 사용하는 사전입니다.

var tables = new Dictionary<string, Dictionary<string, string>>();
var doc = new HtmlDocument();
doc.Load(@"D:\(тут путь к файлу)\1.htm", Encoding.GetEncoding(1251), false);
var tableNames = doc.DocumentNode.SelectNodes("//td[@class='pt']/a").Select(a=>a.Attributes["name"].Value);
foreach(string name in tableNames)
{
    var table = doc.DocumentNode.SelectSingleNode("//table[.//a[@name='" + name + "']]/following-sibling::table[1]");
    int columns = table.SelectNodes(".//tr[1]/td").Count();

    string[] keys = table.SelectNodes(".//tr/td["+(columns-1)+"]").Select(n => n.InnerText.Replace("&nbsp;"," ").Trim()).ToArray();
    string[] values = table.SelectNodes(".//tr/td["+columns+"]").Select(n => n.InnerText.Replace("&nbsp;"," ").Trim()).ToArray();
    var body = new Dictionary<string, string>();
    for (int i = 0; i < keys.Count(); i++)
    {
        string key = keys[i];
        if (body.ContainsKey(key))
            body[key] += ", " + values[i];
        else if( key!="" && values[i]!="")
            body[key] = values[i];

    }
    tables.Add(name, body);

}

예를 들어 tables["power management"] 는 4 개의 엔트리를 반환합니다 :

  • [0] {}} {}} System.Collections. {0} {{}}}}}}}}}}}}}}} Generic.KeyValuePair
  • [1] {[|] |||||||) System.Collections.Generic.KeyValuePair
  • [2] {{ПолноÐμ вÑÐ ÐμмÑÑ Ð ° Ð ± о Ñ Ñ ¾¾Ñ, Ð ± Ð ° Ñ, Ð Ð € Ðμй, ÐμиРвÐμÑÑÑÑÑÑÑ ¼ ¾ º] System.Collections. Generic.KeyValuePair
  • [3] {[ÐžÑ Ñ, Ð, Ð, ¬, System.Collections.Generic.KeyValuePair

tables["power management"]["Текущий Ð¸Ñ Ñ‚Ð¾Ñ‡Ð½Ð¸Ðº Ð¿Ð¸Ñ‚Ð°Ð½Ð¸Ñ "] 반환 :

"ÐлÐμкÑ,Ñ € ¾¾Ñ ÐμÑ,ÑŒ"

반복 할 수있는 작업은 다음과 같습니다.

foreach(var tableName in tables.Keys)
{
    var table = tables[tableName];
    foreach(var key in table.Keys)
    {
        string value = table[key];
        Debug.Print(tableName + "/" + key + "/" + value);
    }
}



아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.
아래 라이선스: CC-BY-SA with attribution
와 제휴하지 않음 Stack Overflow
이 KB는 합법적입니까? 예, 이유를 알아보십시오.