Voici une très bonne classe pour analyser le HTML.
J'ai gagné beaucoup de temps.
Adresse du projet
http://www.codeplex.com/Wiki/View.aspx?ProjectName=htmlagilitypack
Par exemple, voici comment corriger tous les hrefs dans un fichier HTML :
HtmlDocument doc = new HtmlDocument();
doc.Load("fichier.htm");
foreach(lien HtmlNode dans doc.DocumentElement.SelectNodes(" //a@href ")
{
HtmlAttribute att = lien"href";
att.Value = FixLink(att);
}
doc.Save("file.htm");
Si vous souhaitez participer au projet - parce que c'est tout le but de mettre la source ici, n'est-ce pas - utilisez les forums ou envoyez-moi un message (simon souligne mourier sur hotmail point com)
Bon codage, scraping, scanning, html-ing, xhtml-ing, etc... :^
)
Simon Mourier.