Aqui está uma aula muito boa para analisar HTML.
Economizei muito tempo.
Endereço do projeto
http://www.codeplex.com/Wiki/View.aspx?ProjectName=htmlagilitypack
Por exemplo, aqui está como você corrigiria todos os hrefs em um arquivo HTML:
HtmlDocument doc = new HtmlDocument();
doc.Load("arquivo.htm");
foreach(link HtmlNode em doc.DocumentElement.SelectNodes(" //a@href ")
{
HtmlAttribute att = link"href";
att.Value = FixLink(att);
}
doc.Save("file.htm");
Se você quiser participar do projeto - porque esse é o propósito de colocar o código-fonte lá, certo - use os fóruns ou me mande um recado (simon sublinhado mourier em hotmail ponto com) !
Boa codificação, raspagem, digitalização, html-ing, xhtml-ing, etc... :^)
Simão Mourier.