Ciao,
si parte dalle regular expressions.
Prova così:
Regex r = new Regex(@"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?");
MatchCollection mc=r.Matches(File.ReadAllText("C:\\html.txt"));
foreach (Match a in mc)
Console.WriteLine(a.Value);
Il file html.txt è il file con dentro il codice HTML (la tua pagina praticamente).
Ciao
David De Giacomi | Microsoft MVP
http://blogs.dotnethell.it/david/