[c#]Estrarre degli indirizzi da pagina html

giovedì 12 giugno 2008 - 14.43

program Profilo | Junior Member

Ciao, vorrei realizzare in c# un programmino che ricevuto in ingresso un file html lo analizzi pescando tutti gli indirizzi web contenuti che magari iniziano in un certo modo.....

Come posso fare?
Grazie.

Brainkiller Profilo | Guru

Ciao,
si parte dalle regular expressions.
Prova così:

Regex r = new Regex(@"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?"); MatchCollection mc=r.Matches(File.ReadAllText("C:\\html.txt")); foreach (Match a in mc) Console.WriteLine(a.Value);

Il file html.txt è il file con dentro il codice HTML (la tua pagina praticamente).
Ciao

David De Giacomi | Microsoft MVP
http://blogs.dotnethell.it/david/
Partecipa anche tu! Registrati!
Hai bisogno di aiuto ?
Perchè non ti registri subito?

Dopo esserti registrato potrai chiedere
aiuto sul nostro Forum oppure aiutare gli altri

Consulta le Stanze disponibili.

Registrati ora !
Copyright © dotNetHell.it 2002-2023
Running on Windows Server 2008 R2 Standard, SQL Server 2012 & ASP.NET 3.5