[c#]Estrarre degli indirizzi da pagina html

giovedì 12 giugno 2008 - 14.43

Elenco Threads

Stanze Forum

Aggiungi ai Preferiti

Cerca nel forum

program Profilo | Junior Member

98 messaggi | Data Invio: gio 12 giu 2008 - 14:43

Ciao, vorrei realizzare in c# un programmino che ricevuto in ingresso un file html lo analizzi pescando tutti gli indirizzi web contenuti che magari iniziano in un certo modo.....

Come posso fare?
Grazie.

Brainkiller Profilo | Guru

7.999 messaggi | Data Invio: gio 12 giu 2008 - 16:44

Ciao,
si parte dalle regular expressions.
Prova così:

   Regex r = new Regex(@"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?");
            MatchCollection mc=r.Matches(File.ReadAllText("C:\\html.txt"));

            foreach (Match a in mc)
                Console.WriteLine(a.Value);

Il file html.txt è il file con dentro il codice HTML (la tua pagina praticamente).
Ciao

David De Giacomi | Microsoft MVP
http://blogs.dotnethell.it/david/

Torna su

Stanze Forum

Elenco Threads

Partecipa anche tu! Registrati!

Hai bisogno di aiuto ?
Perchè non ti registri subito?

Dopo esserti registrato potrai chiedere
aiuto sul nostro Forum oppure aiutare gli altri

Consulta le Stanze disponibili.

Registrati ora !