Home Page Home Page News Google sempre più in difficoltà. Scopriamo il perchè.

Google sempre più in difficoltà. Scopriamo il perchè.

Da qualche tempo il più popolare motore di ricerca sta soffrendo a causa di gravi problemi nel suo funzionamento fino a oggi regolare. Scopriamo qui di seguito le difficoltà che sta attraversando Google.
L'ascesa di Google
Fino a qualche anno fa erano rimasti sulla scena mondiale a disposizione degli utenti di Internet alcuni motori di ricerca molto famosi come Yahoo, Altavista e Lycos.
Nonostante il nome però la qualità delle ricerche e quindi dei risultati offerti era abbastanza scadente visto che le tecnologie e gli algoritmi usati nei motori stessi non erano più state sviluppate, con il risultato che questi strumenti non svolgevano più la funzione per la quale erano stati creati.
I problemi che affliggevano principalmente i motori erano prima di tutto la rapida crescita di Internet in termini di pagine web ma non solo visto che negli anni si sono fatti avanti, con la banda larga, nuovi contenuti, mi riferisco a quelli multimediali, e quindi non solo pagine HTML ma documenti di Office, file PDF, file video, audio e così via.
E' qui che emergeva quindi la difficoltà a tenere aggiornati tutti questi contenuti e offrire dei risultati validi in un tempo ragionevole.
Finalmente dopo un bel po' di tempo, da un progetto sperimentale di due studenti della Stanford University, nasce Google ormai diventato il "motore di ricerca" per definizione, conosciuto e usati da tutti.

L'architettura di Google
Google oggi non solo indicizza pagine web ma anche messaggi dei Newsgroups, Immagini, Notizie ed anche prezzi di prodotti come libri, software, ecc. anche se questo è ancora in sperimentazione.

Non vi siete mai chiesti quindi come riesce Google ad indicizzare oltre 3 miliardi di pagine web, oltre 700 milioni di messaggi newsgroups, migliaia di immagini e notizie, e ad offrire risultati di una ricerca in così poco tempo? Spesso anche in meno di un secondo?

Ebbene, l'architettura di Google è molto complessa. Vi basti pensare che dalle ultime notizie pare che l'intero funzionamento di Google sia gestito da circa 10.000 server, dieci mila! distribuiti in 8 data-center.
Questi 10 mila server sono delle specie di thin client, in modo da contenere i costi, composti principalmente da dischi capienti EIDE, ottime schede di rete per raggiungere throughput elevati e quindi per servire più richieste contemporaneamente.
Il sistema operativo adottato è una versione di Linux Redhat modificata.
Il web server invece è un Apache anch'esso modificato chiamato GWS (Google Web Server).
Chiaramente come vedete è un'architettura distribuita che è molto potente ma anche molto flessibile, nel senso che può essere estesa acquistando nuovi server e mettendoli in funzione.

Come funziona Google ?
Tralasciamo di spiegare il funzionamento vero e proprio di Google (come vengono ordinate e ricercate le pagine, come viene indicizzata la pagina, i vocabolari, ecc.) cosa molto lunga e difficile da capire e spiegare e parliamo dei GoogleBot che tutti i gestori di un sito Web avranno notato nei Log.
Questi Crawler (GoogleBot) sono degli "agenti" dei piccoli programmini che costantemente scandagliano il web alla ricerca di pagine web e contenuti nuovi e vecchi.
Questi crawler effettuano due tipi di scansione del web:

Deep-crawl (fatta una volta al mese)
Fresh-crawl (quasi tutti i giorni)

La prima come detto viene fatta una volta al mese e viene scansionato tutto il web pagina per pagina, aggiornando indici, ranking delle pagine (una specie di valore che va da 1 a 10 che determina la popolarità di una pagina, utile poi per ordinare le pagine in classifica) e cache).
Dopo una Deep-crawl Google impiega circa 6-8 giorni per aggiornare completamente i suoi indici e propagarli in tutti i datacenter. In questo periodo di tempo si parla di Google Dance perchè i risultati che escono possono essere diversi di volta in volta. Dopo qualche giorno invece si stabilizzano.

La seconda invece viene fatta quasi tutti i giorni e in pratica aggiorna le pagine che già sono presenti nell'indice e aggiunge quelle eventualmente create dopo l'ultima Deep-crawl.

I gravi problemi di Google
E' risaputo che Google sta cercando di migliorare gli algoritmi di ricerca, ma nel fare questa operazione probabilmente è successo qualcosa di sbagliato che ha fatto inceppare il meccanismo.
E' successo così che dagli indici di Google sono sparite migliaia se non milioni di pagine, il punteggio delle pagine Ranking per molti siti è stato perso (con conseguenze negative sulle ricerche), gli indici hanno subito sembra un rollback a due-tre mesi fa quindi spesso escono risultati con pagine aggiornate a Febbraio 2003, l'aggiornamento dall'ultima Deep-crawl invece di metterci 6-8 giorni ne ha impiegati circa 20 e addirittura la Deep-crawl di Maggio non è neanche stata fatta, quindi la situazione non è delle migliori.

Per dimostrare ciò che sto dicendo è sufficiente aprire Google.it digitare come keywords Windows Longhorn e vedere come Google segnali nel secondo risultato (la Home Page) la presenza delle parole da noi ricercate.
Se però voi provate ad aprire la Home Page o meglio ancora premendo sul link "Cache" vedrete che le keywords non sono proprio presenti!
Questo a dimostrazione del fatto che gli indici sono aggiornati a qualche mese fa, proprio quando la notizia su Longhorn era pubblicata in Home Page.

I risultati non corrispondono a verità
I risultati non corrispondono a verità


Conclusioni e speranze
Purtroppo questo tentativo di migliorare la qualità di Google si è trasformato in un Boomerang e ha provocato proprio l'effetto opposto. Nonostante tutto pare ora che con frequenti fresh-crawl stiano parzialmente aggiustando la situazione anche se comunque resta qualcosa che non funziona correttamente.
I contenuti stanno veramente aumentando a dismisura e forse la situazione è difficile da gestire. Nel frattempo ci sono state varie e importanti acquisizioni nel settore dei motori di ricerca. Google dovrà cercare di difendersi da tutti gli attacchi per non rischiare di essere scalzato dal trono di "Re dei motori di ricerca" del web.

News Collegate


Non è presente nessuna news collegata. Torna all'elenco news 
Copyright © dotNetHell.it 2002-2024
Running on Windows Server 2008 R2 Standard, SQL Server 2012 & ASP.NET 3.5