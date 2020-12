Questa settimana è iniziata male per Google con problemi a tutti i suoi servizi, tra cui Gmail, Google Meet, YouTube, Google Maps e il motore di ricerca stesso. La pioggia di segnalazioni ha preoccupato tutti gli utenti, ai quali di recente è stata fornita una risposta molto più approfondita e tecnica al riguardo.

Nella pagina ufficiale di Google Cloud, dove è possibile consultare quando si desidera lo status dei servizi del colosso di Mountain View, due giorni fa è infatti apparso un post che ha spiegato nel dettaglio cos’è successo in data 14 dicembre. Come detto dagli ingegneri stessi di Big G nel corso della giornata successiva ai problemi, sostanzialmente si sarebbe trattato di un problema di capienza dell’archiviazione interna.

Nello specifico, però, riguarderebbe il sistema di autenticazione degli account di Google: il servizio ID mantiene un codice univoco per ogni account e memorizza i dati in un database distribuito che utilizza i protocolli Paxos per coordinare gli aggiornamenti e, per motivi di sicurezza, rifiuta le richieste di accesso quando rileva dati non aggiornati. A ottobre questo sistema ha ricevuto una modifica nella registrazione dell’ID nell’ambito di una migrazione del servizio e dell’implementazione di un nuovo sistema di quote in cui, però, sono rimaste parti di quello precedente.

A causa di questo conflitto, ecco che gradualmente sono state ridotte eccessivamente le quote per un numero elevato di utenti causando loro errori nell’autenticazione e all’intero sistema. La portata del problema è risultata immediatamente chiara grazie anche agli avvisi automatici: se alle 12:43 circa (ora italiana) la pioggia di segnalazioni è iniziata, alle 13:08 le cause principali e la prima correzione sono state identificate, mentre alle 13:22/13:30 i tecnici hanno disabilitato il sistema di quote e avviato il ripristino graduale dei datacenter. Verso le 14 ogni problema è stato risolto con successo.

Google ha spiegato che in futuro cercheranno di implementare sempre più modifiche per prevenire, ridurre l’impatto e comunicare meglio su guasti di questo tipo. Non è mancato poi un altro annuncio: “Ci scusiamo per la portata dell'impatto che questo incidente ha avuto sui nostri clienti e sulle loro attività. Prendiamo molto seriamente qualsiasi incidente che influisca sulla disponibilità e l'affidabilità dei nostri clienti, in particolare gli incidenti che interessano più regioni. Stiamo conducendo un'indagine approfondita sull'incidente e renderemo le modifiche risultanti da tale indagine la nostra massima priorità in Google Engineering.”