Quello che possiamo imparare dal blocco di Facebook

Abbiamo chiesto all’esperto informatico Marco Avidano di analizzare  possibili cause ed effetti del black out di Facebook avvenuto il 4 ottobre 2021.

 

Quello che possiamo imparare dal blocco di Facebook

Marco Avidano*

Il 4 ottobre 2021 il gigantesco sistema di Menlo Park che gestisce diverse piattaforme, Facebook, Instagram, Whatsapp e centinaia di altri servizi ha subito un blackout in tutto il mondo che è durato oltre 7 ore.

Uno degli effetti che ha attirato di più l’attenzione è che i dipendenti della piattaforma non riuscivano a entrare negli edifici dell’azienda perché anche i badge con cui sono regolati gli accessi avevano smesso di funzionare. Secondo il New York Times Facebook avrebbe mandato un team di tecnici nei suoi data center in California per sistemare le configurazioni manualmente.

Il fatto che sia stato necessario un intervento manuale con accesso fisico ai sistemi vuol dire che il problema si è verificato a bassissimo livello sulla rete, anche se sapere le cause effettive di quanto accaduto è difficile. L’unica cosa certa è che questo tipo di problemi possono accadere, e accadono: si dice che è impossibile, ma sappiamo che se una cosa può andare storta lo farà, ed è importante valutarne le possibili conseguenze a priori, soprattutto in relazione a come si sta impostando la società di oggi e del futuro.

Vi è una percezione profondamente sbagliata della rete: al giorno d’oggi si agisce dando la connettività per scontata. Si pianifica la vita considerando la rete come sempre presente, come esiste l’aria per respirare, o l’acqua da bere. Ma non è così, come si vede da eventi come questo accaduto a Facebook.

Al di là delle specifiche del blackout di Facebook, quello che preoccupa è che spesso i sistemi che gestiscono sempre più aspetti della vita quotidiana, diciamo offline, non hanno “reti di salvataggio”. Si parla di alternative che considerano la non disponibilità della rete: avere alternative che hanno il solo scopo della ridondanza è scomodo, costoso, ed incide sul profitto. Mantenere attive e il personale formato per l’utilizzo di tali alternative è ancora più oneroso, così che sempre più spesso una “seconda strada” proprio non viene affatto considerata. Il risultato è che il blocco di una parte del sistema porta al fermo di tutte le attività, anche di quelle che nulla o poco hanno a che fare con la parte effettivamente interessata dal malfunzionamento.

Tutti i sistemi di Facebook sono impostati come un ecosistema totalmente autonomo, una rete che dipende solo da sé stessa: ma un sistema così fatto, per quanto sofisticato e enorme, è esposto a incidenti per i quali non si ha una riserva. E questo è quello che è successo.

Per risolvere il blocco occorreva poter accedere fisicamente alle macchine, ma gli accessi fisici sono sempre rigidamente regolamentati, per ovvie questioni di sicurezza. Le autorizzazioni necessarie non hanno potuto arrivare in tempi rapidi perché le comunicazioni erano complicate dagli effetti secondari del blocco: i badge, le mail, i sistemi interni non erano raggiungibili. Allo stesso tempo c’erano problemi nella reperibilità dei tecnici e nella coordinazione degli interventi, sempre per il blocco degli strumenti di comunicazione.

Mentre il blocco era in corso, ho cercato di analizzare la situazione per quanto si poteva fare da remoto poiché, in qualità di amministratore di sistema, c’è una forte curiosità verso questi episodi, soprattutto se accadono a dei giganti come Facebook, per capire cosa era successo e imparare dagli errori per evitarne il ripetersi.

 

I DNS

Da una prima e basilare analisi, si poteva vedere che il dominio di Facebook era introvabile perché i DNS erano irraggiungibili. I DNS, Domain Name System, erano irraggiungibili non perché fossero direttamente bloccati, ma perché i server su cui giravano erano introvabili nella rete. Tutta la rete di Facebook era introvabile.

Per comprendere appieno questo evento occorre avere una conoscenza del funzionamento di internet a basso livello, ma è possibile fare paragoni con il mondo “analogico” per capire cosa è successo.

I DNS sono come una rubrica telefonica: se sai il nome della persona vai sulla rubrica e trovi l’indirizzo e il numero di telefono. Questa rubrica di per sé era a posto, era dove la si era lasciata l’ultima volta che era stata usata. Ma era come se si fosse dimenticato dove era: le informazioni erano tutte lì, ma chissà dove. O per essere più precisi: si era scordato dove era la città con la casa in cui la rubrica era contenuta, come se fosse una nuova Atlantide. Città in cui c’erano anche tutte le altre persone registrate nella rubrica. Infatti, anche avendo avuto con sé una copia della rubrica non era possibile contattare le altre persone, dato che erano in una città che non si sapeva più dove fosse. In questo esempio, la città era Facebook, con tutti i suoi servizi.

Tornando alla realtà di quanto accaduto, entrano a questo punto in gioco tutti i protocolli di rete che regolamentano i modi in cui i vari componenti di internet possono trovarsi l’un l’altro.

L’errore si era verificato in uno di questi protocolli, un livello molto basso della rete, tramite cui i vari sistemi comunicano la loro esistenza in relazione ad altri sistemi: io conosco te, tu conosci un’altra persona, quindi tramite te posso entrare in contatto con questa terza parte. Se tu sparisci, io so che quell’altra persona esiste ma non la so raggiungere perché tu eri il tramite. Il protocollo BGP mantiene queste relazioni tra i nodi principali della rete: quello che è successo, è che Facebook aveva smesso di dire al resto del mondo che esisteva, e come raggiungerla, a causa di un errore nelle configurazioni a livello di BGP.

Quando l’errore è stato sistemato, ci sono poi volute alcune ore prima che il sistema fosse completamente ripristinato in tutto il mondo: questi protocolli sono abbastanza lenti, e le informazioni richiedono tempo prima di propagarsi in tutta la rete, in una sorta di passaparola.

 

Il danno economico

I media hanno parlato di danni economici enormi, valutati con l’ordine dei miliardi di dollari. Quella che ha fatto più scalpore è stata la perdita in borsa: tuttavia questa è stata una perdita fittizia e temporanea, causata dal calo immediato del valore delle azioni di Facebook. In realtà il valore delle azioni è poi risalito, e nel frattempo è di nuovo ridisceso e poi risalito, e così via: è il mercato azionario, dove miliardi di dollari spariscono o vengono creati come dal nulla, ed è poco indicativo per valutare cosa effettivamente succede nel mondo reale, benché gli effetti di tali fluttuazioni spesso insensate abbiano effetti anche tragici sulla vita delle persone.

Le perdite vere e dirette causate da questo down sono i mancati guadagni derivanti dalla pubblicità. Ripercussioni dirette le hanno avute anche quei servizi che usano esclusivamente il login tramite Facebook per accedere agli account: siti di e-commerce e servizi le cui attività nulla hanno a che fare con Facebook, se non per il login, si sono trovati bloccati per ore perché gli utenti non potevano accedere ai loro account.

 

La centralizzazione e il gigantismo

l problemi qui sono il gigantismo di queste reti e la loro centralizzazione.

Internet è nata dall’evoluzione di reti militari, il cui punto chiave era la decentralizzazione: questo era ciò che ne garantiva il funzionamento in ogni circostanza, anche in caso di attacchi nucleari che avrebbero potuto bloccarne una parte. Non dovevano esserci nodi chiave indispensabili, i cosiddetti Single Point Of Failure: punti che, se bloccati, avrebbero comportato il collasso completo del sistema.

Internet è nata così, e si è evoluta tenendo sempre ben a mente questo punto: oggi è una rete globale con miliardi di nodi interconnessi tra loro, e questo è ciò che ne garantisce la robustezza. Certo, porzione di Internet possono diventare irraggiungibili: ma Internet di per sé è sempre lì. Ovunque, e da nessuna parte.

Tuttavia, si sta tendendo a dimenticare queste regole base, e c’è ora una corsa alla centralizzazione come se fosse un Paradiso Terrestre in cui tutto è bello e perfetto: il “Cloud”.

Pochi giorni fa è accaduto un altro evento, che ha fatto meno notizia: uno dei più grandi provider a livello mondiale, una società che gestisce una trentina di datacenter a livello internazionale, ha vissuto un problema simile a quello di Facebook, sparendo da internet per un’ora circa, a causa di un aggiornamento di alcuni apparati di rete andato molto male. Il risultato è che per oltre un’ora decine di migliaia di siti e servizi sono stati irraggiungibili: non solo siti “normali”, ma anche servizi come sistemi di fatturazione, prenotazioni mediche, e ovviamente sistemi di gestione delle cosiddette Smart Home che si appoggiano a server online.

La crescita smodata di queste reti comporta uno sforzo enorme per la loro gestione. Essendo decine se non centinaia di migliaia, è impensabile che queste macchine vengano gestite singolarmente, con attenzione: vengono quindi raggruppate in sezioni, e aggiornamenti e nuove configurazioni vengono inviate in blocco. Può capitare però che queste nuove configurazioni siano errate, o che vengano selezionate per sbaglio le sezioni di rete su cui inviarle: le conseguenze possono essere tragiche, fino al blocco completo e la necessità di riavvio manuale, come pare essere appunto accaduto a Facebook.

Oggi sembra di essere sempre in ritardo. Ancor prima di iniziare un nuovo lavoro si è già sforato nei tempi. Si pianificano gli interventi assegnando metà del tempo necessario. Così agendo, per forza si finisce con il tralasciare qualcosa: questa corsa a una crescita incontrollata, come se stesse per finire il tempo, sta creando i presupposti per la tempesta perfetta.

 

Una rete sovraesposta

Il problema è ulteriormente aggravato dal fatto che Internet è oggi usata per gestire dispositivi che non sono nati con l’online in mente: prendiamo ad esempio i sistemi centralizzati di riscaldamento, condizionamento, TV, frigoriferi, e così via. Ma anche linee industriali: ormai praticamente tutto è collegato ad internet e gestibile da remoto.

Certo è una gran comodità: lo si è visto soprattutto nel periodo del lockdown, durante il quale nonostante le difficoltà di spostamento le attività sono comunque potute andare avanti.

Ma le cose devono essere fatte con attenzione: questa comodità non può diventare l’unica strada, se no la rete stessa diventa uno di quei Single Point of Failure che venendo a mancare comporta il blocco completo. Certo è comodo poter accendere il riscaldamento di casa anche con lo smartphone mentre sto tornando dal lavoro, ma non va bene poterlo fare solo con lo smartphone: è assurdo rimanere al buio in casa solo perché un server dall’altra parte del mondo è irraggiungibile. Il rischio è la perdita del controllo della nostra vita.

Inoltre bisogna considerare che ogni volta che si apre una porta nuova, si crea un passaggio che può essere abusato da malintenzionati. Il fatto che si tratti di un accesso secondario non significa che passando attraverso di esso si abbia meno potere: un ladro che entra in casa farà lo stesso danno sia entrando dall’ingresso principale, sia passando per il finestrotto della cantina. E gli accessi secondari sono i più interessanti per i malintenzionati, perché sono sempre meno controllati.

 

Attacchi maligni

Oltre all’errore umano, blocchi alla rete possono accadere anche intenzionalmente. Gli attacchi informatici sono all’ordine del giorno: spesso si tratta di azioni finalizzate al guadagno economico, come accade nel caso dei ransomware con le richieste del pagamento di un riscatto per recuperare dati.

Ma non finisce qua: queste azioni possono anche essere compiute da governi maligni, sia per il controllo della popolazione del proprio paese, sia verso altri paesi. Si è sentito dire più volte che probabilmente la terza guerra mondiale si combatterà online: purtroppo questa non è fantascienza. In uno scenario del genere, le carte in gioco vengono completamente rimescolate: i paesi più vulnerabili diventano quelli più tecnologicamente avanzati, dato che la popolazione dipende sempre più, e in modo sempre più esclusivo, dalla rete per ogni attività quotidiana. E non servono eserciti numerosi o soldati valorosi e coraggiosi per essere i più forti: saranno i matematici a fare la differenza.

Eventi come quello accaduto a Facebook sono importanti, se non fondamentali, per ognuno di noi: ci danno la possibilità di valutare oggettivamente la nostra dipendenza dalla rete. Troppo spesso non si ha idea di quanto ciò sia vero: non si sa più leggere una cartina stradale, non si sa più cercare un’informazione su una enciclopedia (ammesso che la si abbia), e se va bene al massimo ci si ricorda a memoria il proprio numero di telefono. Dovremmo tutti riflettere su questi aspetti, e chi gestisce questi grossi sistemi dovrebbe sentirsi un po’ meno potente, meno infallibile e sicuro, e consapevole delle responsabilità che si sta prendendo. Dovremmo capire che la rete forse non è così affidabile come si pensa. Perché non lo è.

 

*esperto di sicurezza informatica, è amministratore di reti.

 

 

 

Articoli correlati

OPS...
CI MANCANO ALCUNI TUOI DATI

Completa il tuo profilo prima di continuare