No último dia 5 junho, um dos data centers da Amazon Web Services (AWS) em Sydney, na Austrália, ficou fora do ar por mais de 6 horas devido a uma falha de energia.
Conheça a história de Oliver e Lucas, dois administradores de sistemas cujo fim de semana foi afetado, de forma diferente, por esse incidente.
A previsão do tempo indicava a ocorrência de tempestades naquele domingo. Isso fez com que Oliver trocasse o costumeiro passeio de bike por ficar em casa assistindo um jogo do seu time no campeonato de rugby. Entre uma cerveja e outra, ele já estava para lá de relaxado por volta das 16h, quando os primeiros alertas de sistema fora do ar começaram a chegar.
Oliver é um Sysadmin centralizador, que gosta de controlar de perto seus servidores. Gerencia um time de TI enxuto na empresa, bem ao gosto do seu diretor. Se dependesse deles, os sistemas críticos da indústria ainda estariam rodando internamente mas, após a venda do negócio para um grupo multinacional, veio a ordem expressa: a equipe tinha 90 dias para migrar todos os sistemas para a nuvem pública da Amazon (AWS) para se adequar aos padrões da nova organização. E assim foi feito.
Lucas estava na festa de aniversário de uma amiga da filha naquele domingo. A chuva forte forçou uma mudança de planos e a festa do quintal foi transferida para dentro de casa, tornando o ambiente uma caixa de ressonância em que estabelecer um diálogo era praticamente impossível. Por isso, ao invés da conversar, os pais perambulavam pela casa atrás dos filhos, desviando de brinquedos e salgadinhos pisados em um ballet desajeitado.
Nos últimos anos, Lucas tornou-se um evangelista da computação em nuvem. Estudou diferentes provedores e convenceu a diretoria a fazer projetos piloto em ambiente cloud. A justificativa foi facilitar o acesso dos usuários móveis às aplicações e elevar a nível de serviço através de uma arquitetura redundante, distribuída em vários data centers. Após a fase piloto, os sistemas da empresa foram sendo gradualmente migrados para a nuvem, em um processo que levou um ano.
O data center onde ocorreu a falha de energia hospedava 100% das aplicações da empresa de Oliver. A AWS mantém 3 data centers interligados na região, mas Oliver preferiu apostar no baixo risco de uma falha de grandes proporções ocorrer. Além disso, concentrar os servidores em um só lugar facilitava o trabalho de gerenciamento.
Após receber os alertas de monitoramento, Oliver tentou acessar seus servidores e começou a suar frio. Nada respondia, nem mesmo o painel de gerência da nuvem estava disponível. O próximo passo foi consultar a página de status da AWS e, então, veio o choque. A tela mostrava a informação indelével: todo o data center estava off-line devido à pane elétrica, sem previsão de retorno.
Oliver sabia das possíveis consequências disso. Mais do que uma simples indisponibilidade no fim de semana, havia o risco de que o desligamento abrupto dos servidores do sistema corporativo tivesse corrompido o banco de dados principal. Se isso tivesse ocorrido, seria preciso recorrer ao último backup disponível, um processo que levaria em torno de 8 horas para ser concluído. Somado ao prazo, ainda indefinido, para a energia voltar, havia o sério risco de não haver sistema corporativo para a indústria funcionar no dia seguinte. A única alternativa naquele momento era aguardar.
Na TV, termina o primeiro tempo da partida de rugby, com o time do Oliver perdendo de 21 a 10.
Quando Lucas percebeu que alguns de seus servidores estavam fora do ar, acessou imediatamente o site de e-commerce da empresa para verificar o estado dos serviços. Observou que as páginas estavam respondendo com lentidão e que havia algo errado com o processo de compra. Os produtos selecionados não estavam sendo salvos no carrinho, impedindo o fechamento dos pedidos. Consultando o monitoramento com mais atenção, viu que o servidor master em que são gravados os dados, havia caído.
Como estava preso na festa de aniversário, Lucas ligou para o seu técnico de plantão, que já estava a par da situação. Após uma rápida conversa, decidiram promover um novo master a partir de uma das réplicas e aumentar temporariamente o número de servidores de aplicação nos data centers que permaneciam ativos. Cerca de 20 minutos depois do incidente, o site voltou a responder normalmente. Lucas perdeu o parabéns da aniversariante, mas ainda pode salvar uma fatia de bolo que comeu enquanto descobria o paradeiro da filha.
Já havia passado mais de uma hora após o desligamento do data center e Oliver estava com os batimentos acelerados. O painel de gerência da nuvem havia voltado ao ar, mas os servidores nem sequer eram listados.
Foi quando recebeu uma ligação do seu diretor. Ele estava em viagem, trabalhando em uma apresentação que faria para o conselho executivo no dia seguinte e precisando acessar o sistema corporativo. Oliver contou sobre a falha de energia e a indefinição do prazo de retorno. Preferiu não compartilhar com o chefe a preocupação com a integridade do banco de dados.
Nas horas seguintes, enquanto esperava por sinais vitais do sistema, Oliver repassou as conversas que havia tido com seus pares após a compra da organização, repletas de recomendações para ativação de redundâncias. Lembrou dos manuais de boas práticas mostrando que toda infraestrutura em nuvem é composta por múltiplos fornecedores: provedores, empresas de telecom e concessionárias de energia; e que cada parte só controla a disponibilidade dos recursos dentro de seus domínios. Ruminou a frase cunhada por Werner Vogels, chefe de tecnologia da AWS: “Tudo falha, o tempo todo”, e desejou voltar no tempo.
Por volta de 22h, o painel de gerência da nuvem estava funcional e Oliver iniciou a recuperação dos sistemas. Para seu alívio, após algumas horas de trabalho, todos os servidores estavam no ar, incluindo o banco de dados principal. A indústria funcionaria normalmente naquela segunda-feira.
O mesmo não se pode dizer do chefe do Oliver, que respondeu às 2 da manhã o WhatsApp sobre a restauração do sistema: “Too late for me, mate”.
***
A computação em nuvem pode levar a empresa a novos patamares de produtividade e agilidade. Contudo, seu uso requer planejamento e adaptação ao ambiente. E você, quais cuidados considera essenciais ao migrar sistemas para a nuvem?