Equipe 1 — Resiliência & Escalabilidade

Estudo de incidente

DynamoDB DNS Outage · us-east-1 · Out / 2025

Quando uma falha de DNS
derruba 141 serviços.

Provedor: AWS
Origem: DynamoDB
Equipe 1: Eric Magno Fabio Brasileiro Guilherme Reis Heloisa Cativo João Vitor Mateus Mike Victor Levy

O endpoint regional do DynamoDB era dependência transitiva de quase todos os serviços de us-east-1.

Sem rota alternativa nem cache local, cada dependente parou no mesmo instante — efeito dominó dentro de uma única região.

141

Serviços afetados a partir de um ponto

Consistência

Todos os nós veem os mesmos dados ao mesmo tempo.

Disponibilidade

Toda requisição recebe resposta — sem garantia de ser a mais atual.

Tolerância a Partição

O sistema continua operando mesmo com falha entre nós.

Violação observada

A região priorizou C sobre A e parou de responder durante a partição interna.

origem da falha infra dependente caminho rompido

réplica primária infra local replicação ativa-ativa

M1 · Replicação

Ativa-ativa cross-region

Toda escrita é aceita em qualquer região e propagada nas duas direções. A queda de uma região não interrompe leituras nem gravações.

M2 · Isolamento

Bulkheads + scale out por domínio

Cada domínio (identidade, billing, métricas…) tem sua própria capacidade horizontal. Uma queda não consome recursos dos demais.

M3 · Recuperação

Checkpoints de estado do DNS

Snapshots periódicos da tabela de resolução permitem voltar ao último estado válido em segundos, sem reconstruir o cache.

−Perde

01
Consistência forte global.Réplicas podem divergir por janelas curtas — adota-se consistência eventual.
02
Custo operacional.Mais regiões, mais tráfego cross-region, mais armazenamento replicado.
03
Complexidade de roteamento.Resolução de conflitos e política de quórum ganham peso.

+Ganha

01
Disponibilidade contínua.Falha em uma região é absorvida sem queda perceptível.
02
Raio de impacto reduzido.Bulkheads impedem que um domínio em pane consuma os outros 140.
03
Recuperação em segundos.Checkpoints permitem voltar ao último estado válido sem reaquecer cache.

Por que a falha em um único serviço se propagou para 141 outros?

Porque o endpoint de DynamoDB era dependência transitiva de quase todos os serviços da região, sem rota alternativa nem cache local.

Qual conceito teórico foi violado?

O Teorema CAP: sob partição de rede, a região priorizou consistência e perdeu disponibilidade — o oposto do necessário para um plano de controle.

Como a arquitetura proposta evita a recorrência?

Replicação ativa-ativa cross-region, isolamento por domínio com scale out e checkpoints de estado do DNS para recuperação rápida.

Qual o custo dessa decisão?

Aceitar consistência eventual entre regiões e maior custo operacional, em troca de disponibilidade contínua e raio de impacto controlado.

Fechamento

De um caminho único para uma malha que continua respondendo
quando uma parte cai.

Conceito-chave

Tolerância a falhas e escalabilidade não são propriedades isoladas: emergem da combinação de redundância, isolamento e estado recuperável.

Próximo passo

Validar a estratégia de quórum entre réplicas e definir o intervalo de checkpoint que melhor equilibra RTO e custo.

Quando uma falha de DNS
derruba 141 serviços.

Por que a falha se propagou?

Teorema CAP: escolha dois.

Consistência

Disponibilidade

Tolerância a Partição

Antes — uma região, um único caminho.

Depois — replicação ativa-ativa cross-region.

Três mecanismos sustentam a proposta.

Ativa-ativa cross-region

Bulkheads + scale out por domínio

Checkpoints de estado do DNS

O que se perde — e o que se ganha.

−Perde

+Ganha

Respostas esperadas.

De um caminho único para uma malha que continua respondendo
quando uma parte cai.

Quando uma falha de DNSderruba 141 serviços.

Por que a falha se propagou?

Teorema CAP: escolha dois.

Consistência

Disponibilidade

Tolerância a Partição

Antes — uma região, um único caminho.

Depois — replicação ativa-ativa cross-region.

Três mecanismos sustentam a proposta.

Ativa-ativa cross-region

Bulkheads + scale out por domínio

Checkpoints de estado do DNS

O que se perde — e o que se ganha.

−Perde

+Ganha

Respostas esperadas.

De um caminho único para uma malha que continua respondendoquando uma parte cai.

Quando uma falha de DNS
derruba 141 serviços.

De um caminho único para uma malha que continua respondendo
quando uma parte cai.