Equipe 1 — Resiliência & Escalabilidade
Estudo de incidente
DynamoDB DNS Outage · us-east-1 · Out / 2025

Quando uma falha de DNS
derruba 141 serviços.

Provedor
AWS
Origem
DynamoDB
Equipe 1
Eric Magno Fabio Brasileiro Guilherme Reis Heloisa Cativo João Vitor Mateus Mike Victor Levy
01 · Diagnóstico

Por que a falha se propagou?

02 / 09

O endpoint regional do DynamoDB era dependência transitiva de quase todos os serviços de us-east-1.

Sem rota alternativa nem cache local, cada dependente parou no mesmo instante — efeito dominó dentro de uma única região.

141
Serviços afetados a partir de um ponto
DNS DynamoDB Lambda IAM / STS SQS Console EC2 metadata Billing
02 · Conceito teórico

Teorema CAP: escolha dois.

03 / 09
C Consistência A Disponibilidade P Partição AP
C

Consistência

Todos os nós veem os mesmos dados ao mesmo tempo.

A

Disponibilidade

Toda requisição recebe resposta — sem garantia de ser a mais atual.

P

Tolerância a Partição

O sistema continua operando mesmo com falha entre nós.

Violação observada
A região priorizou C sobre A e parou de responder durante a partição interna.
03 · Estado atual

Antes — uma região, um único caminho.

04 / 09
REGIÃO · us-east-1 Clientes 141 svcs DNS Resolver single path ENDPOINT DynamoDB FAULT AZ-1 / AZ-2 AZ-3 / AZ-4
origem da falha infra dependente caminho rompido
04 · Arquitetura proposta

Depois — replicação ativa-ativa cross-region.

05 / 09
ROTEAMENTO GLOBAL Roteador global REGIÃO A · us-east-1 DNS local DynamoDB CKPT REGIÃO B · us-west-2 DNS local DynamoDB CKPT A ↔ B ISOLAMENTO POR DOMÍNIO Identidade Persistência Mensageria Billing Métricas Console BULKHEADS falha em 1 ≠ queda dos outros
réplica primária infra local replicação ativa-ativa
05 · Mecanismos

Três mecanismos sustentam a proposta.

06 / 09
M1 · Replicação

Ativa-ativa cross-region

Toda escrita é aceita em qualquer região e propagada nas duas direções. A queda de uma região não interrompe leituras nem gravações.

REG A REG B
M2 · Isolamento

Bulkheads + scale out por domínio

Cada domínio (identidade, billing, métricas…) tem sua própria capacidade horizontal. Uma queda não consome recursos dos demais.

M3 · Recuperação

Checkpoints de estado do DNS

Snapshots periódicos da tabela de resolução permitem voltar ao último estado válido em segundos, sem reconstruir o cache.

06 · Trade-offs

O que se perde — e o que se ganha.

07 / 09

Perde

  • 01
    Consistência forte global.Réplicas podem divergir por janelas curtas — adota-se consistência eventual.
  • 02
    Custo operacional.Mais regiões, mais tráfego cross-region, mais armazenamento replicado.
  • 03
    Complexidade de roteamento.Resolução de conflitos e política de quórum ganham peso.

+Ganha

  • 01
    Disponibilidade contínua.Falha em uma região é absorvida sem queda perceptível.
  • 02
    Raio de impacto reduzido.Bulkheads impedem que um domínio em pane consuma os outros 140.
  • 03
    Recuperação em segundos.Checkpoints permitem voltar ao último estado válido sem reaquecer cache.
07 · Perguntas-guia

Respostas esperadas.

08 / 09
Q1

Por que a falha em um único serviço se propagou para 141 outros?

Porque o endpoint de DynamoDB era dependência transitiva de quase todos os serviços da região, sem rota alternativa nem cache local.

Q2

Qual conceito teórico foi violado?

O Teorema CAP: sob partição de rede, a região priorizou consistência e perdeu disponibilidade — o oposto do necessário para um plano de controle.

Q3

Como a arquitetura proposta evita a recorrência?

Replicação ativa-ativa cross-region, isolamento por domínio com scale out e checkpoints de estado do DNS para recuperação rápida.

Q4

Qual o custo dessa decisão?

Aceitar consistência eventual entre regiões e maior custo operacional, em troca de disponibilidade contínua e raio de impacto controlado.

Fechamento

De um caminho único para uma malha que continua respondendo
quando uma parte cai.

Conceito-chave

Tolerância a falhas e escalabilidade não são propriedades isoladas: emergem da combinação de redundância, isolamento e estado recuperável.

Próximo passo

Validar a estratégia de quórum entre réplicas e definir o intervalo de checkpoint que melhor equilibra RTO e custo.