O endpoint regional do DynamoDB era dependência transitiva de quase todos os serviços de us-east-1.
Sem rota alternativa nem cache local, cada dependente parou no mesmo instante — efeito dominó dentro de uma única região.
Todos os nós veem os mesmos dados ao mesmo tempo.
Toda requisição recebe resposta — sem garantia de ser a mais atual.
O sistema continua operando mesmo com falha entre nós.
Toda escrita é aceita em qualquer região e propagada nas duas direções. A queda de uma região não interrompe leituras nem gravações.
Cada domínio (identidade, billing, métricas…) tem sua própria capacidade horizontal. Uma queda não consome recursos dos demais.
Snapshots periódicos da tabela de resolução permitem voltar ao último estado válido em segundos, sem reconstruir o cache.
Por que a falha em um único serviço se propagou para 141 outros?
Porque o endpoint de DynamoDB era dependência transitiva de quase todos os serviços da região, sem rota alternativa nem cache local.
Qual conceito teórico foi violado?
O Teorema CAP: sob partição de rede, a região priorizou consistência e perdeu disponibilidade — o oposto do necessário para um plano de controle.
Como a arquitetura proposta evita a recorrência?
Replicação ativa-ativa cross-region, isolamento por domínio com scale out e checkpoints de estado do DNS para recuperação rápida.
Qual o custo dessa decisão?
Aceitar consistência eventual entre regiões e maior custo operacional, em troca de disponibilidade contínua e raio de impacto controlado.
Tolerância a falhas e escalabilidade não são propriedades isoladas: emergem da combinação de redundância, isolamento e estado recuperável.
Validar a estratégia de quórum entre réplicas e definir o intervalo de checkpoint que melhor equilibra RTO e custo.