12 июня «сломался интернет»
12 июня «сломался интернет»Примерно в 19:51 по Барселоне началось и продолжалось до 03:18 ночи, основные сервисы удалось поднять к 22:49Пострадали более 50 сервисов Google Cloud и Workspace, включая:GCP (Google Cloud Platform): API Gateway, Compute Engine, Cloud Storage, BigQuery, Spanner, Pub/Sub, Cloud Run, Workstations, Memorystore, Vertex AI, AlloyDB, Firestore, API Gateway, IAM и др. Workspace: Gmail, Drive, Docs, Meet, Chat, Calendar, Tasks, Voice, AppSheet и т.д. Это отразилось и не на гугловских сервисах Spotify, Discord, Snapchat, Twitch, Character.AI, Shopify, Anthropic, Etsy, Cloudflare, Gitlab, YouTube, OpenAI(ChatGPT) и др👉Причина:29 мая была внедрена новая фича в систему Service Control (отвечает за политику и квоты), которая не имела feature‑флага и содержала баг с ошибкой null‑pointer при определённых условиях 12 июня кода был добавлен ранее пустой/некорректный квотный объект, который активировал баг, и Service Control начал аварийно падать по всему миру роняя за собой остальные сервисы👉Как исправлялиВ течение 2 минут SRE-руководители начали расследование (верим?), через 10 минут локализовали причину и запустили «красную кнопку», отключающую проблемный путь .Через 40 минут нормализация началась и прошла по регионам; однако работа в регионе us-central1 зависала дольше из-за перегрузки базы квот и отсутствия экспоненциальных задержек — полное восстановление случилось примерно через 2 часа 40 минут после начала Подробный RCA тут☀️☀️☀️На самом же деле первая запись что инцидент есть на статус странице https://status.cloud.google.com поставили через 46 минут после начала инцидента в 20:37 по Барселоне (а сбой начался в 19:51).К 22:49 восстановили основные сервисы (через 2 часа).👉Немно отличается от опубликованного RCA (Root Cause Analysis)**это разбор инцидента по шагам: что случилось, почему, как восстанавливали и что сделают, чтобы больше не повторилось.В официальном RCA указано что проблему начали изучать после 2 минут после начала, а через 10 мин уже локализовали и начали чинить.🦸♂️В Гугле наверняка работают супермены, но думаю в таких больших компаниях они бы 10 мин только авторизовывались в свои системы мониторинга, наверняка есть внутренний RCA с реальным таймингом) но для больших компаний немного фэнтезийный чтобы акции не падали и клиенты не уходилиНо в целом хорошо знать что даже супермены забывают добавлять фича флаги, и писать код так чтобы не было Null pointer, ошибку, достаточно типичнуюЯ иногда поглядываю репорты инцидентов крупных компаний, и там обычно никакой магии, но импакт конечно большой, одно дело не обработать ошибку в пет проекте а другое заимпактить миллионы пользователей)#программирование | @andreyposnov