Как SRE делает HeadHunter стабильным
DevOps(зал Технология)
: Jun 17 11:00
HeadHunter - сайт, где соискатели находят работу, а работодатели - сотрудников.
К нам приходит до 4,500 запросов в секунду, которые превращаются в 32,000 запросов в секунду к бэкендам и более 70,000 запросов в секунду к базам данных.
Еще 2 года назад доступность сайта падала ниже 99%, но мы исправились и теперь стабильно выходим из 99,9%.
В докладе расскажу о том, чем занимается команда SRE (site reliability engineering) в HeadHunter.
Большую часть времени посвящу граблям, на которые мы напоролись, и решениям:
- Проблема протухающих запросов и fail-fast
- Лавина ретраев и как правильно балансировать между сервисами
- Лишние промежуточные звенья архитектуры
- Наш опыт использования микросервисов