Эксплуатация многофункциональной распределенной системы в условиях реактивной разработки.

Это заявка на доклад. Он пока не включен в программу.

Max Vikharev

CTO alytics.ru

За десять лет профессиональной деятельности посчастливилось принимать непосредственное участие в двух технологических стартапах.
* В первом был пройден путь от junior C/С++ разработчика до специалиста по безопасности и релиз инженера SDK и прикладных приложений (2007 - 2012, termt.com - первый отечественный производитель POS терминалов, сертифицированный PCI PED).
* Во втором (текущем) - путь от основателя, разработчика, до руководителя команды разработки. Сервис автоматизации контекстной рекламы alytics.ru первый открыл публичный доступ к системе с такими возможностями в 2012, разработав проект с нуля. Мы разрабатываем прогрессивные инструменты, принимая вызов нагрузок и дальнейшего роста.

Мы в Alytics занимаемся автоматизацией бизнес процессов в сфере контекстной рекламы. Мы разрабатываем сервис, с помощью которого конечный рекламодатель повышает профит от контекста. Наши инструменты освобождают головы специалистов по маркетингу от рутины, предоставляя целый арсенал средств и готовых паттернов для решения различного рода задач.

Сложилось так, что мы первые в России открыли публичный доступ к системе такого рода, разработав систему с нуля. На текущий момент она состоит из 27 приложений и 206 различных тасок (операций), которые создают всевозможные виды нагрузок. В этом докладе собираюсь рассказать про некоторые из проблем и вызовов, с которыми нам пришлось столкнуться в процессе стабилизации эксплуатации системы, поделиться выработанными подходами к их решению.

* Скользкая тропинка: от прототипа на коленке до распределенной системы из 27 приложений и 276 видов операций.
* Типичная архитектура системы обработки очередей
* Мониторим это. Абсолютный минимум для мониторинга инфраструктуры. Обнаружение аномалий.
* Внешний сервис = миллион проблем. Обучающаяся система обработки ошибок (типизация ошибок в процессе эксплуатации, задание правил обработки)
* "Мы не можем контролировать то что не можем посчитать". Детализируем метрики.
* "А че тупит то?". Детализируем использование ресурсов.
* "А у меня все ходы записаны". Детализированное логирование и трассировка. Центр мониторинга и админка.
* "Откуда этот SQL?". Выявление медленных запросов ORM. Дэшборд производительности на основе реалтайм метрик всех приложений и операций
* "Люк, используй метрики с умом". Планировщик задач: от ручного анализа метрик и распределения воркеров до динамической балансировки нагрузки на основе предполагаемой стоимости задачи.
* "Колодец инцидентов". Fix it. Or automate it. Then Refactor it.
* Grow Checklist. Plan optimizations.

Архив DevConf 2016

Эксплуатация многофункциональной распределенной системы в условиях реактивной разработки.