Хочу всё сжать

Storage(Аудитория №2) : May 18 15:45

Андрей Аксенов

Всю жизнь пишет низкоуровневый код, в 2018 все еще делает поисковый движок Sphinx.

Ловко придумать схему сжатия для своих данных умеют не все, а очень зря. Иногда (иногда) при помощи этой магии удается добиться как бы невозможного: одновременно и сэкономить диск или память, и при этом ускорить код.

Как работает магия сжатия в целом? Как она работает более конкретно в очень разных продуктах: "просто базах" типа MySQL или Mongo; в поисковиках типа Lucene или Sphinx (или даже веб-поисках); в колоночных хранилищах типа Vertica или Clickhouse; в конце концов, внутри апдейтов Chrome? Обсудим это, пробежимся по всем важным ключевым словам от замшелых Huffman до моднейших Snappy - и, важнее, по ещё паре десятков других ключевых слов. Подробно разберем несколько особо интересных методов и трюков про сжатие и прочую перепаковку данных. Посмотрим пример на 100 строк кода со сжатием в 6 раз и одновременным ускорением работы в 5 раз (читерством, конечно), причем успешно написанный не специально обученным монстром, а совершенно обычными разработчиками. Посмотрим на скорость разных готовых кодеков, попытаемся понять, когда какой можно применять, а где нельзя.

+ Full disclosure: доклад уже пару раз докладывался, в том числе на Highload 2017, и даже доступны записи. Однако!

+ Bonus track: поскольку длительность в 1.5 часа наконец позволяет, то на этот раз успеем разобраться, как устроено сжатие картинок (PNG, JPEG, wavelets и прочее); возможно, очень-очень поверхностно затронем сжатие видео.

Презентация

Архив DevConf 2018

Хочу всё сжать