youROCK 19 сен 2016 в 13:36

Badoo открывает исходные коды Live Streaming Daemon

7 мин

16K

Блог компании BadooВеб-разработка*Программирование*Go*Разработка под Linux*

+44

Комментарии 34

RPG18 19 сен 2016 в 13:51

Удивительно, что не тестировали RabbitMQ.

Scalar 19 сен 2016 в 14:36

Мне кажется, что RabbitMQ не удовлетворяет и половине изложенных требований, и вообще является системой более высокого уровня, чем просто доставка событий.

RPG18 19 сен 2016 в 16:21

А Apache Kafka удовлетворяла этим требованиям? А на выходе у них получилась не система высокого уровня?

youROCK 19 сен 2016 в 16:22

Kafka в целом удовлетворяет требованиям, однако не имеет локального агента и соответственно не может буферизовать события на диск в случае недоступности кластера. Об этом сказано в самом начале.

Optik 19 сен 2016 в 17:28

Почему не было варианта реализовать кастомный продьюсер для кафки с требуемым функционалом?

youROCK 19 сен 2016 в 18:22

Да в принципе наверное можно было бы так сделать. На самом деле, код клиента составляет 90% от всего демона, поэтому, чтобы не переписывать консьюмеры для scribe (которые пишут в файлы в описанном в статье формате), можно было уже и сервер написать заодно. Что мы и сделали.
Задача стриминга из файлов (особенно в реальном времени) не такая уж простая из-за того, что сложно реализовать rotate файлов, поэтому её почти никто и не реализует по-человечески. А если писать не в файлы, то могут теряться события при проблемах с демоном. Так что нельзя сказать, что у нас был большой выбор, к сожалению.

Doggy 19 сен 2016 в 21:20

Можете рассказать подробнее какие сложности возникают при реализации ротейта по человечески?

youROCK 20 сен 2016 в 10:40

Основная проблема заключается в том, чтобы не терять события во время ротейта (переименования и удаления) файлов.
Как реализовать ротацию? Допустим, что кто-то пишет в файл cat.log. В каждый момент времени может быть несколько процессов, которые держат файл открытым, поэтому может вообще не быть «окна» по времени, когда файл можно было бы удалить, чтобы появился новый. Ок, вместо этого переименуем файл в cat.log.old и продолжим стримить этот файл. Скорее всего в скором времени опять появится файл cat.log, потому в приложении записано именно это имя.

Теперь у нас 2 файла: cat.log и cat.log.old. Мы должны стримить оба, поскольку мы не знаем, пишет ли кто-нибудь в старый файл или нет. Переименование в .old-файл происходит по достижении определенного размера, и по умолчанию это по-моему 10 Мб. Допустим, что приложения все еще держат открытым файл cat.log.old, и cat.log уже превысил 10 Мб. Если мы еще раз переименуем cat.log в cat.log.old, то это не вызовет никаких ошибок и старый cat.log.old просто заменится на новый. В итоге мы удалим файл, в который кто-то еще мог писать и события потеряются.

Чтобы этого не происходило, мы должны откладывать ротацию до тех пор, пока .old-файл не перестал использоваться и когда его солержимое полностью доставлено на сервера-приемники. Определить использование можно с использованием утилиты fuser или lsof, но часто вызывать их на каждый файл может быть весьма затратно. Можно также воспользоваться трюком с flock() и заставлять писателей (!) брать LOCK_SH на файл, а необходимым условием для ротации файла тогда будет служить полученный LOCK_EX. К сожалению, эта схема не слишком удобна, особенно если вы хотите дать возможность посылать события откуда угодно, вплоть до shell-скриптов.

Вместо этого, чтобы определить, используется ли файл, LSD периодически (по умолчаниюраз в минуту) сканирует procfs и делает stat() на каждый файловый дескриптор, открытый в системе и сверяет номера inode'ов со списком inode'ов файлов, которые мы хотим заротировать. Это позволяет определить использование всех файлов сразу с небольшим оверхедом. Под капотом fuser и lsof точно также сканируют procfs, поэтому этот способ на самом деле не является чем-то особенным.

Теперь, когда с ротацией разобрались, осталась одна маленькая деталь: мы не хотим делать open()-read()-close() на каждое событие, полученное через inotify, поэтому мы держим открытыми файловые дескрипторы у всех файлов вида category.log. Рано или поздно открытый файловый дескриптор начинает смотреть на файл category.log.old и потом вообще на удаленный файл (после второго переименования). Организовать систему внутренних оповещений об изменении имени файла, оказывается, не так просто, как может показаться на первый взгляд, поскольку каждый файл нужно открыть только один раз и не забывать закрывать файловые дескрипторы для удаленных файлов.

mkevac 20 сен 2016 в 11:01

Все ведь сильно упрощается, если в файл пишет ровно один писатель. И если после переименования в cat.log.old появился cat.log, то в cat.log.old уже никто не пишет.

youROCK 20 сен 2016 в 11:10

Да, Марко, но дело в том, что мы делали LSD для замены Scribe, а в scribe мы писали из разных процессов php-fpm :).

Doggy 20 сен 2016 в 11:14

Спасибо за развернутый ответ.

amarao 20 сен 2016 в 12:30

Мне кажется, основная проблема находится как раз в районе идеи «приложение пишет лог-файлы». Если приложение пишет лог-файлы, это значит, что у вас нет никаких гарантий стабильности системы. Потому что приложение может решить быстро писать логи или писать сообщение о том, что заканчивается место на диске для хранения логов со скоростью быстрее производительности дисковой подсистемы и т.д.

Правильное ршение: перевод всех приложений на syslog или journalctl. Если приложение плохо переводится, то его нужно научить писаться в stdout/stderr, а дальше его сам systemctl сложит в syslog правильным образом.

ITweb 20 сен 2016 в 16:49

А почему не использовать уникальное имя для old файлов?

youROCK 20 сен 2016 в 19:07

А как это поможет :)? Все равно нужно удалять файлы, когда они полностью доставлены и в них никто не собирается писать.

amarao 20 сен 2016 в 12:27

В чём разница между «событием» и «сообщением»?

Alantr 19 сен 2016 в 14:07

Как быть в случае бездисковых серверов? Писать на nfs накладно.

mkevac 19 сен 2016 в 14:17

Писать на memory диск?..

youROCK 19 сен 2016 в 14:36

В целом, никто не мешает писать в центральный LSD-сервер «напрямую» (через JSON-протокол или GPB-протокол). Но лучше все же писать куда-нибудь на диск, чтобы события могли там лежать какое-то время и не потеряться. Иначе может получиться, что сервер «лежит» и событий накопилось уже много и они не влезают в память и приходится их «дропать».

vaniaPooh 19 сен 2016 в 14:29

Я так понял, что там только интеграционные тесты на PHP. А модули покрывали тестами? Рекламирую для этих целей библиотечку матчеров от коллеги: https://github.com/aandryashin/matchers

youROCK 19 сен 2016 в 14:33

Нет, модули тестами не покрыты, есть только «самопальные» функциональные тесты на PHP :)

vaniaPooh 19 сен 2016 в 14:47

Второй вопрос — не смотрели ли вы на: https://github.com/nsqio/nsq прежде чем писать своё?

youROCK 19 сен 2016 в 15:01

Смотрели, это тоже больше похоже на сервер очередей, нежели на транспорт для событий и последующей батч-обработки.

kozzztik 19 сен 2016 в 17:19

ElasticSearch + Logstash\FileBeat? Мы по крайней мере использовали их. Протобуфы из коробки не переваривает, но JSON родной формат.

dm9 19 сен 2016 в 17:21

Для меня Live Streaming — это что-то из области видеотрансляций. Уже обрадовался — думал, найду тут замену какому-нибудь Wowza Streaming Engine :-)

Alexufo 19 сен 2016 в 17:56

а на nginx вроде есть замена?

dm9 19 сен 2016 в 21:15

Спасибо за комментарий. Погуглил — нашел https://github.com/arut/nginx-rtmp-module/wiki/Directives. Вроде, все, что мне надо, есть. Попробую перетащить сайт с Wowza. Реально, спасибо. А то как настроил стриминг в 2014, так и не смотрел, не появилось ли чего нового.

Автор топика, прости за оффтоп :-)

imgen 19 сен 2016 в 22:14

Я бы копал дальше :) В сторону более современного hsl
https://docs.peer5.com/guides/setting-up-hls-live-streaming-server-using-nginx/

dm9 19 сен 2016 в 22:39

У HLS большая задержка. Приятно иметь 4 секунды на rtmp и hls для совместимости. Или я его просто не умею готовить?

НЛО прилетело и опубликовало эту надпись здесь

dm9 20 сен 2016 в 16:21

То, что я намерил, — это настройка Wowza Streaming Engine по умолчанию. При отправке сигнала из Москвы на сервер в Голландии и затем обратно. Плюс какое-то время на перекодирование/пережатие при отправке.

В принципе, я слышал, что можно быстрее, но всё же при работе через дикий интернет иметь небольшой буфер хорошо, как мне кажется. 100 мс — это интересный предел, не знал, что этот протокол так может.

imgen 21 сен 2016 в 00:14

hls работает без flash player, который в скором времени выпилят даже из хрома

dm9 19 сен 2016 в 22:43

Собственно, мы про одно и то же. И Ваша ссылка и ссылка выше ведут на настройку того же модуля.

1Michael1 20 сен 2016 в 16:10

а как на счет zeromq для транспорта?

Murtagy 29 мая 2023 в 12:07

Непонятно зачем вышли в опен сорс - выложили исходники и забили на проект.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий