m1rko Oct 22 2018 at 11:08

Protobuffers — это неправильно

10 min

55K

Microformats*Website development*XML*

Translation

+23

Comments 32

x512 Oct 22 2018 at 11:19

Понимаю что это перевод, но всё же, зачем выступать против? Выступайте за… что нибудь))) Конечно ProtoBuf развивался стихийно, этим объясняется несовершенство его системы типов.
Вопрос, а какие есть альтернативы, которые обеспечат такую же статическую типизацию (на основе кодогенерации) и производительность?

gricom Oct 22 2018 at 12:43

Например Thrift

Viacheslav01 Oct 22 2018 at 18:40

У него все еще хуже и скорость совсем не та, ну по крайней мере было 3 года назад когда мне пришлось очень близко с ним познакомиться.
И да он больше про RPC чем про эффективную сериализацию.

grey_kristy Oct 22 2018 at 13:04

thrift?

sshikov Oct 22 2018 at 20:26

Avro?

divanikus Oct 22 2018 at 22:08

MessagePack от авторов fluentd?

x512 Oct 23 2018 at 14:23

Нет кодогенерации

mkuzmin Oct 23 2018 at 11:46

https://github.com/cognitect/transit-format

x512 Oct 23 2018 at 14:24

Вы серьезно?))

mkuzmin Oct 23 2018 at 14:36

Смотря для каких целей. И если есть поддержка языков.
Гонять данные в/из браузера — отлично.
Между системами — есть поддержка множества типов, можно добавить свои,
передал дату-время — получил дату-время.

Вы серьезно?))

А в чем вопрос?

x512 Oct 23 2018 at 14:46

Производительность и типизация — это основная функциональность подобных систем. В Protobuf проделана огромная работа, чтобы выжать производительность до максимума. А вы показываете проектик с 87 коммитами заброшенный больше года назад.

А тем кому надо передать дату-время туда-сюда protobuf не нужен.

Marat-onlin Dec 29 2023 at 14:19

Еще и мою любимую Java обидел )) Она же никого не заставляет писать на ней, не нравиться не пиши ))

excentro Oct 22 2018 at 11:34

Почему в тэгах XML, если в тексте ни разу не упоминается? Мы должны догадаться, что вместо protobuf автор предлагает использовать XML?

a_e_tsvetkov Oct 22 2018 at 12:48

Мы вообще живем в мире прототипов которые волевым усилием отправили в продакшен.

+21

sena Oct 22 2018 at 13:33

Сериализация в общем и протобуф в частности могут использоваться в разных ситуациях. В некоторых из них важна прямая и обратная совместимость, в других только обратная, где-то совместимость между версиями вообще не нужна.

Это же относится к следующему пассажу.

Вариант 1 — однозначно «правильное» решение, но оно непригодно для Protobuffers. Язык недостаточно мощный для кодирования типов, которые могут выполнять двойную работу в двух форматах. Это означает, что вам придётся написать совершенно отдельный тип данных, развивать его синхронно с Protobuffers и специально писать код сериализации для них. Но поскольку большинство людей, кажется, используют Protobuffers, чтобы не писать код сериализации, такой вариант, очевидно, никогда не реализуется.

В зависимости от приложения и ситуации вариант №1 может оказаться единственно возможным решением, а где-то применим вариант №2 или №3.

Теперь касательно «большинство людей, кажется, используют Protobuffers, чтобы не писать код сериализации».

Проблема не в том чтобы написать код сериализации. Написать код сериализации сама по себе простая задача, тем более если весь код заключается в копировании данных из «обыкновенного» класса в сгенерированный протобуфом. Основная проблема сериализации заключается как раз в поддержании совместимости между старыми и новыми версиями классов и данных. И здесь протобуф справляется очень хорошо, пусть и путём ввода некоторых ограничений и фишек вроде required и optional.

Например, boost::serialization справляется с задачей обратной совместимости, но поддержки прямой совместимости нет, хотя соответствующие багрепорты открыты давно. Мне пришлось написать специальную библиотеку для того чтобы реализовать прямую совместимость хотя бы отчасти.

anjensan Oct 22 2018 at 20:10

пусть и путём ввода некоторых ограничений и фишек вроде required и optional.

Ващет выпилили. Теперь все филды всегда optional.

sena Oct 23 2018 at 11:38

Required мешает выкидывать поля в новой версии, то есть мешает прежде всего прямой(forward) совместимости. Для обратной совместимости это небольшая проблема. Конечно, для приложений, где не требуется прямая совместимость required был бы полезен.

bibmaster Oct 22 2018 at 23:34

Насчёт значений по умолчанию для скаляров это грамотное решение. Опциональность приехала из языков с динамической типизацией, где есть null (да и то не для всех это применимо, явный nil например не может быть значением в Lua таблице). И кроме json я что то не припомню форматов кодирования с explicit null значениями. За опциональность надо платить и пусть это будет выражено в явном виде. Мне кажется со стороны Google это был реверанс в сторону C/C++.

-2

Barafu_Albino_Cheetah Oct 22 2018 at 23:38

Критикуешь — предлагай. Какие ещё есть сериализаторы, имеющие биндинги под С, позволяющие гонять данные между ARM32 и 64битной виндозиной, и умеющие не кодировать в пакет поля класса со значением по-умолчанию. Когда выбирал в проект, на последнем пункте срезалось всё, что предлагали коллеги. Но дело было лет 5 тому назад.

bibmaster Oct 22 2018 at 23:42

ASN.1 BER/DER. BSON. Avro. Thrift. Bycycle в конце концов.

tgz Oct 23 2018 at 08:07

Капитан прото возможно тоже будет неплохим выбором.

Gorthauer87 Oct 23 2018 at 11:55

Cap n proto еще в сто раз хуже, там все делается через указатели и можно создавать циклы, с которыми предлагают бороться ограничивая глубину рекурсии.

Gorthauer87 Oct 23 2018 at 11:47

Есть еще древнючий XDR, но при этом весьма адекватный.
https://ru.wikipedia.org/wiki/External_Data_Representation

Paulus Oct 23 2018 at 01:42

Пользую protobuf 2 и 3, как и позднее grpc, много лет в разных проектах на С++, меньше на python. Проблемы автора, признаться, не очень понятны.
Поле не может быть repeated? Оберни его в message, и оно сможет, оверхед в С++ будет примерно нулевой.
Значения по умолчанию? 0, и ничего другого, RTFM.

Не идеально, конечно же, в том же С++ коде профайлер показывает огромное, по сравнению на пример с flatbuffers, количество выделений памяти. Но покажите мне что-нибудь получше, чтоб из коробки понимало хотя бы С++, java, python? Go, С# и Rust желательны, но сейчас не обязательны :)

-1

fRoStBiT Oct 23 2018 at 10:22

Смешаны в кучу претензии к спецификации схемы и к reference implementation кодогенератора. Никто не заставляет использовать protoc от Google.

Лично моё мнение:

Заточенность системы типов на типичные случаи использования — это не так уж и плохо. Почти все описанные проблемы решаются обёртыванием в отдельный тип.
Работа с опциональными типами в сгенерированном гугловым компилятором коде действительно ужасна: эти hasFoo() и getFoo() с дефолтными значениями — прямой путь к неожиданному поведению кода вместо вылета NullPointerException. Значение по умолчанию практически никогда не имеет смысла — какие полезные операции можно сделать с объектом, у которого во всех полях нули, пустые строки и вложенные такие же пустые объекты? Это выглядит дико даже в Java, не говоря о языках со встроенными средствами работы с опциональными значениями.
Proto3 пошёл ещё дальше и теперь такая же ситуация в спецификации, так как required полей больше нет. А уж что там происходит с enum — это вообще нонсенс. Не указал значение — получаешь первое объявленное. И нет способа узнать, было ли оно установлено или это "дефолтное". В результате десериализации можно получить всё что угодно — любое поле могло быть не задано и код будет по-тихому работать не так, как задумано.
По мне так такая "схема данных" — это просто мусор.

То, что из-под крыла Google выходит нечто сомнительного качества, я вижу не в первый раз. Впрочем, что ещё можно ожидать от большой корпорации, в которой разными продуктами занимаются совершенно разные люди с разными целями, умениями и бюджетами.

Fortop Oct 24 2018 at 14:07

Конкретно по enum решение простое.
Объявить первым undefined и появится возможность определить было оно задано или нет

fRoStBiT Oct 24 2018 at 16:02

Да, так и делаем. Но это же ужасно, вам не кажется?

Fortop Oct 24 2018 at 16:44

Сложный вопрос.

Как лучше?
Один метод save() или два add() & update()?

-2

mayorovp Oct 23 2018 at 10:53

Конечно, реальная логика сериализации позволяет делать что-то умнее, чем пушить связанные списки по сети — в конце концов, реализация и семантика не обязательно должны соответствовать друг другу.

Вот только в protobuf-описании задается именно реализация, а не семантика! Одно из требований к библиотеке для сериализации — это бинарная совместимость с другими библиотеками сериализации работающими с тем же самым форматом.

А значит, если определить список через сопродукт — то он будет передан по сети именно как сопродукт. То есть без указания количества элементов и с обязательным разделителем между элементами. И никакой оптимизации тут добавить нельзя, потому что формат сообщений не должен зависеть от настроек оптимизации.

Невозможно отличить поле, которое отсутствовало в протобуфере, от поля, которому присвоено значение по умолчанию.

Так ведь так и задумано же. И это сделано не для хитрых оптимизаций, а ради возможности обновлять протокол оставаясь совместимым со старой версией.

Protobuffers в духе Java различает скалярные типы и типы сообщений. Конечно же, в двух разновидностях типов совершенно разная семантика.

Вот как автор это углядел? Я, напротив, вижу что приведенный псевдокод написан как раз из желания придать сообщениям скалярную семантику. Именно потому null "втихую" и заменяется на пустое сообщение.

Но если вы измените foo, он также изменит своего родителя!

Обычное поведение ссылочных типов данных в императивных языках. При чем тут вообще protobuf?

Мы ожидаем, что задание msg.foo = msg.foo; не будет работать.

Так оно и не работает...

Обратите внимание, что, по крайней мере, в языках со статической типизацией, этот шаблон нельзя абстрагировать из-за номинальной связи между методами foo(), set_foo() и has_foo()

И чем же Reflection и FieldDescriptor — не абстракция? А ведь можно еще и свои кодогенераторы подключать...

Чтобы сменить тему, поговорим о другом сомнительном решении. Хотя вы можете в протобуферах определить поля oneof, их семантика не соответствует типу сопродукта! Ошибка новичка, парни! Вместо этого вы получаете опциональное поле для каждого случая oneof и магический код в сеттерах, который просто отменит любое другое поле, если это установлено.

Интересно, а какая еще возможна нормальная реализация сопродукта на C++? std::variant, к примеру, при некорректном обращении кидает исключение — то-то радости будет программисту, который не может уследить за тем, какие свойства он читает...

-1

Gorthauer87 Oct 23 2018 at 11:52

Нормальная реализация сопродукта делается через деструктурирование и pattern matching, а не через тыкания в стиле dynamic_cast.

mayorovp Oct 23 2018 at 13:20

Вот только последняя версия вышла за два месяца до C++17… Кроме того, старый интерфейс убирать уже нельзя — на него ведь существующий код завязан.

Marat-onlin Dec 29 2023 at 14:03

Мы сейчас будем писать интеграцию где вынуждены использовать Protobuf - эта статья конечно подкинула дров в топку сомнения )) Спасибо за то что поделился горьким опытом, но за что вы так с Java ? Все там хорошо со строгой типизацией )) И динамическая типизация вроде бы с 17 Java уже вполне приличная))

-1

Show the best of all time