В обоих случаях у вас один текст, и не ясно это результат от LLaVA или GPT-4V, но, судя по качеству, предположу, что от LLaVA 13b в обоих случаях, видимо сбой редактора.
Из локального лучшее, что сейчас есть - это LLaVA-NeXT-34B, она же LLaVA-1.6-34B. В тесте MMMU у GPT-4V результат 56.8, у LLaVA-NeXT-34B результат 51.1, лучше только проприетарная Gemini Ultra с результатом 59.4. LLaVA 13B же имеет результат всего 36.4, поэтому её нет смысла сравнивать.
Но это не важно, будь открытая модель дотягивающая до GPT-4 Vision на русском языке, то об этом бы уже везде написали. Если для LLM, чтобы нормально говорить на русском, достаточно в обучающем датасете 1.5% текстов с википедии на русском языке, то с картинками так не сработает. Так что тут GPT-4V вне конкуренции.
я попробовал "опиши картинку", сетки Llama 2 до 70B параметров дали совершенно неприемлемые ответы ChatGPT 4 ответила просто блестяще
для описания изображений не используют LLM для генерации текста, а используют мультимодальные модели, такие как LLaVA (хорошо работает только на английском). GPT-4 для пользователя это делает прозрачно отправляя картинку в другую модель (GPT-4 Vision).
В вашем сценарии он бессмысленный, но в глобальном использовании ответ один - юникод в именах файлов заархивированные в одной локали винды, а разархивированные в другой, когда на выходе будут крякозябры вместо букв. И это никак не решается с дефолтным zip by design. Просто погуглите "zip unicode", чтобы увидеть сколько с этим проблем.
Консолям сотен гигабайт хватает. Даже следующему поколению хватит чего-то до терабайта.
вы про какие-то устаревшие говорите, вроде ps3? Потому что текущему поколению (PS5) не хватает. ААА игры легко весят под 100гб. Сотни гигабайт это на пару игр установить. Сами консоли продаются с ~1Тб ssd. Вы буквально сейчас находитесь в моменте таймлайна, которое описываете как "следующее поколение", а то и два, так как игры на PS4 занимают сейчас до 50гб и там уже тоже 500 Гб не хватает.
коммерческий софт просто по определению лучше бесплатных аналогов. Потому что если бы он был хуже - кто бы вообще за него платил?
Они и не платят. Postgresql vs Oracle, OBS vs Streamlabs, Stable Diffusion vs Midjourney, VSCode vs WebStorm, Steam Deck на Linux, а не на Windows. Если не зацикливаться на фотошопе, офисе и CAD, то всё становится не так однозначно.
у меня стойкое ощущение, что многие интерфейсы сделаны "на отшибись"
Не они такие, фреймворки такие. Когда-то мне казалось, что проблема десктопных интерфейсов уже давно решена - бери и делай кроссплатформенную универсальную программу, подобно тому как решена проблема совместимости css в web. Но когда я попытался сделать такую программу, я понял, что тут всё куда хуже чем в web или в мобильных приложениях.
Если вам нужно сделать программу с GUI, у вас есть 4 варианта:
взять фреймворки построения интерфейса GTK или QT
взять современное воплощение Delphi в лице Lazarus
взять electron или flutter
написать своё решение
Все решения не совместимы друг с другом, "привычное поведение" везде реализовано по разному, а часть вообще не реализована стандартными компонентами, и привести к какой-то совместимости - это нужно делать вручную. Если вы начинаете реализовать или менять функционал вручную, то вы теряете совместимость с новыми версиями библиотек и теперь вы не можете просто обновить GTK 2 на GTK 3, чтобы получить совместимость с wayland без огромной работы по переносу изменений, а ведь уже вышел GTK 4 и нужно снова переносить.
Проще говоря, в отличии от html5, десктопный GUI не стандартизирован, нет стандартных инструментов и нет стандартного поведения, нет даже Human Interface Guidelines, который бы описывал "стандартное поведение".
Именно это и происходит с GIMP (поэтому используйте Krita), который лишь недавно из-за огромного легаси еле еле переполз на GTK 3, когда уже есть GTK 4. Какие уж там ползунки и прочее.
Убунта на столько же отвратительна, на сколько распиарена как "это и есть линукс". Даже эта ветка комментариев показывает, что все знают только убунту, видимо ожидая, что раз самая известная, значит всё там на пике в плане решения проблем.
Что убунта, что дебиан - они отстают с апдейтами буквально во всем, поддержка нового железа, исправление багов у старого, спящий режим, современный звук, проблема со свежими картами nvidia и так далее. Даже вот вы указываете версию 22.04, означающую начало 22 года, в то время, как какие-то баги могли уже починить, но пользователи убунты об этом узнают не очень скоро.
Вдруг есть те, кто не холивара ради, а просто интересуется чем-то получше убунты, попробуйте Manjaro KDE. У Manjaro в самой философии заложено минимальное обращение к консоли, 95% вещей решается мышкой в GUI, установка софта, драйверов, просмотр журналов - всё через GUI.
Обновляется она часто, поэтому и баги чинятся по мере их починки разработчиками, поддержка современного железа прилетает тоже очень быстро. Тот факт, что похожую ОС используют в Steam Deck, говорит о том, что на данный момент этот подход более жизнеспособный, чем философия Debian и Ubuntu с апдейтами раз в 1.5 года или в 5 лет.
Для разработчиков достаточно подключить в pamac одной галочкой AUR, тоже без консоли. И весь типичный софт для разработчиков будет доступен в 1 клик. Например, docker-compose не просто легко поставить, но и выбрать нужную версию, если требуется, аналогично с другими пакетами, можно выбрать нужную версию питона или явы:
Manjaro не замена Windows по удобству, но это дистрибутив, который хотя бы пытается в это удобство, где, например, уже починили сон. Ещё в минусы можно отнести 2 вещи:
Вас задолбают уведомлениями о доступных апдейтах. Они не как в винде, тут каждый раз придется их установку запускать явно, разве что в настройках можно выбрать проверку обновлений раз в неделю.
Будет приходить информация о том, что свежее ядро доступно, и пока их можно устанавливать только вручную (тоже мышкой через GUI тыкая в "Установить").
Еще в 2015 году скачал, собрал и даже установил этот кодек. время, сэкономленое на доставке пользователю контента в формате FLIF за счет более плотного сжатия Вот и все, что нужно знать о FLIF
Просто напомню, что FLIF, что BPG, что PIK, что другие экспериментальные форматы - они лишь показывали проблему, и не предлагались как полноценное решение. В 2019 была представлена версия 1.0.0 формата AV1 Image File Format (AVIF), который уже предполагался как стандарт, открытый и свободный от лицензионных притязаний.
В моем случае я не таскаю окна и не слежу за тем насколько плавно это происходит, если вдруг взял и потащил окно. Не пользуюсь меню Пуск, а если и пользуюсь, то ничего там не листаю и не слежу за плавностью этого.
Утверждение, что вы разницу между устрицей и курицей не видите, потому что вы не едите устриц - специфичное. Остальное как раз про субъективное восприятие вами вопроса, а не техническое: не видите разницу и не видите в этой разнице смысла - разные вещи.
Шикарная вещь всё-таки этот ReactOS, всегда интересно потыкать новую сборку. Даже если ещё далеко до релиза, как-то существование такой вещи вдохновляет.
А какая должна быть разница в полу-статических программах, которые еле двигаются? Или в стратегиях каких-нибудь? Или при просмотре видео, где 24-60 кадров?
Я говорил, что разница видна сразу, а не то, что все её будут всегда замечать. Возьмите окошко и потаскайте его туда сюда или покрутите список меню пуска. При условии, что у вас включено 3d ускорение рабочего стола. Как часто вы это делаете и нужно ли это, это уже десятый вопрос.
А что до игр, опять же, всё зависит от fps и динамичности игры, и того, на сколько вы уже привыкли к элементам игры, не захватывает ли всё ваше внимание другие элементы. На консолях играют в 30 fps и не замечают какой-то проблемы, потому что по сути её нет.
Между 60гц и 144гц разница видна сразу, напрягаться для этого совершенно не нужно.
Вот между 60гц и 75гц разницы уже можно и не заметить, но она есть. Заметнее всего это в многопользовательских шутерах, когда частые привычные действия происходят чуть плавнее и четче, но разница даже близко не такая как между 60гц и 144гц.
Ещё иногда бывает и такое, что эти 144гц забывают выставить, так как автоматически это не делается. Ещё если два монитора с разной герцовкой подключены к одному ПК, монитор с меньшей герцовкой начинает сильнее "лагать", становится более дерганным, видимо особенность Windows 10.
На днях вышла новая модель с новой архитектурой от тех же разработчиков как и Mistral, на основе которой сделана OpenChat - Mixtral 8x7B (https://habr.com/ru/articles/780204/) Она тяжелее, чем просто 7B модели, но при этом Q4_K_M ощутимо лучше выдает ответы, чем обычные 7B модели:
В принципе способ есть, использовать линукс, для rx 6800 это будет не только нормальный расход памяти, но и ускорение раз в 10 по сравнению с DirectML версией на винде. Либо дождаться портирование rocm на винду, работы ведутся, но не в ближайшее время будут завершены.
В обоих случаях у вас один текст, и не ясно это результат от LLaVA или GPT-4V, но, судя по качеству, предположу, что от LLaVA 13b в обоих случаях, видимо сбой редактора.
Из локального лучшее, что сейчас есть - это LLaVA-NeXT-34B, она же LLaVA-1.6-34B. В тесте MMMU у GPT-4V результат 56.8, у LLaVA-NeXT-34B результат 51.1, лучше только проприетарная Gemini Ultra с результатом 59.4. LLaVA 13B же имеет результат всего 36.4, поэтому её нет смысла сравнивать.
Но это не важно, будь открытая модель дотягивающая до GPT-4 Vision на русском языке, то об этом бы уже везде написали. Если для LLM, чтобы нормально говорить на русском, достаточно в обучающем датасете 1.5% текстов с википедии на русском языке, то с картинками так не сработает. Так что тут GPT-4V вне конкуренции.
для описания изображений не используют LLM для генерации текста, а используют мультимодальные модели, такие как LLaVA (хорошо работает только на английском). GPT-4 для пользователя это делает прозрачно отправляя картинку в другую модель (GPT-4 Vision).
https://huggingface.co/spaces/liuhaotian/LLaVA-1.6
На днях вышла llama 3, которая по тестам ощутимо превосходит llama 2: https://habr.com/ru/companies/bothub/news/808839/
"Не прокатило, вычеркиваем"
Если не брать в расчет мобильный/консольный гейминг, то 60% онлайна, возможно, крутится не там, а вот тут:
CS2, Dota 2, Apex, NARAKA работают под линуксом нормально.
В вашем сценарии он бессмысленный, но в глобальном использовании ответ один - юникод в именах файлов заархивированные в одной локали винды, а разархивированные в другой, когда на выходе будут крякозябры вместо букв. И это никак не решается с дефолтным zip by design.
Просто погуглите "zip unicode", чтобы увидеть сколько с этим проблем.
вы про какие-то устаревшие говорите, вроде ps3? Потому что текущему поколению (PS5) не хватает.
ААА игры легко весят под 100гб. Сотни гигабайт это на пару игр установить. Сами консоли продаются с ~1Тб ssd.
Вы буквально сейчас находитесь в моменте таймлайна, которое описываете как "следующее поколение", а то и два, так как игры на PS4 занимают сейчас до 50гб и там уже тоже 500 Гб не хватает.
Они и не платят. Postgresql vs Oracle, OBS vs Streamlabs, Stable Diffusion vs Midjourney, VSCode vs WebStorm, Steam Deck на Linux, а не на Windows.
Если не зацикливаться на фотошопе, офисе и CAD, то всё становится не так однозначно.
Не они такие, фреймворки такие. Когда-то мне казалось, что проблема десктопных интерфейсов уже давно решена - бери и делай кроссплатформенную универсальную программу, подобно тому как решена проблема совместимости css в web. Но когда я попытался сделать такую программу, я понял, что тут всё куда хуже чем в web или в мобильных приложениях.
Если вам нужно сделать программу с GUI, у вас есть 4 варианта:
взять фреймворки построения интерфейса GTK или QT
взять современное воплощение Delphi в лице Lazarus
взять electron или flutter
написать своё решение
Все решения не совместимы друг с другом, "привычное поведение" везде реализовано по разному, а часть вообще не реализована стандартными компонентами, и привести к какой-то совместимости - это нужно делать вручную.
Если вы начинаете реализовать или менять функционал вручную, то вы теряете совместимость с новыми версиями библиотек и теперь вы не можете просто обновить GTK 2 на GTK 3, чтобы получить совместимость с wayland без огромной работы по переносу изменений, а ведь уже вышел GTK 4 и нужно снова переносить.
Проще говоря, в отличии от html5, десктопный GUI не стандартизирован, нет стандартных инструментов и нет стандартного поведения, нет даже Human Interface Guidelines, который бы описывал "стандартное поведение".
Именно это и происходит с GIMP (поэтому используйте Krita), который лишь недавно из-за огромного легаси еле еле переполз на GTK 3, когда уже есть GTK 4. Какие уж там ползунки и прочее.
Убунта на столько же отвратительна, на сколько распиарена как "это и есть линукс". Даже эта ветка комментариев показывает, что все знают только убунту, видимо ожидая, что раз самая известная, значит всё там на пике в плане решения проблем.
Что убунта, что дебиан - они отстают с апдейтами буквально во всем, поддержка нового железа, исправление багов у старого, спящий режим, современный звук, проблема со свежими картами nvidia и так далее. Даже вот вы указываете версию 22.04, означающую начало 22 года, в то время, как какие-то баги могли уже починить, но пользователи убунты об этом узнают не очень скоро.
Вдруг есть те, кто не холивара ради, а просто интересуется чем-то получше убунты, попробуйте Manjaro KDE. У Manjaro в самой философии заложено минимальное обращение к консоли, 95% вещей решается мышкой в GUI, установка софта, драйверов, просмотр журналов - всё через GUI.
Обновляется она часто, поэтому и баги чинятся по мере их починки разработчиками, поддержка современного железа прилетает тоже очень быстро. Тот факт, что похожую ОС используют в Steam Deck, говорит о том, что на данный момент этот подход более жизнеспособный, чем философия Debian и Ubuntu с апдейтами раз в 1.5 года или в 5 лет.
Для разработчиков достаточно подключить в pamac одной галочкой AUR, тоже без консоли. И весь типичный софт для разработчиков будет доступен в 1 клик. Например, docker-compose не просто легко поставить, но и выбрать нужную версию, если требуется, аналогично с другими пакетами, можно выбрать нужную версию питона или явы:
Manjaro не замена Windows по удобству, но это дистрибутив, который хотя бы пытается в это удобство, где, например, уже починили сон. Ещё в минусы можно отнести 2 вещи:
Вас задолбают уведомлениями о доступных апдейтах. Они не как в винде, тут каждый раз придется их установку запускать явно, разве что в настройках можно выбрать проверку обновлений раз в неделю.
Будет приходить информация о том, что свежее ядро доступно, и пока их можно устанавливать только вручную (тоже мышкой через GUI тыкая в "Установить").
Просто напомню, что FLIF, что BPG, что PIK, что другие экспериментальные форматы - они лишь показывали проблему, и не предлагались как полноценное решение.
В 2019 была представлена версия 1.0.0 формата AV1 Image File Format (AVIF), который уже предполагался как стандарт, открытый и свободный от лицензионных притязаний.
На конец 2023 года у avif поддержка в браузерах 88%, включая safari на ios.
https://caniuse.com/?search=avif
Современные ОС и софт уже тоже умеют в avif.
Свинья из сейбла удивлена, что у миджорни с этим проблема:
В AUR есть и бинарные пакеты, не только сборка из исходников. Например: https://aur.archlinux.org/packages/xnviewmp
Это просто скачивание уже собранного бинарника, так как сам XnView MP не опенсорсный.
Утверждение, что вы разницу между устрицей и курицей не видите, потому что вы не едите устриц - специфичное.
Остальное как раз про субъективное восприятие вами вопроса, а не техническое: не видите разницу и не видите в этой разнице смысла - разные вещи.
Шикарная вещь всё-таки этот ReactOS, всегда интересно потыкать новую сборку. Даже если ещё далеко до релиза, как-то существование такой вещи вдохновляет.
А какая должна быть разница в полу-статических программах, которые еле двигаются? Или в стратегиях каких-нибудь? Или при просмотре видео, где 24-60 кадров?
Я говорил, что разница видна сразу, а не то, что все её будут всегда замечать. Возьмите окошко и потаскайте его туда сюда или покрутите список меню пуска. При условии, что у вас включено 3d ускорение рабочего стола.
Как часто вы это делаете и нужно ли это, это уже десятый вопрос.
А что до игр, опять же, всё зависит от fps и динамичности игры, и того, на сколько вы уже привыкли к элементам игры, не захватывает ли всё ваше внимание другие элементы. На консолях играют в 30 fps и не замечают какой-то проблемы, потому что по сути её нет.
Между 60гц и 144гц разница видна сразу, напрягаться для этого совершенно не нужно.
Вот между 60гц и 75гц разницы уже можно и не заметить, но она есть. Заметнее всего это в многопользовательских шутерах, когда частые привычные действия происходят чуть плавнее и четче, но разница даже близко не такая как между 60гц и 144гц.
Ещё иногда бывает и такое, что эти 144гц забывают выставить, так как автоматически это не делается.
Ещё если два монитора с разной герцовкой подключены к одному ПК, монитор с меньшей герцовкой начинает сильнее "лагать", становится более дерганным, видимо особенность Windows 10.
NativeScript выглядит интересно. А по поводу Framework7, есть способ отключить на ios жест тянуть вниз, как в браузере для перезагрузки страницы?
На днях вышла новая модель с новой архитектурой от тех же разработчиков как и Mistral, на основе которой сделана OpenChat - Mixtral 8x7B (https://habr.com/ru/articles/780204/)
Она тяжелее, чем просто 7B модели, но при этом Q4_K_M ощутимо лучше выдает ответы, чем обычные 7B модели:
В принципе способ есть, использовать линукс, для rx 6800 это будет не только нормальный расход памяти, но и ускорение раз в 10 по сравнению с DirectML версией на винде. Либо дождаться портирование rocm на винду, работы ведутся, но не в ближайшее время будут завершены.
https://github.com/lllyasviel/Fooocus#linux-amd-gpus
Так и реализовано, есть zswap, а есть zram - который так и работает, как вы и описали, сжимает на лету.