Статьи / Закладки / Профиль sswwssww / Хабр

Some Name @sswwssww

Middle Python Backend Developer

Профиль Публикации Комментарии 225Закладки 598

khantimirov-rinat 28 дек 2023 в 15:32

Разделяй и властвуй: как мы адаптировали API монолитного приложения для нужд публичных запросов и внешних интеграций

Простой

7 мин

API*IT-компании

Кейс

Привет, Хабр! Меня зовут Ринат. Я руководитель отдела backend-разработки компании AppEvent.

Представьте: к вам в компанию обратились «Сервис А» и «Сервис В». При сотрудничестве обоих сервисов с вашей компанией нужно открыть часть функционала «Сервис А» и часть функционала «Сервис В». У «Сервис А» не должно быть доступа к функционалу для «Сервис В».

Эту задачу нужно реализовать в условиях сложной бизнес-логики и с монолитным приложением на {не самый популярный ЯП}.

О том, как мы справились с этим кейсом я и расскажу. Статья будет интересна тем, кто решает бизнес-задачи в условиях ограниченных временных ресурсов.

badcasedaily1 19 апр в 21:05

Пять лучших NLP инструментов для работы с русским языком на Python

Простой

5 мин

5.5K

Программирование*Машинное обучение*Блог компании OTUSNatural Language Processing*

Обзор

В этой статье рассмотрим пять лучших библиотек Python, предназначенных специально для работы с русским языком в контексте NLP. От базовых задач, таких как токенизация и морфологический анализ, до сложных задач обработки и понимания естественного языка.

Liloon21 28 мар в 19:34

Как работает etcd с Kubernetes и без него

23 мин

7.1K

IT-инфраструктура*Блог компании СлёрмDevOps*Kubernetes*

Туториал

Recovery Mode

Перевод

Если вы когда-либо взаимодействовали с кластером Kubernetes, скорее всего, он был основан на etcd. etcd лежит в основе работы Kubernetes, но несмотря на это, напрямую взаимодействовать с ним приходится не каждый день.

Этот перевод статьи от learnk8s познакомит вас с принципами работы etcd, чтобы вы могли глубже понять внутреннюю работу Kubernetes и получить дополнительные инструменты для устранения неполадок в вашем кластере. Мы установим и сломаем кластер etcd с тремя нодами и узнаем, почему Kubernetes использует etcd в качестве базы данных.

+22

val6789 15 апр в 09:12

Spark. План запросов на примерах

Средний

7 мин

3.4K

SQL*Apache*Big Data*Хранение данных*Data Engineering*

FAQ

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

vlad_bik 15 апр в 10:16

Использовать LLM в оффлайне — LocalAI, Ollama, Flowise

Простой

5 мин

Ненормальное программирование*Open source*Визуальное программирование*

Туториал

Привет, Хабр.

В этой статье о том, как без написания кода поставить себе локально и использовать LLM без подключения к сети. Для меня это удобный способ использования в самолёте или in the middle of nowhere. Заранее выгрузив себе нужные файлы, можно делать анализ бесед саппорта с клиентами, или получить саммарайз отзывов из стора на приложение, или оценить резюме/тестовое задание кандидата...

volodalexey 15 апр в 13:20

Unchartevice 3310 — обзор ноутбука для работы

Простой

10 мин

Компьютерное железоНоутбуки

Обзор

Задумавши поменять ноутбук, я первый раз в жизни попытался выбрать ноутбук именно для Linux подобных систем - в итоге купил Unchartevice 3310. Далее предлагаю вам поразмышлять на тему ноутбуков под Linux.

Davydoff33 15 апр в 14:30

CPU планировщики в Linux

Средний

9 мин

7.8K

Системное администрирование*DevOps*

В статье будет рассказано про основные алгоритмы, которые ядро Linux использует для планирования задач, готовых к выполнению. Как влияет приоритет задач и указанная для неё политика на то, как она будет получать процессорное время и сколько.

+26

Orenlab 14 апр в 17:20

Python в Docker — собираем образ сами

Простой

2 мин

9.6K

Python*Виртуализация*

Туториал

Привет!

В очередной раз собирая образ Docker своего бота для Телеграмм и используя в качестве базы официальный образ python:3.12.2-alpine3.19, обратил внимание на то, что docker scout показывает наличие свежей уязвимости в pip . Я бы не сказал, что она как‑то влияет на мое приложение, но сам факт наличия потенциальной уязвимости «на борту» контейнера с приложением, которое работает под рутом и с проброшенным сокетом Docker (НЕ лучшая практика!) натолкнул меня на мысль, как можно минимизировать этот риск?

И как?!

Natyren 15 апр в 10:58

Использование LLM в автоматизации рутинных задач

Средний

14 мин

8.5K

Расширения для браузеровМашинное обучение*Искусственный интеллектБлог компании SberDevices

Обзор

Всем привет!

На связи Георгий Бредис, Deep Learning Engineer из команды Intelligent Document Processing в SberDevices. Наша команда занимается задачами автоматизации бизнес-процессов путем извлечения информации из неструктурированного контента и созданием сервисов суммаризации и поиска на основе LLM. В данный момент мы исследуем новые способы извлечения информации из интерфейсов, что открывает новые возможности для автоматизации процессов в сфере RPA.

В этой статье речь пойдет об использовании больших языковых моделей для работы с браузером, как одного из самых распространенных примеров интерфейса.

+23

alexmusyka 15 апр в 12:42

Потенциальные проблемы с автоинкрементным ключом. MySQL <8.0, PostgreSQL

Простой

6 мин

4.6K

MySQL*PostgreSQL*SQL*Администрирование баз данных*

Перевод

В данной публикации я поделюсь двумя основными причинами, по которым я предпочитаю избегать использования автоинкрементных полей в PostgreSQL и MySQL в будущих проектах. Вместо этого я предпочитаю использовать UUID-поля, за исключением случаев, когда есть очень веские аргументы против этого подхода.

+11

momo934 14 апр в 16:28

Создаем свой аналог sqlite c нуля. Часть #1

5 мин

5.4K

C*SQLite*

Из песочницы

Перевод

Это цикл статей где мы создаем базу данных с нуля. За образец автор взял sqlite, так как простая база данных, где вся база данных храниться в одном файле и меньше фич по сравнению с mysql.

Мы ответим на эти вопросы: В каком формате данные будут сохранены(в памяти или на диске), Когда они должны сохраняться на диск? Почему первичный ключ(primary key) является единственным на одну таблицу?, и так далее

В этой части мы создадим REPL, которое принимает команды, обрабатывает ошибки.

+12

rmilovanov 12 апр в 08:01

Как мы тестировали большие языковые модели для модерации отзывов

10 мин

Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании Magnit Tech

Кейс

В приложении «Магнит: акции и доставка» можно оставлять отзывы на товары. Отзывы модерируются: мы публикуем те, которые считаем полезными для других покупателей, — они должны описывать потребительские свойства товара. Отклоняем все остальные: как правило, это жалобы на ценники, сервис в магазине, условия хранения либо просто нерелевантные тексты. Отзывы с жалобами обрабатывают службы поддержки и сервиса.

Рассказываем о том, как мы попробовали применять большие языковые модели, чтобы автоматизировать модерацию отзывов.

Maksvelis 12 апр в 15:37

Выжимаем максимум из PostgreSQL

Средний

14 мин

14K

PostgreSQL*IT-инфраструктура*Блог компании SelectelАдминистрирование баз данных*

Обзор

Привет, Хабр! Меня зовут Максим, я работаю тестировщиком оборудования в Selectel Lab. В лаборатории мы занимаемся тестированием нового оборудования для дата-центров. О том, как мы измеряли производительность PostgreSQL на разных конфигурациях — под катом!

Читать дальше →

+63

NikitaMartynov 11 апр в 11:02

SAGE v1.1.0: как мы учили генеративный корректор орфографии ошибаться реже, думать быстрее и исправлять пунктуацию

Средний

15 мин

1.1K

Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании SberDevices

В октябре прошлого года мы выпустили SAGE — библиотеку для генеративной коррекции орфографии, которая включает в себя семейство предобученных трансформерных моделей, хаб с параллельными вручную размеченными датасетами и два алгоритма текстовой аугментации на основе намеренного искажения правописания.

С момента прошлого релиза мы улучшили качество наших моделей более чем на 10%, добавили правку знаков пунктуации и регистра, провели эксперименты по сжатию и ускорению полученных решений, добавили разметку пунктуации в датасеты и новые метрики в библиотеку, а нашу статью взяли на EACL 2024 в Мальте.

+18

rikki_tikki 27 июл 2023 в 14:21

Введение в Locust: open source инструмент для нагрузочного тестирования на языке Python

6 мин

7.5K

Тестирование веб-сервисов*Блог компании OTUS

Перевод

Пресытившись существующими инструментами для измерения производительности и нагрузочного тестирования серверов, недавно для своего проекта я выбрал инструмент с открытым исходным кодом под названием Locust.

+13

nrsharip 11 апр в 16:06

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Средний

15 мин

5.9K

Python*Алгоритмы*Математика*Статистика в ITИнфографика

Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.

+24

Lithium_vn 3 апр в 19:00

6 нейросетей для создания презентаций: тестируем и проверяем

8 мин

Машинное обучение*Искусственный интеллектБлог компании BotHub

Обзор

Век живи - век учись, а презентации составлять так и не научишься. Сколько времени и сил тратится на подготовку этих стандартных презентаций, особенно во время сессии. Но что если значительную часть этой рутинной работы можно было бы делегировать искусственному интеллекту? Именно такую возможность обещают многочисленные сервисы, использующие нейросети для генерации презентационного контента.

В этом обзоре мы попробуем разобраться, что из себя представляют новомодные ИИ-генераторы презентаций. Честно оценим их возможности и ограничения, пройдемся по функционалу, проверим на практических примерах.

Главный вопрос к этим сервисам - смогут ли они в текущей форме полностью заменить человека в создании качественного презентационного контента? Или они пока что больше напоминают ассистента, которому нужен присмотр и доработка результатов ручным трудом?

Исследуем, анализируем, делаем выводы! Ведь только опираясь на реальный опыт использования, можно понять, стоит ли овчинка выделки и имеет ли смысл переходить на ИИ-генерацию презентаций. Начнем!

+12

snakers4 11 апр в 06:26

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Простой

2 мин

2.3K

Big Data*Открытые данные*Машинное обучение*ЗвукNatural Language Processing*

Обзор

Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).

Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.

Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).

Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.

Давайте смотреть датасет

+18

NastenaA 1 апр в 09:30

Гайд для системного аналитика: как управлять требованиями на разных этапах проекта. Часть 1: Инициация

Средний

14 мин

9.2K

Анализ и проектирование систем*Учебный процесс в ITБлог компании Яндекс Практикум

Роадмэп

Жизненный цикл любого проекта включает в себя этапы инициации, планирования, исполнения, контроля и завершения. Гибкие методологии и итерационный подход используют в проектах по разработке программного обеспечения всё чаще. С ними этапы проекта повторяются несколько раз для каждой итерации, а перечень инструментов аналитика максимально упрощается и сводится до написания user story.

Этой статьёй я открою серию материалов про управление требованиями на разных этапах проекта. Уже больше 10 лет я работаю в IT и успела побывать бизнес аналитиком, системным аналитиком и руководителем проектов. Также я выступаю в роли ревьюера на курсе «Системный аналитик».

Начинающим аналитикам бывает не просто разобраться в разных подходах к документированию требований и множестве нотаций моделирования. У кого-то даже проскальзывают сомнения, а нужно ли все это знать или можно просто изучить формат описания user story? Я попробую развеять эти сомнения на примере учебного проекта.

+12

ZorkinRoman 10 апр в 12:25

PIP — Загрузка пакетов python для офлайн установки

Простой

13 мин

7.5K

Python*

Из песочницы

Разговор в этой статье пойдет о том, как достать пакеты Python для оффлайн установки на разных платформах и разных версиях Python. Возможно я плохо искал, но на просторах интернета я не смог найти достаточное количество статей на русском языке, которые бы подробно объясняли как производить загрузку пакетов и дальнейшую их доставку на машины с разными платформами и версиями языка.

+20

2 3 ...

27 28

Разделяй и властвуй: как мы адаптировали API монолитного приложения для нужд публичных запросов и внешних интеграций

Пять лучших NLP инструментов для работы с русским языком на Python

Как работает etcd с Kubernetes и без него

Spark. План запросов на примерах

Использовать LLM в оффлайне — LocalAI, Ollama, Flowise

Unchartevice 3310 — обзор ноутбука для работы

CPU планировщики в Linux

Python в Docker — собираем образ сами

Использование LLM в автоматизации рутинных задач

Потенциальные проблемы с автоинкрементным ключом. MySQL <8.0, PostgreSQL

Создаем свой аналог sqlite c нуля. Часть #1

Как мы тестировали большие языковые модели для модерации отзывов

Выжимаем максимум из PostgreSQL

SAGE v1.1.0: как мы учили генеративный корректор орфографии ошибаться реже, думать быстрее и исправлять пунктуацию

Введение в Locust: open source инструмент для нагрузочного тестирования на языке Python

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

6 нейросетей для создания презентаций: тестируем и проверяем

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Гайд для системного аналитика: как управлять требованиями на разных этапах проекта. Часть 1: Инициация

PIP — Загрузка пакетов python для офлайн установки

Информация

Специализация