Как стать автором
Обновить
-1
0

Пользователь

Отправить сообщение

OCR-конвейер для обработки документов

Время на прочтение11 мин
Количество просмотров14K
Сегодня я расскажу о том, как создавалась система для переноса текста из бумажных документов в электронную форму. Мы рассмотрим два основных этапа: выделение областей с текстом на сканах документов и распознавание символов в них. Кроме того, я поделюсь сложностями, с которыми пришлось столкнуться, способами их решения, а также вариантами развития системы.



Первичным переводом документа в электронную форму является его сканирование или фотографирование, в результате которого получается графический файл в виде фотографии или скана. Однако такие файлы, особенно высокого разрешения, занимают много места на диске, и текст в них невозможно редактировать. В связи с этим, целесообразно извлекать текст из графических файлов, что успешно делается с применением OCR.
Читать дальше →
Всего голосов 5: ↑5 и ↓0+5
Комментарии3

Как аппроксимировать любую функцию с помощью PyTorch

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров5.3K

При анализе данных и построении моделей машинного обучения часто возникает необходимость аппроксимировать сложные функции. PyTorch предоставляет удобные инструменты для создания и обучения нейронных сетей, которые могут быть эффективно использованы для этой цели. В этом посте мы рассмотрим простой пример аппроксимации функции с использованием PyTorch.

Читать далее
Всего голосов 5: ↑4.5 и ↓0.5+4
Комментарии7

100 вопросов для подготовки к собесу Data Science

Уровень сложностиСредний
Время на прочтение98 мин
Количество просмотров53K

Доброго времени суток!

Представляю вашему вниманию чек-лист из 100 вопросов по Data Science. Вопросы покрывают 5 областей: SQL, Python, Machine Learning, статистику и собственно саму DS.

Кому это вообще может быть полезно?

Читать далее
Всего голосов 17: ↑15 и ↓2+13
Комментарии10

Искусство ETL. Пишем собственный движок SQL на Spark [часть 6]

Уровень сложностиСредний
Время на прочтение23 мин
Количество просмотров2.8K

НЬЮ!


В предыдущих сериях (FAQ 1 2 3 4 5 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

В данной части поговорим о том, как добавить в выражения SQL поддержку функций. Например,


SELECT
    MAX(score1, score2, score3, score4, score5) AS max_score,
    MIN(score1, score2, score3, score4, score5) AS min_score,
    MEDIAN(score1, score2, score3, score4, score5) AS median_score,
    score1 + score2 + score3 + score4 + score5 AS score_sum
FROM raw_scores INTO final_scores
WHERE ABS(score1 + score2 + score3 + score4 + score5) > $score_margin;

— тут у нас функции MAX, MIN и MEDIAN принимают любое количество аргументов типа Double и возвращают Double, а ABS только один такой аргумент.


Вообще, кроме общей математики, в любом уважающем себя диалекте SQL как минимум должны быть функции для манипуляций с датой/временем, работы со строками и массивами. Их мы тоже обязательно добавим. В classpath, чтобы движок мог их оттуда подгружать. До кучи, ещё и операторы типа >= или LIKE, которые у нас уже были реализованы, но хардкодом, сделаем такими же подключаемыми.


Предупреждение о сложности материала

Уровень сложности данной серии статей в целом высокий. Базовые понятия в тексте совсем не объясняются, да и продвинутые далеко не все. Однако, эта часть несколько проще для ознакомления, чем предыдущие. Но всё равно, понимать её будет легче, если вы уже пробежались по остальным хотя бы по диагонали.

Читать дальше →
Всего голосов 4: ↑5 и ↓-1+6
Комментарии10

Культура совещаний: почему Amazon ставит документ во главе всего

Время на прочтение6 мин
Количество просмотров7.7K

Привет, Хабр! Меня зовут Александр Попов, я PR-директор МойОфис. Еженедельно в моем рабочем графике бывает до 30 совещаний. Проведение встреч, а также подготовка к ним, забирают много сил и времени. С целью научиться эффективнее расходовать свои ресурсы, я решил исследовать глобальный опыт: во многих крупных компаниях сегодня принят нестандартный формат совещаний.

Одними из первых, еще в начале нулевых годов, культуру собраний пересмотрели в Amazon. Тогда в компании отказались от презентаций, вместо них на встречах стали активно использовать текстовые документы. С тех пор за их внимательным чтением сотрудники обсуждают актуальные проблемы, гипотезы, цифры, графики и факты, а затем принимают решения.

Под катом я предлагаю вам перевод статьи одного из специалистов Amazon — Джастина Гаррисона*, Sr. Developer Advocate из AWS Container Services. Автор рассказывает о конкретной пользе для рабочего процесса, которую обеспечивают «документоцентричные» совещания. А еще объясняет, на что именно следует обратить внимание, если вы планируете внедрить подобную практику в своей компании.

*Позиция автора не всегда может совпадать с мнением МойОфис.

Читать далее
Всего голосов 26: ↑23 и ↓3+20
Комментарии6

Predictive Analytics — все, что нужно знать (обзор ключевых моментов)

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров4.8K

Predictive Analytics — или по-русски плановая или прогнозная аналитика, в основе которой лежит ответ на вопрос: «Что может произойти?»

Читать далее
Всего голосов 8: ↑6 и ↓2+4
Комментарии0

Как оценить задачи без Planning Poker и лишних слов

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров5.8K

Привет, Хабр!

Меня зовут Александр, я занимаюсь релиз менеджментом в ИТ-компании TAGES. Эта работа требует быстрой поставки бизнес-ценности в условиях меняющегося мира. Однако непрерывность регулярных деплоев невозможна без четкого плана. А правильный план, в свою очередь, требует точной оценки трудозатрат.

В то же время большинство разработчиков на дух не переносят любые активности, связанные с оценкой времени. Даже методика Planning Poker не всегда находит отклик в командах. Это отчасти связано с предпочтением интровертных сотрудников избегать лишних встреч и звонков.

Впрочем, мой предыдущий опыт работы в авиационной отрасли подтверждает, что нелюбовь к оценке времени характерна не только для разработчиков, но и для авиационных инженеров. 

Сегодня мы рассмотрим подход, который решает проблему точной оценки задач с минимальным участием разработчиков.

Читать далее
Всего голосов 16: ↑11 и ↓5+6
Комментарии36

Spark. План запросов на примерах

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров3.4K

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

Читать далее
Всего голосов 7: ↑7.5 и ↓-0.5+8
Комментарии4

Более 250 бесплатных курсов и ресурсов по аналитике

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров10K

Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать. От автора Telegram-канала «Аналитика и Growth mind-set».

Но прежде несколько важных моментов:

Читать далее
Всего голосов 17: ↑15.5 и ↓1.5+14
Комментарии2

Использовать LLM в оффлайне — LocalAI, Ollama, Flowise

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.1K

Привет, Хабр.

В этой статье о том, как без написания кода поставить себе локально и использовать LLM без подключения к сети. Для меня это удобный способ использования в самолёте или in the middle of nowhere. Заранее выгрузив себе нужные файлы, можно делать анализ бесед саппорта с клиентами, или получить саммарайз отзывов из стора на приложение, или оценить резюме/тестовое задание кандидата...

Читать далее
Всего голосов 8: ↑7 и ↓1+6
Комментарии5

Клетка ХVI. Кома и сознание человека

Время на прочтение7 мин
Количество просмотров4.3K

Довольно обширный материал о живой клетке представлен в моем цикле статей о живой клетке. В статьях рассмотрены вопросы о возникновении клеточной жизни на Земле, о свойствах, функциях и устройстве клетки, о размножении клеток и организмов, о наследовании живыми организмами родительских свойств во многих поколениях, о единстве принципов растительного и животного мира и другие вопросы. Центральным ведущим элементом в живом организме является клетка. Разнообразие клеток неожиданно оказалось очень большим. При исследовании мозга мышей обнаружено около 50 различных клеток. Мозг, центральная нервная система (ЦНС) оказались весьма любопытными органом и системой. Многомиллиардные проекты посвящены изучению мозга, о чем в цикле тоже рассказывалось. Исходя из функций, клетки ЦНС подразделяются на сенсорные (воспринимающие сигналы), ассоциативные (связывающие нейроны в единую систему) и эффекторные (передающие импульсы к органам). По характеру воздействия на клетки в ЦНС выделяют возбуждающие и тормозящие нейроны. Особая группа секреторных нейронов генерирует, синтезирует нейрогормоны.

Через ЦНС замыкаются все рефлексы организма. ЦНС регулирует работу отдельных органов и систем организма, она координирует и согласует между собой деятельность различных органов и систем органов. ЦНС также обеспечивает связь организма с внешней средой, обусловливает адекватные поведение и реакции на раздражители, адаптируя организм к изменению условий.

Все сказанное выше справедливо для состояния организма и клеток, находящихся в «норме». На практике (в жизни) имеют место отклонения от «нормы» и довольно значительные. Существуют условия, когда человек впадает, например, в кому на длительный период (недели, месяцы, годы и даже десятилетия). Возникают измененные состояния сознания. Большой проблемой становится установление диагноза и уровня сознания. Организм в коме живой, его жизнедеятельность поддерживается часто аппаратно медиками и родственниками, но он порой становится подобным растению. В таком состоянии человека главный вопрос о сознании. Сохраняется сознание или оно разрушено и восстановлению не подлежит. И дальнейшую судьбу решает уже не сам человек, а его близкие. Отключать систему жизнеобеспечения или продолжать поддерживать надежду на выздоровление. В практике имел место случай такого поддержания в течение 42 лет, но к излечению это не привело, человек скончался, не приходя в сознание.

Читать далее
Всего голосов 8: ↑6.5 и ↓1.5+5
Комментарии4

LOCOST и SPECTRUM, два подхода к суммаризации

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров452

2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Использование LLM в автоматизации рутинных задач

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров8.6K

Всем привет!

На связи Георгий Бредис, Deep Learning Engineer из команды Intelligent Document Processing в SberDevices. Наша команда занимается задачами автоматизации бизнес-процессов путем извлечения информации из неструктурированного контента и созданием сервисов суммаризации и поиска на основе LLM. В данный момент мы исследуем новые способы извлечения информации из интерфейсов, что открывает новые возможности для автоматизации процессов в сфере RPA.

В этой статье речь пойдет об использовании больших языковых моделей для работы с браузером, как одного из самых распространенных примеров интерфейса.

Читать далее
Всего голосов 16: ↑19.5 и ↓-3.5+23
Комментарии5

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров6K

Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.

Читать далее
Всего голосов 18: ↑21 и ↓-3+24
Комментарии13

Векторные СУБД и другие инструменты для разработки ML-моделей

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.3K

На фоне развития генеративных и больших языковых моделей набирают обороты векторные базы данных. В прошлый раз в блоге beeline cloud мы обсудили, насколько этот тренд устойчив, а также предложили несколько книг для желающих погрузиться в тему. Сегодня же мы собрали компактную подборку открытых СУБД и поисковых движков, способных помочь в разработке систем ИИ. Обсуждаем такие инструменты, как Lantern, LanceDB, CozoDB, ArcadeDB, Dart Vector DB, Marqo и Orama.

Читать далее
Всего голосов 6: ↑6.5 и ↓-0.5+7
Комментарии3

Многозадачность или марихуана?

Время на прочтение6 мин
Количество просмотров66K


Взгляните на эту картинку. Персонаж справа — медведь. Так случилось, что он курит марихуану (не спрашивайте, где он её взял. Знать не хочу). Женщину слева я назвал Салли. За исключением того, что у неё пять рук, Салли совершенно обыкновенная, непримечательная деловая женщина. Салли, как и многие другие обыкновенные деловые женщины, ещё и завзятая многозадачница. На картинке она держит свой ноутбук, готовит какой-то десерт, да ещё и балансирует миской с какой-то обжигающе горячей похлёбкой, наверное, из морепродуктов. А теперь главный вопрос. Допустим, у Салли и медведя одинаковый уровень интеллекта (это очень умный медведь), тогда кто из них покажет лучший результат при тестировании когнитивной деятельности? Иными словами, если бы меня интересовала умственная деятельность, что для меня хуже: быть многозадачным или забивать косяк?
Всего голосов 81: ↑72 и ↓9+63
Комментарии124

Зонтичный мониторинг на коленке

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.3K

Эта статья о том, что можно написать свое приложение для решения проблемы зонтичного мониторинга на spring-boot. Под зонтичным мониторингом я понимаю информационную систему, которая работает с событиями от систем мониторинга и рассчитывает статусы сервисно-ресурсной модели.

Читать далее
Всего голосов 3: ↑3.5 и ↓-0.5+4
Комментарии0

Database, Data Warehouse и Data Lake: что это и когда следует использовать каждое?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров7.1K

Данных становится все больше. Важно уметь эффективно хранить и обрабатывать их для решения сложных бизнес-задач. Одним из первых шагов на пути к успешной стратегии является выбор технологии хранения, поиска, анализа и отчетности по данным. Как выбрать между базой данных, Data Warehouse и Data Lake? Рассмотрим ключевые различия и когда следует использовать каждое.

Читать далее
Всего голосов 9: ↑7 и ↓2+5
Комментарии3

Аналитик vs. презентация задачи. Изучаем профессионально-деформационные диалекты коллег

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров3K

Привет =) На связи снова Анастасия-аналитик из команды STM Labs со своей любимой темой «мягких» навыков. В статье про собеседования (первая часть тут, вторая тут) я сравнила аналитика с переводчиком с бизнесового языка на разработческий. Или наоборот.

Недавно у нас на работе произошел случай, на примере которого можно  в шутливой форме раскрыть это сравнение и наглядно показать, почему же аналитику важно понимать, с кем он разговаривает, и как доносить одну и ту же информацию до людей с разными ролями в проекте.

Читать далее
Всего голосов 12: ↑10.5 и ↓1.5+9
Комментарии7

Как тимлиду оценить «КПД разработки». 4 работающих способа — без хрустального шара и гадания на кофейной гуще

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.4K

Привет, Хабр! Я Аня Анциферова, продакт «Цифрового вагона». Я уже рассказывала о том, зачем ПГК пошли в разработку и какие продукты мы делаем. Несмотря на то, что сейчас у ПГК существует «дочка» — ПГК Диджитал, и там трудится порядка 400 человек, мы — не ИТ-гигант. А это значит, что каждый проект, за который мы беремся, и даже каждую фичу, которую дорабатываем, мы должны оценить на предмет эффективности. И доказать, почему разработка оправдана и целесообразна. Сегодня расскажу о том, как такую базовую оценку может провести тимлид.

Читать далее
Всего голосов 16: ↑14 и ↓2+12
Комментарии0
1
23 ...

Информация

В рейтинге
4 322-й
Зарегистрирован
Активность