Статьи / Закладки / Профиль Archi_Pro / Хабр

Как стать автором

Пользователь

Профиль Публикации Комментарии 126Закладки 1.5K

aineo 10 июн 2020 в 10:13

OCR-конвейер для обработки документов

11 мин

14K

Обработка изображений*Блог компании ArcadiaМашинное обучение*Искусственный интеллект

Сегодня я расскажу о том, как создавалась система для переноса текста из бумажных документов в электронную форму. Мы рассмотрим два основных этапа: выделение областей с текстом на сканах документов и распознавание символов в них. Кроме того, я поделюсь сложностями, с которыми пришлось столкнуться, способами их решения, а также вариантами развития системы.

Первичным переводом документа в электронную форму является его сканирование или фотографирование, в результате которого получается графический файл в виде фотографии или скана. Однако такие файлы, особенно высокого разрешения, занимают много места на диске, и текст в них невозможно редактировать. В связи с этим, целесообразно извлекать текст из графических файлов, что успешно делается с применением OCR.

Читать дальше →

+5

dimkablin 19 апр в 02:19

Как аппроксимировать любую функцию с помощью PyTorch

Простой

6 мин

5.3K

Python*Программирование*Машинное обучение*

Туториал

При анализе данных и построении моделей машинного обучения часто возникает необходимость аппроксимировать сложные функции. PyTorch предоставляет удобные инструменты для создания и обучения нейронных сетей, которые могут быть эффективно использованы для этой цели. В этом посте мы рассмотрим простой пример аппроксимации функции с использованием PyTorch.

Читать далее

+4

evaclick 28 дек 2023 в 14:28

100 вопросов для подготовки к собесу Data Science

Средний

98 мин

53K

Python*SQL*Математика*Визуализация данных*

Доброго времени суток!

Представляю вашему вниманию чек-лист из 100 вопросов по Data Science. Вопросы покрывают 5 областей: SQL, Python, Machine Learning, статистику и собственно саму DS.

Кому это вообще может быть полезно?

Читать далее

+13

PastorGL 19 апр в 14:06

Искусство ETL. Пишем собственный движок SQL на Spark [часть 6]

Средний

23 мин

2.8K

Open source*Программирование*Java*SQL*Big Data*

Туториал

НЬЮ!

В предыдущих сериях (FAQ • 1 • 2 • 3 • 4 • 5 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

В данной части поговорим о том, как добавить в выражения SQL поддержку функций. Например,

SELECT
    MAX(score1, score2, score3, score4, score5) AS max_score,
    MIN(score1, score2, score3, score4, score5) AS min_score,
    MEDIAN(score1, score2, score3, score4, score5) AS median_score,
    score1 + score2 + score3 + score4 + score5 AS score_sum
FROM raw_scores INTO final_scores
WHERE ABS(score1 + score2 + score3 + score4 + score5) > $score_margin;

— тут у нас функции MAX, MIN и MEDIAN принимают любое количество аргументов типа Double и возвращают Double, а ABS только один такой аргумент.

Вообще, кроме общей математики, в любом уважающем себя диалекте SQL как минимум должны быть функции для манипуляций с датой/временем, работы со строками и массивами. Их мы тоже обязательно добавим. В classpath, чтобы движок мог их оттуда подгружать. До кучи, ещё и операторы типа >= или LIKE, которые у нас уже были реализованы, но хардкодом, сделаем такими же подключаемыми.

Предупреждение о сложности материала

Уровень сложности данной серии статей в целом высокий. Базовые понятия в тексте совсем не объясняются, да и продвинутые далеко не все. Однако, эта часть несколько проще для ознакомления, чем предыдущие. Но всё равно, понимать её будет легче, если вы уже пробежались по остальным хотя бы по диагонали.

Читать дальше →

+6

Alexandropop 21 мар 2022 в 12:43

Культура совещаний: почему Amazon ставит документ во главе всего

6 мин

7.7K

Блог компании МойОфисУправление персоналом*IT-компанииУдалённая работа

Перевод

Привет, Хабр! Меня зовут Александр Попов, я PR-директор МойОфис. Еженедельно в моем рабочем графике бывает до 30 совещаний. Проведение встреч, а также подготовка к ним, забирают много сил и времени. С целью научиться эффективнее расходовать свои ресурсы, я решил исследовать глобальный опыт: во многих крупных компаниях сегодня принят нестандартный формат совещаний.

Одними из первых, еще в начале нулевых годов, культуру собраний пересмотрели в Amazon. Тогда в компании отказались от презентаций, вместо них на встречах стали активно использовать текстовые документы. С тех пор за их внимательным чтением сотрудники обсуждают актуальные проблемы, гипотезы, цифры, графики и факты, а затем принимают решения.

Под катом я предлагаю вам перевод статьи одного из специалистов Amazon — Джастина Гаррисона*, Sr. Developer Advocate из AWS Container Services. Автор рассказывает о конкретной пользе для рабочего процесса, которую обеспечивают «документоцентричные» совещания. А еще объясняет, на что именно следует обратить внимание, если вы планируете внедрить подобную практику в своей компании.

*Позиция автора не всегда может совпадать с мнением МойОфис.

Читать далее

+20

Ilyichev 17 апр в 14:15

Predictive Analytics — все, что нужно знать (обзор ключевых моментов)

Средний

10 мин

4.8K

Из песочницы

Predictive Analytics — или по-русски плановая или прогнозная аналитика, в основе которой лежит ответ на вопрос: «Что может произойти?»

Читать далее

+4

RunMile 17 апр в 12:24

Как оценить задачи без Planning Poker и лишних слов

Простой

9 мин

5.8K

Управление разработкой*Управление проектами*

Привет, Хабр!

Меня зовут Александр, я занимаюсь релиз менеджментом в ИТ-компании TAGES. Эта работа требует быстрой поставки бизнес-ценности в условиях меняющегося мира. Однако непрерывность регулярных деплоев невозможна без четкого плана. А правильный план, в свою очередь, требует точной оценки трудозатрат.

В то же время большинство разработчиков на дух не переносят любые активности, связанные с оценкой времени. Даже методика Planning Poker не всегда находит отклик в командах. Это отчасти связано с предпочтением интровертных сотрудников избегать лишних встреч и звонков.

Впрочем, мой предыдущий опыт работы в авиационной отрасли подтверждает, что нелюбовь к оценке времени характерна не только для разработчиков, но и для авиационных инженеров.

Сегодня мы рассмотрим подход, который решает проблему точной оценки задач с минимальным участием разработчиков.

Читать далее

+6

val6789 15 апр в 09:12

Spark. План запросов на примерах

Средний

7 мин

3.4K

SQL*Apache*Big Data*Хранение данных*Data Engineering*

FAQ

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

Читать далее

+8

vasilevafb 10 апр в 15:15

Более 250 бесплатных курсов и ресурсов по аналитике

Простой

11 мин

10K

Роадмэп

Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать. От автора Telegram-канала «Аналитика и Growth mind-set».

Но прежде несколько важных моментов:

Читать далее

+14

vlad_bik 15 апр в 10:16

Использовать LLM в оффлайне — LocalAI, Ollama, Flowise

Простой

5 мин

4.1K

Ненормальное программирование*Open source*Визуальное программирование*

Туториал

Привет, Хабр.

В этой статье о том, как без написания кода поставить себе локально и использовать LLM без подключения к сети. Для меня это удобный способ использования в самолёте или in the middle of nowhere. Заранее выгрузив себе нужные файлы, можно делать анализ бесед саппорта с клиентами, или получить саммарайз отзывов из стора на приложение, или оценить резюме/тестовое задание кандидата...

Читать далее

+6

VAE 15 апр в 14:09

Клетка ХVI. Кома и сознание человека

7 мин

4.3K

Научно-популярноеБиотехнологииМозгЗдоровьеБиология

Довольно обширный материал о живой клетке представлен в моем цикле статей о живой клетке. В статьях рассмотрены вопросы о возникновении клеточной жизни на Земле, о свойствах, функциях и устройстве клетки, о размножении клеток и организмов, о наследовании живыми организмами родительских свойств во многих поколениях, о единстве принципов растительного и животного мира и другие вопросы. Центральным ведущим элементом в живом организме является клетка. Разнообразие клеток неожиданно оказалось очень большим. При исследовании мозга мышей обнаружено около 50 различных клеток. Мозг, центральная нервная система (ЦНС) оказались весьма любопытными органом и системой. Многомиллиардные проекты посвящены изучению мозга, о чем в цикле тоже рассказывалось. Исходя из функций, клетки ЦНС подразделяются на сенсорные (воспринимающие сигналы), ассоциативные (связывающие нейроны в единую систему) и эффекторные (передающие импульсы к органам). По характеру воздействия на клетки в ЦНС выделяют возбуждающие и тормозящие нейроны. Особая группа секреторных нейронов генерирует, синтезирует нейрогормоны.

Через ЦНС замыкаются все рефлексы организма. ЦНС регулирует работу отдельных органов и систем организма, она координирует и согласует между собой деятельность различных органов и систем органов. ЦНС также обеспечивает связь организма с внешней средой, обусловливает адекватные поведение и реакции на раздражители, адаптируя организм к изменению условий.

Все сказанное выше справедливо для состояния организма и клеток, находящихся в «норме». На практике (в жизни) имеют место отклонения от «нормы» и довольно значительные. Существуют условия, когда человек впадает, например, в кому на длительный период (недели, месяцы, годы и даже десятилетия). Возникают измененные состояния сознания. Большой проблемой становится установление диагноза и уровня сознания. Организм в коме живой, его жизнедеятельность поддерживается часто аппаратно медиками и родственниками, но он порой становится подобным растению. В таком состоянии человека главный вопрос о сознании. Сохраняется сознание или оно разрушено и восстановлению не подлежит. И дальнейшую судьбу решает уже не сам человек, а его близкие. Отключать систему жизнеобеспечения или продолжать поддерживать надежду на выздоровление. В практике имел место случай такого поддержания в течение 42 лет, но к излечению это не привело, человек скончался, не приходя в сознание.

Читать далее

+5

derunat 12 апр в 13:31

LOCOST и SPECTRUM, два подхода к суммаризации

Средний

4 мин

452

Машинное обучение*Искусственный интеллектБлог компании НТР

Обзор

2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.

Читать далее

+2

Natyren 15 апр в 10:58

Использование LLM в автоматизации рутинных задач

Средний

14 мин

8.6K

Расширения для браузеровМашинное обучение*Искусственный интеллектБлог компании SberDevices

Обзор

Всем привет!

На связи Георгий Бредис, Deep Learning Engineer из команды Intelligent Document Processing в SberDevices. Наша команда занимается задачами автоматизации бизнес-процессов путем извлечения информации из неструктурированного контента и созданием сервисов суммаризации и поиска на основе LLM. В данный момент мы исследуем новые способы извлечения информации из интерфейсов, что открывает новые возможности для автоматизации процессов в сфере RPA.

В этой статье речь пойдет об использовании больших языковых моделей для работы с браузером, как одного из самых распространенных примеров интерфейса.

Читать далее

+23

nrsharip 11 апр в 16:06

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Средний

15 мин

6K

Python*Алгоритмы*Математика*Статистика в ITИнфографика

Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.

Читать далее

+24

beeline_cloud 10 апр в 20:13

Векторные СУБД и другие инструменты для разработки ML-моделей

Средний

6 мин

3.3K

Высокая производительность*Data Mining*Хранение данных*Машинное обучение*Блог компании beeline cloud

Обзор

На фоне развития генеративных и больших языковых моделей набирают обороты векторные базы данных. В прошлый раз в блоге beeline cloud мы обсудили, насколько этот тренд устойчив, а также предложили несколько книг для желающих погрузиться в тему. Сегодня же мы собрали компактную подборку открытых СУБД и поисковых движков, способных помочь в разработке систем ИИ. Обсуждаем такие инструменты, как Lantern, LanceDB, CozoDB, ArcadeDB, Dart Vector DB, Marqo и Orama.

Читать далее

+7

SmirkinDA 14 фев 2018 в 13:57

Многозадачность или марихуана?

6 мин

66K

Блог компании ParallelsУправление проектами*Управление персоналом*Читальный зал

Перевод

Взгляните на эту картинку. Персонаж справа — медведь. Так случилось, что он курит марихуану (не спрашивайте, где он её взял. Знать не хочу). Женщину слева я назвал Салли. За исключением того, что у неё пять рук, Салли совершенно обыкновенная, непримечательная деловая женщина. Салли, как и многие другие обыкновенные деловые женщины, ещё и завзятая многозадачница. На картинке она держит свой ноутбук, готовит какой-то десерт, да ещё и балансирует миской с какой-то обжигающе горячей похлёбкой, наверное, из морепродуктов. А теперь главный вопрос. Допустим, у Салли и медведя одинаковый уровень интеллекта (это очень умный медведь), тогда кто из них покажет лучший результат при тестировании когнитивной деятельности? Иными словами, если бы меня интересовала умственная деятельность, что для меня хуже: быть многозадачным или забивать косяк?

+63

keich 12 апр в 11:08

Зонтичный мониторинг на коленке

Средний

6 мин

3.3K

Java*Анализ и проектирование систем*IT-инфраструктура*

Кейс

Эта статья о том, что можно написать свое приложение для решения проблемы зонтичного мониторинга на spring-boot. Под зонтичным мониторингом я понимаю информационную систему, которая работает с событиями от систем мониторинга и рассчитывает статусы сервисно-ресурсной модели.

Читать далее

+4

Demin_Konstantin 12 апр в 18:29

Database, Data Warehouse и Data Lake: что это и когда следует использовать каждое?

Простой

4 мин

7.1K

IT-инфраструктура*Терминология ITData Engineering*Блог компании Smartup

Обзор

Данных становится все больше. Важно уметь эффективно хранить и обрабатывать их для решения сложных бизнес-задач. Одним из первых шагов на пути к успешной стратегии является выбор технологии хранения, поиска, анализа и отчетности по данным. Как выбрать между базой данных, Data Warehouse и Data Lake? Рассмотрим ключевые различия и когда следует использовать каждое.

Читать далее

+5

KainovaAV 12 апр в 17:54

Аналитик vs. презентация задачи. Изучаем профессионально-деформационные диалекты коллег

Простой

14 мин

3K

Анализ и проектирование систем*Блог компании STM Labs

Кейс

Привет =) На связи снова Анастасия-аналитик из команды STM Labs со своей любимой темой «мягких» навыков. В статье про собеседования (первая часть тут, вторая тут) я сравнила аналитика с переводчиком с бизнесового языка на разработческий. Или наоборот.

Недавно у нас на работе произошел случай, на примере которого можно в шутливой форме раскрыть это сравнение и наглядно показать, почему же аналитику важно понимать, с кем он разговаривает, и как доносить одну и ту же информацию до людей с разными ролями в проекте.

Читать далее

+9

Anna_Antsiferova 4 апр в 16:16

Как тимлиду оценить «КПД разработки». 4 работающих способа — без хрустального шара и гадания на кофейной гуще

Простой

6 мин

4.4K

Анализ и проектирование систем*Управление разработкой*Исследования и прогнозы в IT*Финансы в ITБлог компании Первая грузовая компания (ПГК)

Привет, Хабр! Я Аня Анциферова, продакт «Цифрового вагона». Я уже рассказывала о том, зачем ПГК пошли в разработку и какие продукты мы делаем. Несмотря на то, что сейчас у ПГК существует «дочка» — ПГК Диджитал, и там трудится порядка 400 человек, мы — не ИТ-гигант. А это значит, что каждый проект, за который мы беремся, и даже каждую фичу, которую дорабатываем, мы должны оценить на предмет эффективности. И доказать, почему разработка оправдана и целесообразна. Сегодня расскажу о том, как такую базовую оценку может провести тимлид.

Читать далее

+12

1

2 3 ...