Big Data *

Большие данные и всё о них

evrrn 9 дек 2021 в 20:06

Восстановление знаков пунктуации и заглавных букв — теперь и на длинных текстах

5 мин

7.1K

Python*Big Data*Машинное обучение*Natural Language Processing*

После релиза нашей первой модели, расставляющей знаки препинания и большие буквы, было много пожеланий доработать её, чтобы она могла обрабатывать тексты целиком, а не отдельные предложения. Это коллективное пожелание и было осуществлено в нашей новой версии модели.

В целом, архитектура и датасеты остались прежними. Что изменилось:

обучение теперь производилось не на отдельных предложениях, а на нескольких последовательных предложениях (принимаем во внимание, что конструктивное ограничение модели при обучении — 512 токенов на вход, что позволяет свободно подавать ~150 слов на любом из четырех поддерживаемых языков)
для ускорения обучения модели сокращение словаря теперь проводилось не только на инференсе, но и на трейне, что позволило увелить размер батча

Читать дальше →

+20

kucev 9 дек 2021 в 10:45

Как избавиться от проблем при разметке данных для обучения ML моделей?

8 мин

1.9K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Введение

Потребность в аннотировании данных растёт из-за роста популярности машинного обучения. Только люди способны создать эталонную разметку, которая необходима для обучения модели. Работа аннотатора очень неблагодарна, монотонна и иногда сложна. Работа менеджера проекта по аннотированию, руководящего проектом с тысячами, а иногда и с миллионами объектов, тоже может быть тяжёлой. Кроме того, с увеличением объёмов данных проблема становится всё более комплексной.

Аннотирование очень быстро может превратиться в серьёзную преграду. В этой статье мы рассмотрим инструменты и процессы, позволяющие избежать головной боли при работе с проектом разметки данных.

Читать дальше →

ValentinDom 8 дек 2021 в 09:04

Почему наш стартап переехал с Flask на FastAPI

8 мин

27K

Блог компании Конференции Олега Бунина (Онтико)Блог компании DatafoldPython*Программирование*Big Data*

Как так оказалось, что стартап решил поменять стек? Это же затраты и все возникающие при этом сложности переезда. Но если хочешь получить короткий, эргономичный, хорошо читаемый код, приходится идти на жертвы. Но давайте по порядку.

Алекс Морозов, co-founder & CTO в компании Datafold, рассказал, как они переехали с Flask на FastAPI и поделился собственным опытом такого переезда. Это не только то, что пишут в документации, а конкретные проблемы, с которыми они столкнулись при переезде, и как они их обошли. На примерах посмотрим, что стоит сделать, а каких решений лучше избегать.

+20

MaxRokatansky 7 дек 2021 в 16:08

Что такое хранилище признаков?

12 мин

2.6K

Блог компании OTUSBig Data*

Перевод

Интеллектуальные системы обработки данных уже давно и широко используются в продакшене для решения различных задач, будь то масштабная аналитика или потоковая обработка информации в режиме реального времени. Однако практическое машинное обучение, то есть аналитика на основе машинного обучения в приложениях, ориентированных на пользователя, для многих специалистов все еще в новинку. Развертывание моделей машинного обучения в продакшене для практических целей (таких как создание рекомендательных систем, выявление мошенничества, персонализация пользовательского опыта) предъявляет новые требования к инструментам обработки данных.

Специально для решения этой задачи и предназначен новый тип инфраструктуры данных, ориентированной на машинное обучение.

Об авторах: Майк Дель Бальсо, генеральный директор и сооснователь компании Tecton Виллем Пиенаар, создатель хранилища признаков Feast

MediascopeTeam 7 дек 2021 в 10:44

“Вы бигдату анализируете?” Чем занимаются разработчики в исследовательской компании

9 мин

8.4K

Блог компании MediascopeJava*Big Data*Математика*Управление разработкой*

Мы в Mediascope считаем аудиторию ТВ, интернета, радио и прессы. Мониторим контент в СМИ. Измеряем потребительские предпочтения россиян. Фиксируем выходы рекламы во всех медиа. В результате пользователи наших данных получают огромное количество датасетов для анализа и решения самых разных задач бизнеса. Кроме того, многие наши данные лежат в основе рекламных взаиморасчетов медиарынка и являются своего рода индустриальной "валютой" в диалоге разных его игроков.

Кому все это нужно? Компаниям, работающим на российском рынке рекламы (сегмент - сугубо В2В) - непосредственно СМИ, медиа-холдингам, рекламным агентствам и компаниям-рекламодателям.

В нашей работе крайне важно сбалансированное сочетание, с одной стороны, ИТ-решений, стэка технологий и программных разработок, с другой, - применение методов социологических исследований, математики и анализа данных.

Расскажем обо всем поподробнее.

Поехали!

+13

tomleto 7 дек 2021 в 10:33

Создаем аналитическое хранилище данных командой из 2-3 спецов

9 мин

19K

Big Data*Хранилища данных*Data Engineering*

Всем привет!
Сделать хорошее аналитическое хранилище (DWH), когда в команде десяток-другой крутых специалистов и пара лет времени — не сложно. Проекты по созданию DWH, Data Lake и BI обычно очень ресурсоёмки и под силу только большим компаниям.
Мне интересно искать и применять практики, которые позволяют компаниям быстро создавать аналитические решения маленькой командой. Этими наработками хочу поделиться в данной статье.
Статья нацелена на:

Небольшие команды в начале пути.
Создание решений с быстрым возвратом инвестиций.

Коротко о моём DWH опыте (чтобы понимать ограничения моего мышления):

Реализовывал три похожих не очень больших проекта по созданию DWH: 5-15 терабайт, 100+ сущностей, в команде 2-4 специалиста, в качестве источника — одна основная база продукта (сервиса) и несколько дополнительных.
Участвовал в супер большом проекте DWH: 1+ Петабайт (прирост 1 терабайт в день), 2000+ сущностей, в команде 100+ специалистов. В этой компании жадно изучал Data Vault 2, исходники DWH движка, бизнес-процессы, которые масштабируются на сотни специалистов, правила описания DWH в вики и методы постановки задач.
В продакшн работал только с batch процессами, со stream знаком только по обучающим курсам и книгам.

Ценность для бизнеса

Цепочка создания ценности в процессе работы с данными (источник):

Читать дальше →

+15

mariya_bzhitskaja 6 дек 2021 в 13:43

LaTech Data Talks — материалы с митапа

1 мин

1.6K

Блог компании Lamoda TechData Mining*Big Data*Машинное обучение*Управление продуктом*

Вот и состоялся наш первый митап для специалистов по работе с данными — LaTech Data Talks. Мы рассказали о том, как устроена команда Data & Analytics в Lamoda и с какими вызовами нам приходится справляться, поговорили про выстраивание процессов в команде продуктовых аналитиков и о том, как наш поиск позволяет найти те самые теплые кроссовки мечты. Делимся презентациями и записями выступлений спикеров.

adetbekov 6 дек 2021 в 13:00

Воспроизводимость экспериментов Big Data

8 мин

Блог компании Beeline КазахстанBig Data*Машинное обучение*

Вы не задумываетесь над процессами, а фокусируетесь на решении задач в сжатые сроки, только когда вы аналитик в стартапе или маленькой команде. Но после первых успехов хочется оглянуться назад и наладить процессы, почистить библиотеку артефактов и подтянуть качество. Особенно когда команда стремительно растет. Непрозрачная структура тяжело поддается управлению и не позволяет быстро обучать сотрудников.

Меня зовут Елдос, я Big Data аналитик, и сегодня я расскажу о том, как команда Fintech из службы Big Data аналитики и машинного обучения Beeline Казахстан создала среду для совместной работы, связала используемые инструменты одним ключом, обеспечила централизованное хранение кода в Git и подсчетов в HDFS, и тем самым обеспечила воспроизводимость экспериментов.

khkaterine 2 дек 2021 в 21:19

Автоматизация контроля качества чатов в колл-центре

3 мин

1.7K

API*Big Data*

Из песочницы

Кажется, что жалобы на колл-центр - это одна из самых популярных тем всех форумов, когда дело доходит до общения с клиентами. Почему? Все дело в том, что людям намного проще нахамить, нагрубить, проигнорировать, находясь по другую сторону экрана, чем сделать это при личной встрече.

Несмотря на то, что данный вид связи и передачи информации наиболее комфортный и быстрый, он также приводит и к нехватке контроля и, следовательно, к "распущенности" операторов. Однако первый личный контакт клиента с компанией, выходящий за рамки красиво оформленного сайта, происходит именно в чате. Именно поэтому от того, как быстро, вежливо и четко ответит оператор, зависит останется с вами клиент или уйдет к вашему конкуренту.

zzzzbh 2 дек 2021 в 17:57

Фальсифицируем выборы в Государственную Думу 2021 года, а потом отменяем фальсификации с помощью машинного обучения

17 мин

14K

Python*Алгоритмы*Big Data*Искусственный интеллектИнфографика

Предыдущая статья на тему выборов в государственную думу: «Восстанавливаем результаты выборов 2021 с помощью машинного обучения» вызвала интерес. Вместе с тем к статье было много критических комментариев. В некоторых из этих комментариев были подняты спорные вопросы, которые требовали дополнительных исследований.

В данной работе производится симуляция выборных фальсификаций различного типа на реальных данных итогов голосования, которое прошло в сентябре 2021 года. Это позволяет оценить корректность результатов восстановления результатов голосования с помощью библиотеки scikit-learn и позволяет выявить некоторые особенности такого подхода.

+37

NikitaShv 1 дек 2021 в 12:40

Как мы визуализировали большие данные на картах: трудности и особенности

16 мин

8.6K

Блог компании LineateВеб-разработка*JavaScript*Maps API*Big Data*

Наша компания занимается аутсорсингом, мы делаем проекты в совершенно разных сферах. Последние полтора года я работал с картами, с визуализацией больших данных, и сейчас я хочу поделиться своим опытом.

В статье будет две части:

1. Теоретическая расскажет о визуализации данных на картах в принципе, о распространенных JS библиотеках для решения этой задачи и их основных возможностях.

2. В практической рассказ пойдет о трудностях, с которыми мы столкнулись, и о путях их преодоления.

Наверняка вы видели сервисы, показывающие пробки на дорогах. Так вот, большинство примеров будет из одного похожего проекта, где мы показывали рейтинг опасности на дорогах: уклон, резкий поворот, туман, обледенение, аварии — всё это отображается на карте в режиме реального времени. Хотите знать, как? Прошу под кат.

Romashkarom 1 дек 2021 в 11:21

Три способа отследить запросы Greenplum, которые «отъедают» слишком много ресурсов

14 мин

7.4K

Блог компании ArenadataBig Data*Хранилища данных*Распределённые системы*Data Engineering*

Туториал

Привет, Хабр! Меня зовут Роман, я работаю разработчиком в компании Arenadata, где мы решаем много задач, связанных с Greenplum. Как-то мне представился случай разобраться с одним непростым, но вполне типичным для этой СУБД кейсом. Необходимо было выяснить, на обработку каких запросов уходит неадекватно много системных ресурсов. В этой статье мне бы хотелось поделиться своими наработками и рассказать о трёх проверенных мной способах мониторинга утилизации системных ресурсов, потребляемых запросами в Greenplum.

+11

smirnovevgeny 30 ноя 2021 в 13:00

Как улучшить ключевые метрики банка за счет кассовых чеков ОФД?

8 мин

4.1K

Блог компании Альфа-БанкBig Data*Машинное обучение*Искусственный интеллектФинансы в IT

Плох тот дата сайентист, который не представляет, как будут использоваться его модели в конечных продуктах, как они помогут бизнесу увеличить чистую прибыль, улучшить клиентский опыт или любой другой ключевой показатель в компании. Часто задачи приходят от продуктовых подразделений, но в случае, когда главным компонентом продукта является модель машинного обучения, без экспертного взгляда специалиста не обойтись. В этой статье рассмотрим, как можно принести пользу компании за счет данных кассовых чеков ОФД.

i_shutov 30 ноя 2021 в 12:38

Data Science 'по ту сторону изгороди'

14 мин

5.2K

Python*Data Mining*Big Data*R*

Кадр из мультфильма «Over the Garden Wall» (2014)

Большое количество курсов по аналитике данных и питону создает впечатление, что «два месяца курсов, пандас в руках» и ты data science специалист, готовый порвать любую прямоугольную задачу.

Однако, изначально просто счёт относился к computer science, а data science было более широким и междисциплинарным понятием. В классическом понимании data scientist — «T-shape» специалист, который оцифровывает и увязывает административные и предметные вертикали/горизонтали компаний через математические модели.

Далее немного иллюстрирующих примеров.

Является продолжением серии предыдущих публикаций.

Читать дальше →

kucev 29 ноя 2021 в 13:36

Оптимизация разметки данных с помощью активного обучения

7 мин

1.8K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Подавляющее большинство инструментов глубокого обучения позволяет нам быстро создавать новые приложения с потрясающей производительностью, от программ компьютерного зрения, классифицирующих сложные объекты по фотографиям, до анализаторов естественного языка при помощи извлечения семантики из текстов. Однако самым серьёзным узким местом всех этих методик является огромное количество данных, необходимое для обучения моделей — обычно сотни тысяч примеров для обучения.

Если вы приступаете к созданию с нуля классификатора изображений, допустим, для распознавания несвежих продуктов на конвейерной ленте, для сбора и ручной разметки всех этих фотографий вам понадобятся недели или месяцы. К счастью, существует множество глубоких нейронных сетей, уже обученных на больших массивах данных фотографий с большим количеством классов. Они позволяют устранить проблему «холодного запуска». Идея, лежащая в основе трансферного обучения заключается в использовании результатов работы этих моделей, фиксирующих высокоуровневую семантику изображений, в качестве входящих данных для новых классификаторов, решающих требуемую задачу. Это значительно уменьшает объём данных, которые нужно аннотировать вручную — с сотен тысяч до тысяч.

Однако аннотирование даже тысяч примеров может быть затратной задачей, особенно если для выполнения задачи по аннотированию требуется навыки специалиста в соответствующей области. В идеале достаточно было бы разметить только несколько сотен задач и позволить конвейеру машинного обучения самообучаться без контроля. Эта задача также называется бюджетированное обучение (budgeted learning): мы выделяем сумму денег на приобретение набора данных обучения для создания модели с нужной производительностью. Ещё одна проблема связана с дрейфом концепции, при котором целевая задача со временем меняется (на линию распознавателя поступают новые продукты) и показатели прогнозирования без вмешательства человека деградируют.

Читать дальше →

VorobevEI 28 ноя 2021 в 15:37

Apache Spark, объяснение ключевых терминов

9 мин

18K

Apache*Big Data*Data Engineering*

Из песочницы

Перевод

Как отмечено в статье Survey shows huge popularity spike for Apache Spark:

«Apache Spark - это Тейлор Свифт программного обеспечения в мире больших данных. Технология с открытым исходным кодом существует и популярна в течении нескольких лет. Но 2015 год стал важной вехой, когда Spark прошел путь от перспективной технологии до настоящей суперзвезды.

Одна из причин, по которой Apache Spark стал таким популярным, заключается в том, что Spark предоставляет саентистам и инженерам данных мощный унифицированный движок, который является одновременно быстрым (в 100 раз быстрее, чем Apache Hadoop), так и простым в использовании. Это позволяет различным специалистам по данным решать разнообразные проблемы, например, задачи машинного обучения, вычисление графов, потоковая обработка и выполнение в режиме реального времени различных запросов в гораздо большем масштабе.

-2

InBioReactor 27 ноя 2021 в 13:23

Геномика. Информатика для биологов

16 мин

11K

Блог компании Timeweb CloudBig Data*Читальный залНаучно-популярноеБиология

Автор сообщества Фанерозой, биотехнолог, Людмила Хигерович.

На дворе двадцать первый век, стремительными темпами информационные технологии захватывают все больше сфер нашей жизни, включая науку. С каждым годом они все глубже проникают в различные отрасли науки, способствуя их развитию и порождая новые, смежные дисциплины. Таковой, например, является геномика.

Читать дальше →

+24

kvsman 26 ноя 2021 в 21:20

Как Business Intelligence «купается» в озёрах данных: практика платформы «Форсайт»

20 мин

Блог компании ФорсайтSQL*Big Data*Хранилища данных*Data Engineering*

Всем привет.

В этой публикации мы начнем рассказ о том, как наша BI-платформа «Форсайт» работает с данными. Как организовано взаимодействие платформы с СУБД и какие объемы информации мы можем эффективно обрабатывать. Что такое связка «BI+Data Lake» и как можно ее сформировать. Как в OLAP-кубах получать сведения из разных слоев данных: сырые/неструктурированные, детальные, консолидированные, валидированные, аналитические и т.п. Зачем для BI нужно деление на горячие, теплые и холодные данные. Ответы на все эти вопросы вы найдете в цикле наших статей.

Осуществлять аналитическую обработку данных, причем зачастую разной природы и масштабов – дело достаточно сложное. Поэтому мы разделили наш рассказ на несколько частей. Итак, давайте начнем первую часть нашего рассказа. Welcome под кат!

SeagateRussia 25 ноя 2021 в 16:53

Пойдем другим путем: как прямо сейчас меняется направление потоков данных

5 мин

1.9K

Блог компании SeagateBig Data*Хранение данных*Хранилища данных*

Современный бизнес не может обойтись без постоянного притока свежей информации. Но получить информацию недостаточно, ее необходимо обработать и проанализировать. Причем сделать это нужно в максимально короткие сроки. Как и вода, информация не должна застаиваться. Она должна постоянно перетекать от источников на периферию и в локальные дата-центры, а затем в облако и иногда возвращаются обратно.

Предприятия регулярно переносят данные между разными пунктами хранения, но их объемы растут намного быстрее емкости сети, и привычный способ перемещения информации по сетевым каналам становится все менее эффективным. На это, в частности, указывает недавно вышедший отчет Mass Data on the Go от компании Seagate.

kucev 25 ноя 2021 в 10:34

Способы обеспечения качества данных для машинного обучения

15 мин

7.2K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Данные — это душа каждой модели машинного обучения. В этой статье мы расскажем о том, почему лучшие команды мира, занимающиеся машинным обучением, тратят больше 80% своего времени на улучшение тренировочных данных.

Точность ИИ-модели напрямую зависит от качества данных для обучения.

Современные глубокие нейронные сети во время обучения оптимизируют миллиарды параметров.

Но если ваши данные плохо размечены, это выльется в миллиарды ошибочно обученных признаков и многие часы потраченного впустую времени.

Мы не хотим, чтобы такое случилось с вами. В своей статье мы представим лучшие советы и хитрости для улучшения качества вашего датасета.

Читать дальше →

1 2 ...

46 47

49 50

Big Data *

Восстановление знаков пунктуации и заглавных букв — теперь и на длинных текстах

Как избавиться от проблем при разметке данных для обучения ML моделей?

Введение

Почему наш стартап переехал с Flask на FastAPI

Что такое хранилище признаков?

Истории

“Вы бигдату анализируете?” Чем занимаются разработчики в исследовательской компании

Создаем аналитическое хранилище данных командой из 2-3 спецов

Ценность для бизнеса

LaTech Data Talks — материалы с митапа

Воспроизводимость экспериментов Big Data

Автоматизация контроля качества чатов в колл-центре

Фальсифицируем выборы в Государственную Думу 2021 года, а потом отменяем фальсификации с помощью машинного обучения

Как мы визуализировали большие данные на картах: трудности и особенности

Три способа отследить запросы Greenplum, которые «отъедают» слишком много ресурсов

Как улучшить ключевые метрики банка за счет кассовых чеков ОФД?

Ближайшие события

Data Science 'по ту сторону изгороди'

Оптимизация разметки данных с помощью активного обучения

Apache Spark, объяснение ключевых терминов

Геномика. Информатика для биологов

Как Business Intelligence «купается» в озёрах данных: практика платформы «Форсайт»

Пойдем другим путем: как прямо сейчас меняется направление потоков данных

Способы обеспечения качества данных для машинного обучения

Вклад авторов

Работа