Как стать автором
Обновить
82.51

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Восстановление знаков пунктуации и заглавных букв — теперь и на длинных текстах

Время на прочтение5 мин
Количество просмотров7.1K

изображение


Open In Colab


После релиза нашей первой модели, расставляющей знаки препинания и большие буквы, было много пожеланий доработать её, чтобы она могла обрабатывать тексты целиком, а не отдельные предложения. Это коллективное пожелание и было осуществлено в нашей новой версии модели.


изображение


В целом, архитектура и датасеты остались прежними. Что изменилось:


  • обучение теперь производилось не на отдельных предложениях, а на нескольких последовательных предложениях (принимаем во внимание, что конструктивное ограничение модели при обучении — 512 токенов на вход, что позволяет свободно подавать ~150 слов на любом из четырех поддерживаемых языков)
  • для ускорения обучения модели сокращение словаря теперь проводилось не только на инференсе, но и на трейне, что позволило увелить размер батча
Читать дальше →
Всего голосов 20: ↑20 и ↓0+20
Комментарии21

Как избавиться от проблем при разметке данных для обучения ML моделей?

Время на прочтение8 мин
Количество просмотров1.9K

Введение


Потребность в аннотировании данных растёт из-за роста популярности машинного обучения. Только люди способны создать эталонную разметку, которая необходима для обучения модели. Работа аннотатора очень неблагодарна, монотонна и иногда сложна. Работа менеджера проекта по аннотированию, руководящего проектом с тысячами, а иногда и с миллионами объектов, тоже может быть тяжёлой. Кроме того, с увеличением объёмов данных проблема становится всё более комплексной.

Аннотирование очень быстро может превратиться в серьёзную преграду. В этой статье мы рассмотрим инструменты и процессы, позволяющие избежать головной боли при работе с проектом разметки данных.
Читать дальше →
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Почему наш стартап переехал с Flask на FastAPI

Время на прочтение8 мин
Количество просмотров27K

Как так оказалось, что стартап решил поменять стек? Это же затраты и все возникающие при этом сложности переезда. Но если хочешь получить короткий, эргономичный, хорошо читаемый код, приходится идти на жертвы. Но давайте по порядку.

Алекс Морозов, co-founder & CTO в компании Datafold, рассказал, как они переехали с Flask на FastAPI и поделился собственным опытом такого переезда. Это не только то, что пишут в документации, а конкретные проблемы, с которыми они столкнулись при переезде, и как они их обошли. На примерах посмотрим, что стоит сделать, а каких решений лучше избегать.

Читать далее
Всего голосов 24: ↑22 и ↓2+20
Комментарии8

Что такое хранилище признаков?

Время на прочтение12 мин
Количество просмотров2.6K

Интеллектуальные системы обработки данных уже давно и широко используются в продакшене для решения различных задач, будь то масштабная аналитика или потоковая обработка информации в режиме реального времени. Однако практическое машинное обучение, то есть аналитика на основе машинного обучения в приложениях, ориентированных на пользователя, для многих специалистов все еще в новинку. Развертывание моделей машинного обучения в продакшене для практических целей (таких как создание рекомендательных систем, выявление мошенничества, персонализация пользовательского опыта) предъявляет новые требования к инструментам обработки данных.

Специально для решения этой задачи и предназначен новый тип инфраструктуры данных, ориентированной на машинное обучение.

Об авторах: Майк Дель Бальсо, генеральный директор и сооснователь компании Tecton Виллем Пиенаар, создатель хранилища признаков Feast

Читать далее
Всего голосов 2: ↑1 и ↓10
Комментарии1

Истории

“Вы бигдату анализируете?” Чем занимаются разработчики в исследовательской компании

Время на прочтение9 мин
Количество просмотров8.4K

Мы в Mediascope считаем аудиторию ТВ, интернета, радио и прессы. Мониторим контент в СМИ. Измеряем потребительские предпочтения россиян. Фиксируем выходы рекламы во всех медиа. В результате пользователи наших данных получают огромное количество датасетов для анализа и решения самых разных задач бизнеса. Кроме того, многие наши данные лежат в основе рекламных взаиморасчетов медиарынка и являются своего рода индустриальной "валютой" в диалоге разных его игроков.

Кому все это нужно? Компаниям, работающим на российском рынке рекламы (сегмент - сугубо В2В) - непосредственно СМИ, медиа-холдингам, рекламным агентствам и компаниям-рекламодателям.

В нашей работе крайне важно сбалансированное сочетание, с одной стороны, ИТ-решений, стэка технологий и программных разработок, с другой, - применение методов социологических исследований, математики и анализа данных.

Расскажем обо всем поподробнее.

Поехали!
Всего голосов 15: ↑14 и ↓1+13
Комментарии7

Создаем аналитическое хранилище данных командой из 2-3 спецов

Время на прочтение9 мин
Количество просмотров19K
Всем привет!
Сделать хорошее аналитическое хранилище (DWH), когда в команде десяток-другой крутых специалистов и пара лет времени — не сложно. Проекты по созданию DWH, Data Lake и BI обычно очень ресурсоёмки и под силу только большим компаниям.
Мне интересно искать и применять практики, которые позволяют компаниям быстро создавать аналитические решения маленькой командой. Этими наработками хочу поделиться в данной статье.
Статья нацелена на:
  • Небольшие команды в начале пути.
  • Создание решений с быстрым возвратом инвестиций.

Коротко о моём DWH опыте (чтобы понимать ограничения моего мышления):
  • Реализовывал три похожих не очень больших проекта по созданию DWH: 5-15 терабайт, 100+ сущностей, в команде 2-4 специалиста, в качестве источника — одна основная база продукта (сервиса) и несколько дополнительных.
  • Участвовал в супер большом проекте DWH: 1+ Петабайт (прирост 1 терабайт в день), 2000+ сущностей, в команде 100+ специалистов. В этой компании жадно изучал Data Vault 2, исходники DWH движка, бизнес-процессы, которые масштабируются на сотни специалистов, правила описания DWH в вики и методы постановки задач.
  • В продакшн работал только с batch процессами, со stream знаком только по обучающим курсам и книгам.

Ценность для бизнеса


Цепочка создания ценности в процессе работы с данными (источник):


Читать дальше →
Всего голосов 15: ↑15 и ↓0+15
Комментарии13

LaTech Data Talks  — материалы с митапа

Время на прочтение1 мин
Количество просмотров1.6K

Вот и состоялся наш первый митап для специалистов по работе с данными — LaTech Data Talks. Мы рассказали о том, как устроена команда Data & Analytics в Lamoda и с какими вызовами нам приходится справляться, поговорили про выстраивание процессов в команде продуктовых аналитиков и о том, как наш поиск позволяет найти те самые теплые кроссовки мечты. Делимся презентациями и записями выступлений спикеров.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Воспроизводимость экспериментов Big Data

Время на прочтение8 мин
Количество просмотров3K

Вы не задумываетесь над процессами, а фокусируетесь на решении задач в сжатые сроки, только когда вы аналитик в стартапе или маленькой команде. Но после первых успехов хочется оглянуться назад и наладить процессы, почистить библиотеку артефактов и подтянуть качество. Особенно когда команда стремительно растет. Непрозрачная структура тяжело поддается управлению и не позволяет быстро обучать сотрудников.

Меня зовут Елдос, я Big Data аналитик, и сегодня я расскажу о том, как команда Fintech из службы Big Data аналитики и машинного обучения Beeline Казахстан создала среду для совместной работы, связала используемые инструменты одним ключом, обеспечила централизованное хранение кода в Git и подсчетов в HDFS, и тем самым обеспечила воспроизводимость экспериментов.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии0

Автоматизация контроля качества чатов в колл-центре

Время на прочтение3 мин
Количество просмотров1.7K

Кажется, что жалобы на колл-центр - это одна из самых популярных тем всех форумов, когда дело доходит до общения с клиентами. Почему? Все дело в том, что людям намного проще нахамить, нагрубить, проигнорировать, находясь по другую сторону экрана, чем сделать это при личной встрече.

Несмотря на то, что данный вид связи и передачи информации наиболее комфортный и быстрый, он также приводит и к нехватке контроля и, следовательно, к "распущенности" операторов. Однако первый личный контакт клиента с компанией, выходящий за рамки красиво оформленного сайта, происходит именно в чате. Именно поэтому от того, как быстро, вежливо и четко ответит оператор, зависит останется с вами клиент или уйдет к вашему конкуренту.

Читать далее
Всего голосов 2: ↑1 и ↓10
Комментарии1

Фальсифицируем выборы в Государственную Думу 2021 года, а потом отменяем фальсификации с помощью машинного обучения

Время на прочтение17 мин
Количество просмотров14K

Предыдущая статья на тему выборов в государственную думу: «Восстанавливаем результаты выборов 2021 с помощью машинного обучения» вызвала интерес. Вместе с тем к статье было много критических комментариев. В некоторых из этих комментариев были подняты спорные вопросы, которые требовали дополнительных исследований.

В данной работе производится симуляция выборных фальсификаций различного типа на реальных данных итогов голосования, которое прошло в сентябре 2021 года. Это позволяет оценить корректность результатов восстановления результатов голосования с помощью библиотеки scikit-learn и позволяет выявить некоторые особенности такого подхода.

Читать далее
Всего голосов 39: ↑38 и ↓1+37
Комментарии26

Как мы визуализировали большие данные на картах: трудности и особенности

Время на прочтение16 мин
Количество просмотров8.6K

Наша компания занимается аутсорсингом, мы делаем проекты в совершенно разных сферах. Последние полтора года я работал с картами, с визуализацией больших данных, и сейчас я хочу поделиться своим опытом.

В статье будет две части:

1. Теоретическая расскажет о визуализации данных на картах в принципе, о распространенных JS библиотеках для решения этой задачи и их основных возможностях. 

2. В практической рассказ пойдет о трудностях, с которыми мы столкнулись, и о путях их преодоления.

Наверняка вы видели сервисы, показывающие пробки на дорогах. Так вот, большинство примеров будет из одного похожего проекта, где мы показывали рейтинг опасности на дорогах: уклон, резкий поворот, туман, обледенение, аварии — всё это отображается на карте в режиме реального времени. Хотите знать, как? Прошу под кат.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии4

Три способа отследить запросы Greenplum, которые «отъедают» слишком много ресурсов

Время на прочтение14 мин
Количество просмотров7.4K

Привет, Хабр! Меня зовут Роман, я работаю разработчиком в компании Arenadata, где мы решаем много задач, связанных с Greenplum. Как-то мне представился случай разобраться с одним непростым, но вполне типичным для этой СУБД кейсом. Необходимо было выяснить, на обработку каких запросов уходит неадекватно много системных ресурсов. В этой статье мне бы хотелось поделиться своими наработками и рассказать о трёх проверенных мной способах мониторинга утилизации системных ресурсов, потребляемых запросами в Greenplum.

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии0

Как улучшить ключевые метрики банка за счет кассовых чеков ОФД?

Время на прочтение8 мин
Количество просмотров4.1K

Плох тот дата сайентист, который не представляет, как будут использоваться его модели в конечных продуктах, как они помогут бизнесу увеличить чистую прибыль, улучшить клиентский опыт или любой другой ключевой показатель в компании. Часто задачи приходят от продуктовых подразделений, но в случае, когда главным компонентом продукта является модель машинного обучения, без экспертного взгляда специалиста не обойтись. В этой статье рассмотрим, как можно принести пользу компании за счет данных кассовых чеков ОФД.

Читать далее
Всего голосов 11: ↑8 и ↓3+5
Комментарии7

Ближайшие события

Weekend Offer в AliExpress
Дата20 – 21 апреля
Время10:00 – 20:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн

Data Science 'по ту сторону изгороди'

Время на прочтение14 мин
Количество просмотров5.2K


Кадр из мультфильма «Over the Garden Wall» (2014)


Большое количество курсов по аналитике данных и питону создает впечатление, что «два месяца курсов, пандас в руках» и ты data science специалист, готовый порвать любую прямоугольную задачу.


Однако, изначально просто счёт относился к computer science, а data science было более широким и междисциплинарным понятием. В классическом понимании data scientist — «T-shape» специалист, который оцифровывает и увязывает административные и предметные вертикали/горизонтали компаний через математические модели.


Далее немного иллюстрирующих примеров.


Является продолжением серии предыдущих публикаций.

Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Комментарии2

Оптимизация разметки данных с помощью активного обучения

Время на прочтение7 мин
Количество просмотров1.8K

Подавляющее большинство инструментов глубокого обучения позволяет нам быстро создавать новые приложения с потрясающей производительностью, от программ компьютерного зрения, классифицирующих сложные объекты по фотографиям, до анализаторов естественного языка при помощи извлечения семантики из текстов. Однако самым серьёзным узким местом всех этих методик является огромное количество данных, необходимое для обучения моделей — обычно сотни тысяч примеров для обучения.

Если вы приступаете к созданию с нуля классификатора изображений, допустим, для распознавания несвежих продуктов на конвейерной ленте, для сбора и ручной разметки всех этих фотографий вам понадобятся недели или месяцы. К счастью, существует множество глубоких нейронных сетей, уже обученных на больших массивах данных фотографий с большим количеством классов. Они позволяют устранить проблему «холодного запуска». Идея, лежащая в основе трансферного обучения заключается в использовании результатов работы этих моделей, фиксирующих высокоуровневую семантику изображений, в качестве входящих данных для новых классификаторов, решающих требуемую задачу. Это значительно уменьшает объём данных, которые нужно аннотировать вручную — с сотен тысяч до тысяч.

Однако аннотирование даже тысяч примеров может быть затратной задачей, особенно если для выполнения задачи по аннотированию требуется навыки специалиста в соответствующей области. В идеале достаточно было бы разметить только несколько сотен задач и позволить конвейеру машинного обучения самообучаться без контроля. Эта задача также называется бюджетированное обучение (budgeted learning): мы выделяем сумму денег на приобретение набора данных обучения для создания модели с нужной производительностью. Ещё одна проблема связана с дрейфом концепции, при котором целевая задача со временем меняется (на линию распознавателя поступают новые продукты) и показатели прогнозирования без вмешательства человека деградируют.
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Apache Spark, объяснение ключевых терминов

Время на прочтение9 мин
Количество просмотров18K

Как отмечено в статье Survey shows huge popularity spike for Apache Spark:

«Apache Spark - это Тейлор Свифт программного обеспечения в мире больших данных. Технология с открытым исходным кодом существует и популярна в течении нескольких лет. Но 2015 год стал важной вехой, когда Spark прошел путь от перспективной технологии до настоящей суперзвезды. 

Одна из причин, по которой Apache Spark стал таким популярным, заключается в том, что Spark предоставляет саентистам и инженерам данных мощный унифицированный движок, который является одновременно быстрым (в 100 раз быстрее, чем Apache Hadoop), так и простым в использовании. Это позволяет различным специалистам по данным решать разнообразные проблемы, например, задачи машинного обучения, вычисление графов, потоковая обработка и выполнение в режиме реального времени различных запросов в гораздо большем масштабе. 

Читать далее
Всего голосов 4: ↑1 и ↓3-2
Комментарии7

Геномика. Информатика для биологов

Время на прочтение16 мин
Количество просмотров11K
Автор сообщества Фанерозой, биотехнолог, Людмила Хигерович.



На дворе двадцать первый век, стремительными темпами информационные технологии захватывают все больше сфер нашей жизни, включая науку. С каждым годом они все глубже проникают в различные отрасли науки, способствуя их развитию и порождая новые, смежные дисциплины. Таковой, например, является геномика.
Читать дальше →
Всего голосов 28: ↑26 и ↓2+24
Комментарии22

Как Business Intelligence «купается» в озёрах данных: практика платформы «Форсайт»

Время на прочтение20 мин
Количество просмотров8K

Всем привет.

В этой публикации мы начнем рассказ о том, как наша BI-платформа «Форсайт» работает с данными. Как организовано взаимодействие платформы с СУБД и какие объемы информации мы можем эффективно обрабатывать. Что такое связка «BI+Data Lake» и как можно ее сформировать. Как в OLAP-кубах получать сведения из разных слоев данных: сырые/неструктурированные, детальные, консолидированные, валидированные, аналитические и т.п. Зачем для BI нужно деление на горячие, теплые и холодные данные. Ответы на все эти вопросы вы найдете в цикле наших статей.

Осуществлять аналитическую обработку данных, причем зачастую разной природы и масштабов – дело достаточно сложное. Поэтому мы разделили наш рассказ на несколько частей.  Итак, давайте начнем первую часть нашего рассказа. Welcome под кат!

Читать далее
Всего голосов 7: ↑5 и ↓2+3
Комментарии3

Пойдем другим путем: как прямо сейчас меняется направление потоков данных

Время на прочтение5 мин
Количество просмотров1.9K

Современный бизнес не может обойтись без постоянного притока свежей информации. Но получить информацию недостаточно, ее необходимо обработать и проанализировать. Причем сделать это нужно в максимально короткие сроки. Как и вода, информация не должна застаиваться. Она должна постоянно перетекать от источников на периферию и в локальные дата-центры, а затем в облако и иногда возвращаются обратно.

Предприятия регулярно переносят данные между разными пунктами хранения, но их объемы растут намного быстрее емкости сети, и привычный способ перемещения информации по сетевым каналам становится все менее эффективным. На это, в частности, указывает недавно вышедший отчет Mass Data on the Go от компании Seagate.

Читать далее
Рейтинг0
Комментарии7

Способы обеспечения качества данных для машинного обучения

Время на прочтение15 мин
Количество просмотров7.2K
Данные — это душа каждой модели машинного обучения. В этой статье мы расскажем о том, почему лучшие команды мира, занимающиеся машинным обучением, тратят больше 80% своего времени на улучшение тренировочных данных.


Точность ИИ-модели напрямую зависит от качества данных для обучения.

Современные глубокие нейронные сети во время обучения оптимизируют миллиарды параметров.

Но если ваши данные плохо размечены, это выльется в миллиарды ошибочно обученных признаков и многие часы потраченного впустую времени.

Мы не хотим, чтобы такое случилось с вами. В своей статье мы представим лучшие советы и хитрости для улучшения качества вашего датасета.
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии1
Изменить настройки темы

Вклад авторов

Работа

Data Scientist
62 вакансии