Как стать автором
Обновить
95
-1

Профессиональное сообщество

Отправить сообщение

NLP для поиска грамматических ошибок

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров1.3K

Привет, Хабр!

Сегодня с вами участник профессионального сообщества NTA Журавлев Сергей.

В 2017 году на свет вышла статья разработчиков Google под названием «Attention is All You Need». В ней впервые была предложена идея трансформеров — моделей машинного обучения, ключевой особенностью которых было использование так называемых «слоев внимания», определяющих, какие слова и в какой степени важны для формирования контекста предложения. Публикация стала началом активного развития и продвижения моделей машинного обучения на описанной архитектуре.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии2

Code Mining. Могут ли аналитики читать код?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров586

Привет, Хабр! На связи участник профессионального сообщества NTA Губин Никита.

Code mining — это процесс анализа и извлечения информации из исходного кода для получения полезных данных. Аналитики, имея базовые компетенции в разработке, могут использовать их как дополнительный источник информации для улучшения процессов. Инструмент, о котором я расскажу в посте, разделяет код на логические блоки, что позволит улучшить взаимодействие DS‑специалистов и аналитиков.

Читать далее
Всего голосов 6: ↑3 и ↓30
Комментарии2

Электронные замки для гостиниц. История создания

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров4.4K

Гостиничный бизнес всегда был на переднем крае секьюритизации. Во-первых, потому, что индустрия развлечений всегда была магнитом для преступности. А во-вторых, обеспечение безопасности гостей является базовой ценностью которую постояльцы ждут от отеля.

И один из способов эту безопасность явно продемонстрировать, это обеспечить номер высококачественным и надежным замком. Не случайно отельные замки рассматриваются как отдельный рынок, со своими специфическими запросами и решениями.

Читать далее
Всего голосов 21: ↑21 и ↓0+21
Комментарии30

Конурбация Рура: чем живёт бывшее индустриальное сердце Европы

Уровень сложностиСредний
Время на прочтение20 мин
Количество просмотров9.6K
Карта землепользования Рура из регионального плана развития. Видна сросшаяся городская ткань конурбации, плотная транспортная сеть и сохранившиеся очаги промышленности (серый цвет). Источник: RVR

Я долго откладывал материал по Руру на потом, для него нужно было созреть. Рурский бассейн, где до WWII добывалась половина угля и выплавлялась треть европейской стали, и который стал символом индустриальной мощи, за последние полвека сильно сдал. Но не сдался, пусть и прошёл через мучительную трансформацию. Мы приехали в Дортмунд в 2018 г. после учебного модуля в США. И, конечно, главным вопросом было, как региону после коллапса тяжёлой промышленности удалось избежать судьбы Детройта. Потрясло тогда отношение местных к ржавеющим остовам промышленных гигантов как к части истории, которую невозможно вычеркнуть. Два других принципиальных вопроса после США были: как агломерации удаётся заниматься развитием общей инфраструктуры (всегда и везде найдутся упёртые дядьки), и как удалось провернуть ревитализацию Рура, став центром экологических компетенций в пост-угольную эру. Но обо всём по порядку.
Читать дальше →
Всего голосов 80: ↑77 и ↓3+74
Комментарии16

Металлургам от учёных «Северстали»: отраслевой высокотехнологичный поисково-аналитический сервис по патентам и статьям

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.1K

Привет, Хабр! Меня зовут Маевский Антон, я руководитель одного из внутренних стартапов «Северстали» — Научный след. Это поисково-аналитическая платформа по патентам, статьям и новостному потоку. Разработка интересна своей беспрецедентностью, потому что в отечественной металлургии такой научной информационной системы ещё не было. О ней я и расскажу.  

Читать далее
Всего голосов 3: ↑2 и ↓1+1
Комментарии0

Смарт-контракты и возможность их применения

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров3.9K

Привет, Хабр! На связи участник профессионального сообщества NTA Незнанов Дмитрий.

Блокчейн все больше интегрируется в системы хранения и контроля документов. Преимущество этой технологии заключается в отсутствии практической возможности манипуляции данными, записанными в систему, благодаря тому, что информацию в базу данных можно только добавлять, но не перезаписывать. В то же время, истинность документа легко прослеживается, так как каждый видит, кем он был записан в блокчейн.

Читать далее
Всего голосов 10: ↑6 и ↓4+2
Комментарии6

Как будет регулироваться искусственный интеллект в 2024 году?

Время на прочтение8 мин
Количество просмотров1.7K


В наступившем году вступят в силу первые масштабные законы об искусственном интеллекте, а также будут предприняты глобальные усилия по привлечению технологических компаний к ответственности.
Читать дальше →
Всего голосов 13: ↑11 и ↓2+9
Комментарии1

Прокачиваем навыки в сфере ML — что изучать в 2024-м

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров15K

Бизнесу нужны технологии, способные обрабатывать огромные объемы данных, предоставлять релевантные рекомендации, оценивать финансовую надежность клиентов и обеспечивать эффективный поиск информации. Ключевым элементом для автоматизации рутинных задач и создании бизнес-решений на основе данных становится ML.

Ритейл, банки, технологические предприятия, компании-разработчики и все те, кто собирает большие массивы неструктурированных данных, для запуска сложных моделей могут использовать вычислительные ресурсы облака. Например, строить нейросети с помощью ML-платформы или использовать объектное хранилище для обработки Big Data.

Но чтобы грамотно использовать инструменты для работы с AI- и ML-задачами, нужно приобрести необходимо знания и навыки. Поможет разобраться в машинном обучении и инструментах для работы с ML-моделями подборка новых и высокооцененных специализированных курсов, книг и других тематических материалов.

Читать далее
Всего голосов 23: ↑20 и ↓3+17
Комментарии0

Исследуем Скрытые Сокровища: Малоизвестные Библиотеки Python для Аналитики Данных

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров8.1K

Введение: Привет, Хабр! Сегодня мы исследуем мир менее известных, но чрезвычайно полезных библиотек Python, которые могут значительно обогатить ваш аналитический инструментарий.

🚀 Подписывайтесь на мой телеграмм-канал DataTechCommunity для получения ежедневных обновлений о Python и аналитике данных!

Содержание:

Рассматриваем 5 малоизвестных, но полезных библиотек для аналитиков данных. Они помогут вам в машинном обучении, обработке больших данных и визуализации.

Читать далее
Всего голосов 10: ↑8 и ↓2+6
Комментарии2

Простое внедрение аннотаций статистической значимости

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.9K

Привет, Хабр!

Сегодня с вами участница профессионального сообщества NTA Яруллина Ляйсян.

В современном мире визуализация данных используется повсеместно. Она позволяет в сжатые сроки предоставить изображение или видео, описывающее колоссальное количество информации, что делает визуализацию незаменимой в анализе данных.

Но не менее важной в указанном вопросе является статистика. Она позволяет провести качественную обработку данных и сделать выводы на ее основе — без статистической базы графическое представление данных не несет особой ценности. И в наше время океана неподтвержденной информации это куда более серьезная проблема, чем могло бы показаться изначально. Поэтому важно уметь быстро внедрять аннотации статистической значимости в полученную визуализацию и уметь ее расшифровывать.

В последние годы создаются специальные статистические пакеты, которые позволяют реализовать вышеизложенное в жизнь быстро и просто. Например, специально для библиотеки Seaborn, используемой для построения статистических графиков, был создан пакет Statannotations. Он позволяет проводить дополнительные вычисления статистических тестов и добавлять их результаты в виде аннотаций к графикам. Рассмотрю его подробнее и для примера загляну в глубины мозга.

Узнать больше
Всего голосов 6: ↑6 и ↓0+6
Комментарии6

Социальный проект: визуализация данных медицинской статистики

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров5K

Хабровчане, приветствую! Меня зовут Андрей Иванов, я системный аналитик в сфере медицины и здравоохранения. До 2005 года работал практикующим врачом, потом руководил медицинским информационно-аналитическим центром. Спустя время возникла настоятельная потребность получить базовое IT-образование и научиться тому, чем прежде приходилось руководить, — так я начал обучение на курсе «Системный аналитик»

Позже я принял участие в Мастерской Практикума, где смог реализовать давнюю идею — сделать удобочитаемыми материалы медицинской статистики. Выбор пал на отчёт главного онколога Министерства здравоохранения России. Он выходит ежегодно и выглядит как огромный сборник таблиц формата А4. Ни один даже самый крутой мегамозг, просматривая эти гектары цифр, не в состоянии понять, «что такое хорошо и что такое плохо в онкологической службе».

Решить эту проблему и взялась команда аналитиков данных. Сразу же оговорюсь, мы не пытаемся анализировать данные онкологической статистики. Мы разрабатываем целевой инструмент, который хотим передать в руки медицинского (онкологического) сообщества — там уже смогут с полным правом делать профессиональные выводы «о добре и зле» и конечно же, ответить на извечный вопрос «что делать?».

Читать далее
Всего голосов 13: ↑12 и ↓1+11
Комментарии9

Тренды облачных технологий в мире и России. Меню на 2024 год

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.4K

В декабре мы активно поглощали мандарины и ежегодные прогнозы по облакам. В какой-то момент и того, и другого оказалось слишком много. 

На сегодня мандарины наконец-то закончились, а вот аналитических отчетов стало больше. Мы собрали их, изучили и выделили общие мировые тренды на 2024 год. А на десерт прошлись по российским прогнозам. В этой статье оставили только самое интересное на наш вкус, конечно.

Читать далее
Всего голосов 9: ↑5 и ↓4+1
Комментарии2

Когда старый софт лучше нового

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров72K

У каждого из нас наверняка есть подборка старого проверенного софта, который много лет работает без сбоев. В такой ситуации возникает вопрос: а зачем его обновлять?

Практика показывает, что новые версии утилит часто изменяются к худшему, раздуваются, обрастают ненужными функциями, начинают тормозить или вовсе перестают запускаться. Ухудшение программного продукта со временем — известный процесс, для которого есть специальный термин: дерьмофикация (enshittification, слово придумал Кори Доктороу). Она происходит не только с десктопным или мобильным софтом, но и с платформами. Все мы за последние годы наблюдали дерьмофикацию Google, Reddit, Amazon, Twitter и Facebook (два последних вообще признаны экстремистами и запрещены в РФ). Аналогично с десктопным софтом и мобильными приложениями.

В то же время старый софт многолетней давности фантастически быстро работает. Программы в несколько мегабайт, которые запускаются мгновенно, потребляют минимум памяти и просто летают. По сути, ресурсы современных CPU для них избыточны. Пользоваться такими инструментами одно удовольствие. Такое чувство, что работаешь на суперкомпьютере, а не обычном ПК.
Читать дальше →
Всего голосов 231: ↑190 и ↓41+149
Комментарии508

Создание витрины данных для телеком-оператора средствами Apache Airflow

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров6.6K

Сегодня с вами участница профессионального сообщества NTA Курляндская Владислава.

В современном мире витрины данных становятся неотъемлемой частью любого бизнеса, так как позволяют прогнозировать будущие изменения. В данном посте я рассмотрю процесс создания витрины данных для телеком‑оператора с использованием Apache Airflow.

Читать далее
Всего голосов 6: ↑4 и ↓2+2
Комментарии13

В поисках аномалии: одноклассовая классификация текстов с помощью расхождения Кульбака—Лейблера

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.2K

Привет, Хабр! На связи участница профессионального сообщества NTA Корсакова Елена.

Поиск аномалий в корпусе текстов является нетривиальной задачей, особенно если размечен набор данных только с аномальными текстами. При этом различия могут не бросаются в глаза — все тексты написаны на одном языке, да и стиль текстов схож: например, заявки, ошибочно попавшие не в ту очередь, нетипичные события в логах или письма от мошенников. В посте расскажу о решении данной задачи — одноклассовой классификация текстов, с помощью расхождения Кульбака—Лейблера.

Читать далее
Всего голосов 25: ↑25 и ↓0+25
Комментарии10

Covenantus detectus или ещё одна DS-задача

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров755

Привет, Хабр!

Сегодня с вами участник профессионального сообщества NTA Серебренников Дмитрий.

И по дружбе, и по IT‑службе регулярно сталкиваюсь с задачами Data Science. Решением одной из них планирую сегодня поделиться. Поработаю с кредитной документацией, выжму из неё необходимое для аудиторской проверки. Из инструментов применю ловкость рук, python, pathlib, regex, pandas и Abbyy Finereader.

Итак, задача состояла в получении необходимых сущностей (ковенантов) из разных по формату и содержанию документов.

Пост предназначен прежде всего для столкнувшихся с такой задачкой и тех, кто недавно взял курс в науку о данных. Кстати, о данных — все совпадения случайны, исследуемые материалы вымышлены.

Covenantus detectus
Всего голосов 1: ↑1 и ↓0+1
Комментарии2

OSINT-инструменты в помощь: проверяем учетные данные

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров6.6K

В этой статье поговорим о том, как проверить, не скомпрометированы ли ваши учетки и не пора ли их обновить. А еще обсудим, как искать аккаунты пользователей по данным для доступа к популярным сайтам. Делать все это мы будем с помощью OSINT-инструментов. 

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Nota, Typst и Evidence. Языки программирования для генерации документов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров8K


Все настолько привыкли к Markdown, что считают его неким стандартом для оформления документов в вебе. Но это не конечная истина, высеченная на камне, а просто популярный язык разметки, как HTML и TeX.

В то же время появляется всё больше новых языков, которые позиционируют себя как замену, альтернативу или дополнение к Markdown и TeX. В некоторых случаях они включают функции программирования, то есть позволяют добавить в документ исполняемый код. Веб-редакторы нового поколения можно использовать даже вместо Google Docs.
Читать дальше →
Всего голосов 52: ↑52 и ↓0+52
Комментарии4

Все тренды на 2024 год в одной папке. Более 150 отчетов и прогнозов

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров8.3K

Группа маркетологов и бренд-стратегов из Европы и Азии собрали открытый Google Диск, в котором содержится более 150 отчетов о трендах на 2024 год. Вот только часть того, что есть в папке: IPSOS, TRENDHUNTER, TIK-TOK, PWS, ADOBE и другие ТОПы из Fortune. Есть даже ежегодное исследование Бакарди о коктейльных трендах на 2024.

Это 100% мастрид для маркетологов, продактов, бренд-стратегов и всех, кто хочет быть в тренде.

Ссылка на диск с отчетами тут.

Я просмотрел большую часть папки, разбил на категории и перевел названия, чтобы было легче искать, что почитать. Вот тут те, что успел кратко посмотреть:

Смотреть все
Всего голосов 7: ↑5 и ↓2+3
Комментарии0

Я знаю, что ты делал этой ночью

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров16K

Привет, Хабр!

Сегодня с вами участники профессионального сообщества NTA Промкин Михаил, Мымрин Дмитрий и Господарикова Ирина.

Одной из областей применения ИИ сегодня является автоматизация контроля за сотрудниками. В данном посте мы рассмотрим приложение технологий ML к задаче детектирования спящих людей (в частности, охранников на рабочем месте) по видеозаписям камер наблюдения.

Обсудим технические аспекты этого процесса, а также потенциальные преимущества и перспективы, которые предоставляет применение искусственного интеллекта в обеспечении безопасности на рабочем месте.

Узнать больше
Всего голосов 11: ↑7 и ↓4+3
Комментарии15

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Зарегистрирован
Активность