Открыть список
Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Как пользоваться краудсорсингом? Практический туториал от Яндекса

Блог компании ЯндексМашинное обучениеУчебный процесс в ITКраудсорсинг
Мы опубликовали первый русскоязычный туториал по краудсорсингу:


Это серия видео о том, как с помощью передачи простых заданий большому числу исполнителей собрать и разметить данные. Исполнителям можно поручить разные задания: найти что угодно в интернете, оценить дизайн, проверить или создать контент, поучаствовать в опросе, добраться до точки на карте и сфотографировать там что-нибудь. Тысячи людей будут одновременно выполнять перечисленные действия, формируя необходимый набор данных. Выпуск туториала — повод вновь поговорить о том, как краудсорсинг радикально меняет процессы в компаниях.
Читать дальше →
Всего голосов 16: ↑16 и ↓0 +16
Просмотры4.7K
Комментарии 2

Audi открыла датасет для обучения беспилотных автомобилей

Транспорт
Беспилотное подразделение Audi опубликовало в открытом доступе датасет Autonomous Driving Dataset (A2D2) для обучения беспилотных автомобилей размером 2.3TB.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Просмотры963
Комментарии 0

NVIDIA представила технологию создания 3D-моделей на основе фотографий

Работа с 3D-графикойМашинное обучениеИскусственный интеллект
image

Компания NVIDIA показала приложение GANverse3D, которое с помощью машинного обучения создаёт 3D-модель из одной фотографии. Разработчики компании продемонстрировали подробности, создав модель машины «КИТТ» из телесериала 80-х «Рыцарь дорог».
Читать дальше →
Всего голосов 15: ↑15 и ↓0 +15
Просмотры2.9K
Комментарии 2

О чем говорят женщины? (Text mining of beauty blogs)

Блог компании ГК ЛАНИТData MiningBig DataВизуализация данных
В руках нашей команды из CleverDATA оказался уникальный материал – около 100 тыс. страниц англоязычных блогов, посвященных бьюти-сфере. Этот корпус к нам попал благодаря желанию одной косметической корпорации узнать законы, по которым «работает» блогосфера. Компания хотела эффективнее взаимодействовать с бьюти-блогерами – получать больший рекламный эффект, отдавая свои продукты в добрые руки лояльных авторов.
 

Источник
 
Читать дальше →
Всего голосов 64: ↑56 и ↓8 +48
Просмотры32.1K
Комментарии 41

Датасет: ассоциации к словам и выражениям русского языка

Открытые данные
В последнее время для оценки семантического сходства широкое распространение получили методы дистрибутивной семантики. Эти подходы хорошо показали себя в ряде практических задач, но они имеют ряд жёстких ограничений. Так, например, языковые контексты оказываются сильно схожими для эмоционально полярных слов. Следовательно, антонимы с точки зрения word2vec часто оказываются близкими словами. Также word2vec принципиально симметричен, ведь за основу берётся совстречаемость слов в тексте, а популярная мера сходства между векторами — косинусное расстояние — также не зависит от порядка операндов.

Мы хотим поделиться с сообществом собранной нами базой ассоциаций к словам и выражениям русского языка. Этот набор данных лишён недостатков методов дистрибутивной семантики. Ассоциации хорошо сохраняют эмоциональную полярность и они по своей природе асимметричны. Подробнее расскажем в статье.
Читать дальше →
Всего голосов 28: ↑28 и ↓0 +28
Просмотры9.9K
Комментарии 14

MentorHack: тиндер для поиска ментора, AI Boss и немного HRTech

Блог компании Проектная школа программирования GoToПрограммированиеХакатоныМашинное обучениеУправление проектами


С 13 по 15 февраля в Москве пройдет MentorHack – хакатон по созданию сервисов для наставничества в корпоративной среде, предпринимательстве и образовании. Приглашаем всех с опытом в разработке, машинном обучении, product-менеджменте или HR и желанием получить призы и интересные данные от партнеров.
Общий призовой фонд – 1 300 000 рублей.

Под катом – подробности участия и примеры идей для проектов: от запускающихся сервисов по подбору ментора Facebook и LinkedIn до концепций AI Boss.
Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Просмотры7K
Комментарии 0

Создатель игры while True: learn() о программировании в геймдеве, проблемах с VR и симуляции ML

Разработка игрМашинное обучениеДизайн игрAR и VRИнтервью


Несколько лет назад мне казалось, что Олег Чумаков (тогда еще из Nival) был самым известным программистом геймдева. Постоянно выступал, проводил Gamesjam, был частым гостем подкаста Как делают игры.

С появлением на рынке VR, Олег возглавил в компании новое подразделение — NivalVR. Но вы все знаете, с виртуальной реальностью что-то пошло не так, как хотелось.

Я на долгое время отвлекся от геймдева, а взглянув снова, увидел — у команды Олега дела стали только интереснее. Теперь она называется Luden.io и их симулятор специалиста по машинному обучению while True: learn() стал хитом в своей нише, вокруг него творится куча крутых историй.

Мы поговорили с Олегом, но я не смог выбрать только одну тему — слишком уж насыщен и разнообразен был его путь. А чтобы программист говорил о программировании не боясь быть непонятым, беседу поддержал мой друг, коллега и опытный разработчик fillpackart.
Читать дальше →
Всего голосов 87: ↑84 и ↓3 +81
Просмотры40.4K
Комментарии 40

Премия имени Ильи Сегаловича. Рассказ о компьютерных науках и публикациях по случаю запуска

Блог компании ЯндексМашинное обучениеИсследования и прогнозы в ITУчебный процесс в ITКонференции


Сегодня мы запускаем научную премию имени Ильи Сегаловича iseg. Она будет присуждаться за достижения в области компьютерных наук. Студенты и аспиранты могут подать собственную заявку на премию или выдвинуть научных руководителей. Лауреатов выберут представители академического сообщества и Яндекса. Главные критерии отбора: наличие публикаций и выступлений на конференциях, а также вклад в развитие сообщества.

Первое награждение состоится уже в апреле. В рамках премии молодые учёные получат по 350 тысяч рублей, а кроме того, смогут поехать на международную конференцию, поработать с ментором и пройти стажировку в отделе исследований Яндекса. Научные руководители получат по 700 тысяч рублей.

По случаю запуска премии мы решили рассказать здесь, на Хабре, о критериях успеха в мире компьютерных наук. Часть читателей Хабра уже знакомы с этими критериями, а у остальных могло сложиться о них ложное впечатление. Сегодня мы устраним этот разрыв — коснёмся всех основных тем, включая статьи, конференции, датасеты и перенос научных идей в сервисы.

Читать дальше →
Всего голосов 31: ↑31 и ↓0 +31
Просмотры5K
Комментарии 0

52 датасета для тренировочных проектов

Блог компании EdisonPythonПрограммированиеМашинное обучениеУчебный процесс в IT
Перевод
  1. Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning)
  2. Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.
  3. MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.
  4. The Boston Housing Dataset — популярный датасет для распознавания паттернов. Содержит информацию о домах в Бостоне: количество квартир, стоимость аренды, индекс преступлений.
  5. Fake News Detection Dataset — содержит 7796 записей с разметкой новостей: правда или ложь. (Вариант применения с исходником на Python: Fake News Detection Python Project )
  6. Wine quality dataset — содержит информацию о вине: 4898 записей с 14 параметрами.

Читать дальше →
Всего голосов 30: ↑30 и ↓0 +30
Просмотры21.9K
Комментарии 8

Новогодний датасет 2019: открытый тональный словарь русского языка

Открытые данные
Обычно в преддверии Нового года мы обновляем наш датасет по Открытой семантике. В этом году было сделано много работы, но она не подошла к логическому завершению и мы продолжим её в следующем году. Сейчас же мы хотим рассказать о не менее важном открытом датасете, вызвавшим живой интерес на ряде лингвистических конференций этого года, как по стороны исследователей, так и со стороны представителей индустрии. Речь в посте пойдёт об открытом тональном словаре русского языка.


Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры3K
Комментарии 2

На чем тестировать алгоритмы распознавания и обработки документов, удостоверяющих личность?

Блог компании Smart EnginesАлгоритмыОбработка изображенийМашинное обучениеИскусственный интеллект

Как известно, мы в Smart Engines занимаемся системами компьютерного зрения и распознавания документов, а также научными исследованиями в этой области. В течение нескольких лет в фокусе нашего внимания находились системы распознавания документов, удостоверяющих личность. Одной из критичных проблем, возникающих при подготовке научных статей, является отсутствие открытых датасетов, на которых можно демонстрировать сообществу разработанные нами алгоритмы и подходы. В связи с этим два года назад мы начали работу над серией открытых пакетов изображений и видеоклипов ID-документов, предназначенных, главным образом, для исследователей, и о результатах этой работы хотели бы рассказать вам под катом.


Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры3.1K
Комментарии 6