Pull to refresh
  • by relevance
  • by date
  • by rating

Как пользоваться краудсорсингом? Практический туториал от Яндекса

Яндекс corporate blogMachine learningStudying in ITCrowdsourcing
Мы опубликовали первый русскоязычный туториал по краудсорсингу:


Это серия видео о том, как с помощью передачи простых заданий большому числу исполнителей собрать и разметить данные. Исполнителям можно поручить разные задания: найти что угодно в интернете, оценить дизайн, проверить или создать контент, поучаствовать в опросе, добраться до точки на карте и сфотографировать там что-нибудь. Тысячи людей будут одновременно выполнять перечисленные действия, формируя необходимый набор данных. Выпуск туториала — повод вновь поговорить о том, как краудсорсинг радикально меняет процессы в компаниях.
Читать дальше →
Total votes 16: ↑16 and ↓0 +16
Views4.7K
Comments 2

NVIDIA представила технологию создания 3D-моделей на основе фотографий

Working with 3D-graphicsMachine learningArtificial Intelligence
image

Компания NVIDIA показала приложение GANverse3D, которое с помощью машинного обучения создаёт 3D-модель из одной фотографии. Разработчики компании продемонстрировали подробности, создав модель машины «КИТТ» из телесериала 80-х «Рыцарь дорог».
Читать дальше →
Total votes 15: ↑15 and ↓0 +15
Views2.9K
Comments 2

О чем говорят женщины? (Text mining of beauty blogs)

ГК ЛАНИТ corporate blogData MiningBig DataData visualization
В руках нашей команды из CleverDATA оказался уникальный материал – около 100 тыс. страниц англоязычных блогов, посвященных бьюти-сфере. Этот корпус к нам попал благодаря желанию одной косметической корпорации узнать законы, по которым «работает» блогосфера. Компания хотела эффективнее взаимодействовать с бьюти-блогерами – получать больший рекламный эффект, отдавая свои продукты в добрые руки лояльных авторов.
 

Источник
 
Читать дальше →
Total votes 64: ↑56 and ↓8 +48
Views32.1K
Comments 41

Датасет: ассоциации к словам и выражениям русского языка

Open data
В последнее время для оценки семантического сходства широкое распространение получили методы дистрибутивной семантики. Эти подходы хорошо показали себя в ряде практических задач, но они имеют ряд жёстких ограничений. Так, например, языковые контексты оказываются сильно схожими для эмоционально полярных слов. Следовательно, антонимы с точки зрения word2vec часто оказываются близкими словами. Также word2vec принципиально симметричен, ведь за основу берётся совстречаемость слов в тексте, а популярная мера сходства между векторами — косинусное расстояние — также не зависит от порядка операндов.

Мы хотим поделиться с сообществом собранной нами базой ассоциаций к словам и выражениям русского языка. Этот набор данных лишён недостатков методов дистрибутивной семантики. Ассоциации хорошо сохраняют эмоциональную полярность и они по своей природе асимметричны. Подробнее расскажем в статье.
Читать дальше →
Total votes 28: ↑28 and ↓0 +28
Views9.9K
Comments 14

MentorHack: тиндер для поиска ментора, AI Boss и немного HRTech

Проектная школа программирования GoTo corporate blogProgrammingHackathonMachine learningProject management


С 13 по 15 февраля в Москве пройдет MentorHack – хакатон по созданию сервисов для наставничества в корпоративной среде, предпринимательстве и образовании. Приглашаем всех с опытом в разработке, машинном обучении, product-менеджменте или HR и желанием получить призы и интересные данные от партнеров.
Общий призовой фонд – 1 300 000 рублей.

Под катом – подробности участия и примеры идей для проектов: от запускающихся сервисов по подбору ментора Facebook и LinkedIn до концепций AI Boss.
Читать дальше →
Total votes 14: ↑13 and ↓1 +12
Views7K
Comments 0

Создатель игры while True: learn() о программировании в геймдеве, проблемах с VR и симуляции ML

Game developmentMachine learningGame designAR and VRInterview


Несколько лет назад мне казалось, что Олег Чумаков (тогда еще из Nival) был самым известным программистом геймдева. Постоянно выступал, проводил Gamesjam, был частым гостем подкаста Как делают игры.

С появлением на рынке VR, Олег возглавил в компании новое подразделение — NivalVR. Но вы все знаете, с виртуальной реальностью что-то пошло не так, как хотелось.

Я на долгое время отвлекся от геймдева, а взглянув снова, увидел — у команды Олега дела стали только интереснее. Теперь она называется Luden.io и их симулятор специалиста по машинному обучению while True: learn() стал хитом в своей нише, вокруг него творится куча крутых историй.

Мы поговорили с Олегом, но я не смог выбрать только одну тему — слишком уж насыщен и разнообразен был его путь. А чтобы программист говорил о программировании не боясь быть непонятым, беседу поддержал мой друг, коллега и опытный разработчик fillpackart.
Читать дальше →
Total votes 87: ↑84 and ↓3 +81
Views40.3K
Comments 40

Премия имени Ильи Сегаловича. Рассказ о компьютерных науках и публикациях по случаю запуска

Яндекс corporate blogMachine learningResearch and forecasts in ITStudying in ITConferences


Сегодня мы запускаем научную премию имени Ильи Сегаловича iseg. Она будет присуждаться за достижения в области компьютерных наук. Студенты и аспиранты могут подать собственную заявку на премию или выдвинуть научных руководителей. Лауреатов выберут представители академического сообщества и Яндекса. Главные критерии отбора: наличие публикаций и выступлений на конференциях, а также вклад в развитие сообщества.

Первое награждение состоится уже в апреле. В рамках премии молодые учёные получат по 350 тысяч рублей, а кроме того, смогут поехать на международную конференцию, поработать с ментором и пройти стажировку в отделе исследований Яндекса. Научные руководители получат по 700 тысяч рублей.

По случаю запуска премии мы решили рассказать здесь, на Хабре, о критериях успеха в мире компьютерных наук. Часть читателей Хабра уже знакомы с этими критериями, а у остальных могло сложиться о них ложное впечатление. Сегодня мы устраним этот разрыв — коснёмся всех основных тем, включая статьи, конференции, датасеты и перенос научных идей в сервисы.

Читать дальше →
Total votes 31: ↑31 and ↓0 +31
Views5K
Comments 0

52 датасета для тренировочных проектов

Edison corporate blogPythonProgrammingMachine learningStudying in IT
Translation
  1. Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning)
  2. Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.
  3. MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.
  4. The Boston Housing Dataset — популярный датасет для распознавания паттернов. Содержит информацию о домах в Бостоне: количество квартир, стоимость аренды, индекс преступлений.
  5. Fake News Detection Dataset — содержит 7796 записей с разметкой новостей: правда или ложь. (Вариант применения с исходником на Python: Fake News Detection Python Project )
  6. Wine quality dataset — содержит информацию о вине: 4898 записей с 14 параметрами.

Читать дальше →
Total votes 30: ↑30 and ↓0 +30
Views21.8K
Comments 8

Новогодний датасет 2019: открытый тональный словарь русского языка

Open data
Обычно в преддверии Нового года мы обновляем наш датасет по Открытой семантике. В этом году было сделано много работы, но она не подошла к логическому завершению и мы продолжим её в следующем году. Сейчас же мы хотим рассказать о не менее важном открытом датасете, вызвавшим живой интерес на ряде лингвистических конференций этого года, как по стороны исследователей, так и со стороны представителей индустрии. Речь в посте пойдёт об открытом тональном словаре русского языка.


Читать дальше →
Total votes 8: ↑8 and ↓0 +8
Views3K
Comments 2

На чем тестировать алгоритмы распознавания и обработки документов, удостоверяющих личность?

Smart Engines corporate blogAlgorithmsImage processingMachine learningArtificial Intelligence

Как известно, мы в Smart Engines занимаемся системами компьютерного зрения и распознавания документов, а также научными исследованиями в этой области. В течение нескольких лет в фокусе нашего внимания находились системы распознавания документов, удостоверяющих личность. Одной из критичных проблем, возникающих при подготовке научных статей, является отсутствие открытых датасетов, на которых можно демонстрировать сообществу разработанные нами алгоритмы и подходы. В связи с этим два года назад мы начали работу над серией открытых пакетов изображений и видеоклипов ID-документов, предназначенных, главным образом, для исследователей, и о результатах этой работы хотели бы рассказать вам под катом.


Читать дальше →
Total votes 8: ↑7 and ↓1 +6
Views3.1K
Comments 6