Kamil_Safin Aug 20 2019 at 13:58

Трип на Аляску, или KDD'19 глазами очевидца

6 min

«Антиплагиат» corporate blogData Mining*Big Data*Machine learning*

Не секрет, что ученые очень любят исследовать мир. Поэтому крупные конференции всегда проходят в исторических и культурных столицах мира. Эти города удобны для посещения людям со всего мира и интересны с туристической точки зрения. Но иногда желание исследовать новое и неизведанное берет верх, и городом проведения конференции становится, например, Анкоридж на Аляске. Тоже о нем не слышали до этого? А в этом году там проходила одна из крупнейших конференций KDD'19.

Мы в компании Антиплагиат не могли пропустить такое событие и отправились навстречу приключениям на другой конец земного шара. Что было на KDD 2019 — читайте в нашем обзоре!

Началось мое путешествие с 12-часового перелета в Лос-Анджелес, где в аэропорту меня уже встречала местная подруга моей подруги. Изначально я планировал погулять по городу самостоятельно, но аргумент “без машины в LA ты ничего не посмотришь, да и по пробкам тебя обратно в аэропорт никто не повезет” прозвучал довольно убедительно. Что ж, без машины в городе ангелов действительно никуда не попадешь — общественного транспорта здесь практически нет, а тот, что есть, находится в довольно непотребном состоянии. Сам LA посмотрел как по списку: огромные пробки, пляж длиной во весь город, голливудские холмы, район Беверли-Хиллз, обед в классическом американском фастфуде и закат на пляже. Но все интересное имеет свойство заканчиваться, и меня ждал очередной перелет.

Поскольку летел я из другого полушария, организм ничего не соображал, поэтому ночной 5-часовой перелет на Аляску прошел для меня незаметно. Чтобы хоть как-то прийти в себя, отправился спать целых 4 часа, впрочем, как всегда.

Смена часовых поясов впоследствии давала о себе знать: все время хотелось спать. Чтобы окончательно не свалиться, я отправился на регистрацию. Тем более, что прогулка от хостела до места проведения конференции позволила немного взбодриться.

Устройство конференции не отличалось чем-то необычным: несколько сессий, раскиданных по разным комнатам, где происходят презентации и обсуждения новых подходов по машинному обучению и крутых решений и реализаций. Один нюанс: в случае KDD’19 вся конференция занимала два огромных конференц-здания по несколько этажей с кучей аудиторий на каждом из них. Как это всегда бывает, некоторые презентации вызывали такой интерес, что в аудиторию даже нельзя было попасть сквозь толпу народа. Словом, каждый участник конференции мог найти что-то интересное конкретно для себя. KDD всегда предлагает много разных форматов подачи информации, поэтому выбирать было из чего. Это и доклады от известных ученых, которые вещают на большие «потоковые» аудитории, и презентации от новичков в науке в небольших «семинарских» комнатах. Для тех, кому хочется не только слушать, но и практиковаться, есть «hands-on tutorials», на которых представители разных областей проводят практические занятия. Например, довольно популярным был туториал от Amazon о том, как пользоваться их сервисом облачных вычислений. Впрочем, первый день был довольно лайтовый: он был отведен для регистрации, серьезных презентаций тут не было, только приветственные слова и обзорные лекции. Поэтому я пошел в свою комнату, готовиться к предстоящим выступлениям.

Где наша не пропадала

Б — безопасность, но на что не пойдешь ради науки. Да и вообще, не зря же физтех заканчивал.

Второй день был полностью посвящен воркшопам. Говоря простыми словами, воркшоп — это собрание, где участники обмениваются опытом решения задач в определенной сфере. Поскольку наш отдел в компании Антиплагиат занимается системой поиска кросс-языковых заимствований, наша работа, которую я представлял на конференции, подходила сразу под темы двух воркшопов: Deep Learning for Education и Truth Discovery and Fact Checking. Перед своими докладами я успел посмотреть несколько интересных презентаций. Стоит отметить рассказ Руслана Салахутдинова о модели XLNet. Конечно, об этой модели писали и до KDD, но послушать непосредственно от одного из авторов было гораздо интереснее. Часть доклада была посвящена новому тренду в машинном обучении: вместо обучения тяжеловесных моделей использовать предобученные модели и просто настраивать их под свои нужды. Это и понятно: у большинства компаний, так или иначе использующих сложные архитектуры в своей деятельности, не хватает вычислительных мощностей для обучения с нуля. А дообучать готовые модели под свои задачи гораздо проще и быстрее. К тому же качество работы таких моделей гораздо выше, чем у упрощенных аналогов.

Все оставшееся после ланча время ушло на поиски своих аудиторий, общение с руководителями воркшопов и прочие организационные мелочи. Первый мой доклад был на воркошопе Deep Learning for Education. Он был сразу после кофе-брейка, так что аудитория была пустовата. Я рассказал в общих чертах о том, как устроена модель поиска кросс-языковых заимствований и некоторые подробности реализации. В конце доклада спросили, работает ли уже данная система на практике и удивились, получив утвердительный ответ. На следующем воркшопе, Truth Discovery and Fact Checking, уже была полная аудитория. После выступления было несколько вопросов. Например, один из слушателей поинтересовался, есть ли конкретные примеры таких заимствований. Мой ответ, что это, к сожалению, довольно популярная практика среди студентов высших заведений России и стран СНГ, повергло его в небольшое недоразумение. В целом, доклад был воспринят с интересом, аудитория явно была заинтересована в использовании проектов по кросс-лангу для решения практических задач в области образования.

Спектр тем даже внутри одного воркшопа очень широк. Например, передо мной выступал студент из Калифорнийского университета в Беркли, который рассказывал о системе, помогающей студентам США с выбором альтернативных курсов. Учитывая весь курс предметов, пройденных конкретным студентом, система предлагает ему новые курсы, которые вероятнее всего будут интересны этому студенту. В качестве данных для обучения была взята база данных студентов Калифорнийского университета за последние 10 лет. А это информация о почти 165 тысячах студентов за время обучения! Еще один доклад был посвящен системе автоматического распределения стипендий среди студентов. В высших учебных заведениях США вопрос назначения стипендий зачастую гораздо сложнее, чем в России, и требует анализа большого количества информации о студенте. Как следствие, решение стипендиальной комиссии выносится очень долго. Очень удобно было бы иметь систему, которая анализировала и распределяла стипендии. Побродив остаток времени по остальным воркшопам, я с чувством выполненного долга пошел домой.

Со следующего дня начиналась основная конференция. Параллельно с ней была устроена сессия, на которой компании спонсоры в режиме общения рассказывали о своих последних наработках. Довольно интересно было походить, посмотреть на Titan RTX от Nvidia вживую, послушать о наработках Facebook Research в области распознавания изображений, да и узнать о многих других гигантах промышленности, о некоторых из которых раньше даже не слышал.

Четвертый день тоже состоял преимущественно из докладов. Один, например, был посвящен проблеме интерпретируемости моделей машинного обучения. Точнее, ее отсутствии во многих случаях. Современные модели довольно с высокой точностью решают задачи в разных областях знаний, как говорится, «out-of-the-box». Однако во многих случаях необходимо понимать, почему модель приняла то или иное решение. В этих случаях и важна интерпретируемость. Довольно популярным методом является локальная аппроксимация моделей, которая позволяет рассмотреть поведение модели на конкретном примере и с определенной долей точности понять, что повлияло на решение. Презентация как раз была посвящена подобным методам и их усовершенствованиям.

На задворках земного шара

Гор здесь нет только там, где есть залив. Так что просто так из этого города не сбежишь.

В конце дня всех ждал банкет, посвященный 25-летию KDD. В очередной раз убедился, что это масштабная конференция, но проводить банкет для всех участников разом в одном помещении было, конечно, спорным решением.

Следующий день был завершающим, и это чувствовалось: количество слушателей сильно убавилось (возможно, этому поспособствовал бар на банкете, но это не точно). Да и доклады были в большинстве обзорными. Многие лекции освещали текущие проблемы и задачи, которые необходимо решать. Обработка данных, растущих с неимоверной скоростью, кибербезопасность, медицинские задачи — одним словом, конференция хоть и является узкоспециализированной, про спектр рассматриваемых тем такого сказать точно нельзя. Но, опять-таки, все интересное рано или поздно заканчивается, и мне пришла пора отправляться домой.

Перед отъездом я решил немного передохнуть и осмотреть окрестности. Еще при поездке из аэропорта Анкориджа дружелюбная таксистка порекомендовала взобраться на гору Flattop — местную достопримечательность с «фантастическим видом». Судя по количеству народу, которое встречалось по пути на вершину, это действительно локальная легенда, хотя я бы не сказал, что подъем довольно простой — по пути надо преодолеть крутую скалу с кучей осыпающихся камней. Но затраченные усилия стоили того — вид с вершины действительно захватывает!

Обратный путь не отличался чем-то особенным. Прогулок по Лос-Анджелесу больше не предвиделось, поэтому часть пересадочного времени я провел, валяясь на пустом калифорнийском пляже (в 8 то утра туда никто не пойдет). Долгий предполетный досмотр, еще 12 часов в воздухе, и я наконец в дождливой и холодной Москве. В целом, конференция оставила только положительные впечатления. Собрать в одном месте людей разных интересов, национальностей, взглядов действительно стоит огромных сил. А это еще и делается так, что всем есть что послушать или рассказать, причем все происходит в располагающей для этого атмосфере. Думаю, это стоило того, чтобы лететь почти на противоположную часть планеты.

Tags:

Hubs:

Трип на Аляску, или KDD'19 глазами очевидца

Articles

Information