Информация

Дата основания
2004
Местоположение
США
Сайт
alconost.com
Численность
201–500 человек
Дата регистрации

Блог на Хабре

Обновить
82,71
Рейтинг
Alconost
Локализуем на 70 языков, делаем видеоролики для IT

Коллектив из бывших инженеров АНБ США и Amazon создает «GitHub для данных»

Блог компании AlconostBig DataGitHub


Около полугода назад у нескольких инженеров и разработчиков с опытом работы в Агентстве национальной безопасности США, Google и Amazon Web Services появилась любопытная идея.

Для создания новых функций и изобретения чего-то нового разработчикам и инженерам нужны данные. Но эти данные часто конфиденциальны и недоступны — из-за бюрократии и разного рода нормативных требований, — и чтобы получить одобрение на их использование, может понадобиться несколько недель. Поэтому недавно был запущен проект Gretel — стартап, цель которого — помочь разработчикам безопасно обмениваться конфиденциальными данными и совместно взаимодействовать с ними в режиме реального времени.

Алекс Уотсон, один из сооснователей проекта, говорит о предназначении новой платформы так: «Это не такая нишевая задача, как может показаться. Разработчики любой компании могут столкнуться с этой проблемой». Зачастую разработчикам нужен не полный доступ к банку пользовательских данных, а лишь фрагмент или выборка для работы. Во многих случаях достаточно будет данных, которые просто выглядят как реальные пользовательские данные.

«Для начала необходимо обеспечить безопасность обмена данными, — продолжает Уотсон. — Потому что есть множество классных вариантов использования данных другими людьми». Он рассказывает, что такие проекты, как широко используемая платформа для обмена исходным кодом GitHub, помогли сделать код доступным и упростили совместную работу с ним — однако с данными дело обстоит иначе: «Для данных эквивалента GitHub не существует».
Рассуждая таким образом, Алекс Уотсон, Джон Майерс, Али Гольшан и Ласло Бок придумали Gretel.

«Сейчас мы создаем ПО, которое даст разработчикам возможность автоматически получать анонимизированную версию набора данных», — рассказывает Уотсон. Эти так называемые «синтетические данные» по сути — искусственным образом сконструированные наборы данных, которые выглядят и ведут себя так же, как обычные конфиденциальные пользовательские данные. Платформа Gretel с помощью машинного обучения распределяет данные по категориям: имена, адреса и другие идентификаторы клиентов, — и назначает данным как можно больше меток. После соотнесения меток к данным можно применять политики доступа. Затем платформа проводит процедуру дифференциальной приватности (метод анонимизации очень больших объемов данных), что позволяет отвязать данные от информации о клиентах. В результате, как поясняет Уотсон, получается «полностью искусственный набор данных, сгенерированный машинным обучением».

Проект этого коллектива уже начинает привлекать внимание: стартап получил 3,5 млн долл. США в рамках начального финансирования — на запуск платформы. Основной вклад сделала компания Greylock Partners, среди других инвесторов — Moonshots Capital, Village Global и несколько бизнес-ангелов.
«Нам в компании Google приходилось создавать собственные инструменты, с помощью которых наши разработчики могли безопасно получать доступ к данным, потому что необходимых инструментов тогда не было», — говорит Шридхар Рамасвами, который ранее работал на руководящей должности в Google, а теперь является партнером в Greylock.
Планируется, что Gretel будет взимать плату с пользователей по мере пользования ресурсами — аналогично тому, как это делает Amazon в отношении своих сервисов облачных вычислений.

По словам Уотсона, сейчас команда полностью погружена в разработку, однако в ближайшие недели стартап планирует активизировать взаимодействие с разработчиками, с тем чтобы в следующие шесть месяцев выпустить Gretel в свет.

Новость переведена в Alconost, профессиональной студии по переводу и локализации
Теги:alconostGitHubdataалконостгитхабданные
Хабы: Блог компании Alconost Big Data GitHub
Рейтинг +9
Количество просмотров 5k Добавить в закладки 6
Комментарии
Комментировать

Похожие публикации

Лучшие публикации за сутки