Как стать автором
Обновить
4
Карма
0
Рейтинг
Ирина @iradche

Пользователь

  • Публикации
  • Комментарии

Deep Fake Science, кризис воспроизводимости и откуда берутся пустые репозитории

Open sourceBig DataМашинное обучениеНаучно-популярноеИскусственный интеллект
🔥 Технотекст 2020


Я мирно сидел на семинаре, слушал доклад студента о статье с прошлого CVPR и параллельно гуглил тему.

— К достоинствам статьи можно отнести наличие исходного кода….
Пришлось вмешаться:
— Наличие чего, простите?
— Э-э-э… Исходного кода…
— Вы его смотрели? 
— Нет, но в статье указано… 
(мать-мать-мать… привычно отозвалось эхо)
ㅡ Вы ходили по ссылке?

В статье, действительно, предельно обнадеживающе написано: “The code and model are publicly available on the project page …/github.io/...”, — однако в коммите двухлетней давности по ссылке значится вдохновляющее «Код и модель скоро выложим»‎:


Ищите и обрящете, стучите и откроется… Может быть… А может быть и нет. Я бы, исходя из печального опыта, ставил на второе, поскольку ситуация в последнее время повторяется ну уж о-о-очень часто. Даже на CVPR. И это только часть проблемы! Исходники могут быть доступны, но, к примеру, только модель, без скриптов обучения. А могут быть и скрипты обучения, но за несколько месяцев с письмами к авторам не получается получить такой же результат. Или за год на другом датасете с регулярными скайп-звонками автору в США не удается воспроизвести его результат, полученный в наиболее известной лаборатории в отрасли по этой теме… Трындец какой-то.

И, судя по всему, мы пока видим лишь цветочки. В ближайшее время ситуация кардинально ухудшится. 

Кому интересно, что стало со студентом куда катится научный мир, в том числе по «вине»‎ глубокого обучения, добро пожаловать под кат!
Читать дальше →
Всего голосов 226: ↑225 и ↓1 +224
Просмотры51.8K
Комментарии 244

Новости

Показать еще

Как дата-сайентист машину покупал

RUVDS.comPython
Перевод
После многих лет жизни и работы в Нидерландах мне с семьёй пришло время возвращаться в Штаты и менять велосипеды на автомобили.



В Америке очень сложно жить без машины, и, так как мы наши машины продали перед переездом, теперь нам надо было купить новое семейное средство передвижения. Я решил подойти к решению этой задачи так, как подошёл бы любой хороший специалист по обработке и анализу данных. Я решил воспользоваться данными.
Читать дальше →
Всего голосов 39: ↑37 и ↓2 +35
Просмотры30.4K
Комментарии 38

Байес

Математика
В левой руке Морфеуса лежит 7 синих и 3 красных таблетки, а в правой 5 синих и 8 красных. Вы закрываете глаза и берете таблетку — она оказывается красной, однако вы не знаете из какой руки ее взяли. Какова вероятность, что вы взяли ее из правой руки?


image

17 апреля 1761 — день смерти Томаса Байеса.
Под катом результаты того, что есть в рунете, помимо стандартных вещей типа Теорема Байеса, Байесовская сеть, Наивный байесовский классификатор , Байесовская фильтрация спама
Читать дальше →
Всего голосов 102: ↑94 и ↓8 +86
Просмотры93.4K
Комментарии 38

Введение в Байесовские методы

АлгоритмыМатематика
Из песочницы
Tutorial

В качестве введения


В настоящее время Байесовские методы получили достаточно широкое распространение и активно используются в самых различных областях знаний. Однако, к сожалению, не так много людей имеют представление о том, что же это такое и зачем это нужно. Одной из причин является отсутствие большого количества литературы на русском языке. Поэтому здесь попытаюсь изложить их принципы настолько просто, насколько смогу, начав с самых азов (прошу прощения, если кому-то это покажется слишком простым).
Подробности
Всего голосов 78: ↑70 и ↓8 +62
Просмотры151K
Комментарии 37

Схемы отбора в выборку

.ioАнализ и проектирование системМатематика
Tutorial
Схема отбора в выборку — это детальное описание того, какие данные и каким способом будут получены. Есть много схем для отбора в выборку, поэтому нужно выбрать для исследований такую, которая даст наиболее репрезентативные результаты. Репрезентативность выборки — это соответствие характеристик выборки характеристикам популяции.

В идеале лучше работать со всей генеральной совокупностью, но это занимает много времени и ресурсов. Поэтому можно исследовать только ее часть, что и называется выборкой. Затем исследуются элементы, которые попали в выборку. На основе полученных значений оцениваются неизвестные элементы выборки.

image
Читать дальше →
Всего голосов 14: ↑9 и ↓5 +4
Просмотры8K
Комментарии 1

Два мира виртуальных машин

IntelНенормальное программирование
Виртуальный. В отличие от большинства модных компьютерных словечек, это понятие обычно соответствует своему словарному определению в тех случаях, когда речь идёт об аппаратуре или программах. Словарь «Random House College Dictionary» определяет «virtual» как «проявляющий свойства и эффекты чего-либо, но не являющийся таковым на самом деле».
Оригинал
Virtual. Unlike most computer buzzwords, this one usually holds true to its dictionary definition when it refers to hardware or software. The Random House College Dictionary defines «virtual» as «being such in force or effect, though not actually or expressly such.» [4]
Последние несколько лет в начале каждого семестра я даю студентам определения основных терминов, используемых в моём курсе: симуляция, эмуляция и виртуализация. И каждый раз я говорю, чтобы мои слова не принимали за стопроцентную правду. Дело в том, что в одних областях технического знания эти термины зачастую трактуются противоположно тому, что принято использовать в других. Нелёгкое это дело — давать определения.

Видимо, эту проблему заметил не только я. В своей книге Software and System Development using Virtual Platforms, вышедшей в прошлом году, мои коллеги Jakob Engblom и Daniel Aarno в первой главе вводят понятия simulation и emulation и отмечают неоднозначность их толкования в областях разработки программного обеспечения и проектирования аппаратуры.

С беспорядком в толковании этих двух терминов я для себя разобрался и вроде бы смирился. Осталось ещё одно понятие, уже более десяти (на самом деле пятидесяти) лет не теряющее популярности — это «виртуализация». За время своего бытия в категории «buzzword» оно стало сочетаться со множеством других слов. Недавно я осознал, что термин «виртуальная машина» (ВМ) на самом деле используется для обозначения двух хоть и связанных, но различных сущностей. В этой статье я расскажу о двух классах: языковые и системные виртуальные машины. Я покажу сходства и различия между ними, их назначение, классификацию, общие и частные черты в их практической реализации.


Читать дальше →
Всего голосов 31: ↑30 и ↓1 +29
Просмотры31.7K
Комментарии 5

Apache Spark — достоинства, недостатки, пожелания

JavaApacheBig DataHadoop
Мне давно хотелось изложить свои впечатления об Apache Spark, и тут как раз попалась на глаза вот эта статья от сотрудника Pivotal Robert Bennett, опубликованная совсем недавно, 26 июня 2018.

Это не будет перевод, а скорее все-таки мои впечатления и комментарии на тему.
Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Просмотры15.4K
Комментарии 2

Специалист по разметке данных

New Professions LabОбработка изображенийBig DataМашинное обучениеКарьера в IT-индустрии
Сегодня замечательный день (if you know what I mean), чтобы анонсировать нашу новую программу — Специалист по разметке данных.

На текущий момент в сфере искусственного интеллекта сложилась такая ситуация, при которой для обучения сильной нейронной сети нужны несколько компонентов: железо, софт и, непосредственно, данные. Много данных.

Железо, в общем-то, доступно каждому через облака. Да, оно может быть недешевым, но GPU-инстансы на EC2 вполне по карману большинству исследователей. Софт опенсорсный, большинство фреймворков можно скачать себе куда-то и работать с ними. Некоторые сложнее, некоторые проще. Но порог для входа вполне приемлемый. Остается только последний компонент — это данные. И вот здесь и возникает загвоздка.

Deep learning требует действительно больших данных: сотни тысяч–миллионы объектов. Если вы хотите заниматься, например, задачей классификации изображений, то вам, помимо самих данных, нужно передать нейронке информацию, к какому классу относится тот или иной объект. Если у вас задача связана еще и с сегментацией изображения, то получение хорошего датасета — это уже фантастически сложно. Представьте, что вам нужно на каждом изображении выделить границы каждого объекта.


В этом посте хочется сделать обзор тех инструментов (коммерческих и бесплатных), которые пытаются облегчить жизнь этих прекрасных людей — разметчиков данных.
Читать дальше →
Всего голосов 22: ↑20 и ↓2 +18
Просмотры23.1K
Комментарии 4

«Паттерны» функционального программирования

Анализ и проектирование систем.NETПроектирование и рефакторингC#Функциональное программирование
Перевод
Tutorial

Многие люди представляют функциональное программирование как нечто очень сложное и «наукоемкое», а представителей ФП-сообщества – эстетствующими философами, живущими в башне из слоновой кости.

До недавнего времени такой взгляд на вещи действительно был недалек от истины: говорим ФП, подразумеваем Хаскель и теорию категорий. В последнее время ситуация изменилась и функциональная парадигма набирает обороты в web-разработке, не без помощи F#, Scala и React. Попробуем взглянуть на «паттерны» функционального программирования, полезные для решения повседневных задач с точки зрения ООП – парадигмы.

ООП широко распространено в разработке прикладного ПО не одно десятилетие. Все мы знакомы с SOLID и GOF. Что будет их функциональным эквивалентом?.. Функции! Функциональное программирование просто «другое» и предлагает другие решения.


Читать дальше →
Всего голосов 61: ↑56 и ↓5 +51
Просмотры59K
Комментарии 361

Библиотека стартапа: подборка из 65 книг

Фонд развития интернет-инициативУправление проектамиGTD
Перевод
Recovery mode


Мы перевели и адаптировали оригинальную подборку книг на тему стартапов. Уверены, что она пригодится как начинающим предпринимателям, так и тем, кто работает над своим очередным проектом.

Собираем подборку вместе. Будем рады добавить книги согласно вашим предложениям, которые было бы удобнее всего высказать в комментариях.
Читать дальше →
Всего голосов 27: ↑24 и ↓3 +21
Просмотры37.9K
Комментарии 14

Топ-10 data mining-алгоритмов простым языком

ITI CapitalData MiningАлгоритмы
Перевод


Примечание переводчика: Мы довольно часто пишем об алгоритмической торговле (вот, например, список литературы по этой теме и соответствующие аналитические материалы) и API для создания торговых роботов, сегодня же речь пойдет непосредственно об алгоритмах, которые можно использовать для анализа различных данных (в том числе на финансовом рынке). Материал является адаптированным переводом статьи американского раработчика и аналитика Рэя Ли.

Сегодня я постараюсь объяснить простыми словами принципы работы 10 самых эффективных data mining-алгоритмов, которые описаны в этом докладе.

Когда вы узнаете, что они собой представляют, как работают, что делают и где применяются, я надеюсь, что вы используете эту статью в качестве отправной точки для дальнейшего изучения принципов data mining.
Читать дальше →
Всего голосов 55: ↑49 и ↓6 +43
Просмотры119.3K
Комментарии 8

Сделай сам: SQL JOIN на Java

JavaSQLАлгоритмы
Tutorial
Я часто собеседую разработчиков и часто задаю им простой, как кувалда, вопрос — как внутри работает JOIN в SQL? В ответ я обычно слышу бессвязное мычание про волшебные деревья и индексы, которые быстрее. Когда-то мне казалось, что каждый программист специалист должен знать то, с чем работает. Впоследствии жизнь объяснила мне, что это не так. Но мне все еще не понятно, как можно годами теребить базёнку, даже не догадываясь, а что там у нее «под капотом»?

Давайте проведем ликбез и вместе посмотрим, как же работают эти джойны, и даже сами реализуем парочку алгоритмов.

SQL JOIN
Читать дальше →
Всего голосов 82: ↑58 и ↓24 +34
Просмотры75.8K
Комментарии 128

Защита переговоров. Антижучки и индикаторы поля

Neuron HackspaceИнформационная безопасность

Примеры найденных жучков (источник фото: Интернет)

Дело было еще во Владивостоке.
Знакомые, владельцы турфирмы, рассказали, что однажды уборщица их спросила: «А почему вечером, когда все уходят, у вас сверху, на шкафу что-то мигает?». Полезли на шкаф, а там — чуть ли не автомобильный аккумулятор и рация, прикрученная синей изолентой. Вот такой суровой бывала дальневосточная прослушка.

Я узнал, что компания detsys.ru проводит у себя бесплатное обучение по пользованию индикаторами поля и попросил у них на недельку три экземпляра антижучков и еще парочку имитаторов сигналов для проверки работоспособности поисковой техники, для того чтобы повозиться с ними в Хакспейсе.

Под катом немного исторических примеров прослушки и доступные способы самостоятельной проверки своих помещений.
(Если ваши далекие знакомые сталкивались с обнаружением и, не дай бог, с установкой жучков, поделитесь в комментах)
Читать дальше →
Всего голосов 59: ↑58 и ↓1 +57
Просмотры93.1K
Комментарии 35

Более чем 80 средств мониторинга системы Linux

ua-hosting.company
Ниже будет приведен список инструментов мониторинга. Есть как минимум 80 способов, с помощью которых ваша машинка будет под контролем.



1. первый инструмент — top

Консольная команда top- удобный системный монитор, простой в использовании, с помощью которой выводится список работающих в системе процессов, информации о этих процессах. Данная команда в реальном времени сортирует их по нагрузке на процессор, инструмент предустановлен во многих системах UNIX.
читать дальше
Всего голосов 94: ↑82 и ↓12 +70
Просмотры266.1K
Комментарии 68

Кем был Рамануджан?

Wolfram ResearchЗанимательные задачкиМатематикаПрофессиональная литература
Перевод

Перевод поста Stephen Wolfram "Who Was Ramanujan?".
Выражаю огромную благодарность Полине Сологуб за помощь в переводе и подготовке публикации

Содержание


Удивительное письмо
Начало истории
Кем был Харди?
Письмо и его последствия
Стиль работы Рамануджана
Видеть то, что важно
Истина или объяснение
Переход в Кембридж
Рамануджан в Кембридже
Что было дальше
Что стало с Харди?
Математика Рамануджана
Факты — случайные или нет?
Автоматизация работ Рамануджана
Современные Рамануджаны?
Что было бы, если бы у Рамануджана была Mathematica?
На этой неделе вышел фильм "Человек, который познал бесконечность" (который мне показали еще прошлой осенью Манджул Бхаргава и Кен Оно), так что я не мог не написать о его главном герое — Сринивасе Рамануджане.



Удивительное письмо


Раньше они приходили по обычной почте. Сейчас — по электронной. В течение многих лет со всего мира ко мне стекаются письма, в которых содержатся смелые утверждения о простых числах, теории относительности, искусственном интеллекте, сознании и множестве других вещей. Глядя на эти сообщения, я вспоминаю историю Рамануджана и неизменно откладываю свои идеи и проекты, чтобы хотя бы просмотреть их.

Около 31 января 1913 года математик по имени Харди из Кембриджа, Англия, получил пакет документов с сопроводительным письмом, которое начиналось так: "Дорогой сэр, хочу представиться вам: я клерк из бухгалтерии порта в Мадрасе с зарплатой £20 в год. Мне 23 года....». И продолжал: писал о том, что достиг «поразительного» прогресса в теории расходящихся рядов по математике и решил давнишнюю проблему распределения простых чисел. Сопроводительное письмо заканчивалось словами: "Я беден; если вы решите, что здесь есть что-нибудь ценное, я хотел бы, чтобы мои теоремы были опубликованы… Я неопытен, и любые ваши советы ценны для меня. Прошу извинить меня за доставленные неудобства. Искренне ваш, с уважением, С. Рамануджан".
Читать дальше о Рамануджане...
Всего голосов 86: ↑79 и ↓7 +72
Просмотры86.1K
Комментарии 58

Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей

Open Data SciencePythonData MiningАлгоритмыМашинное обучение

Привет всем, кто проходит курс машинного обучения на Хабре!


В первых двух частях (1, 2) мы попрактиковались в первичном анализе данных с Pandas и в построении картинок, позволяющих делать выводы по данным. Сегодня наконец перейдем к машинному обучению. Поговорим о задачах машинного обучения и рассмотрим 2 простых подхода – деревья решений и метод ближайших соседей. Также обсудим, как с помощью кросс-валидации выбирать модель для конкретных данных.


UPD: теперь курс — на английском языке под брендом mlcourse.ai со статьями на Medium, а материалами — на Kaggle (Dataset) и на GitHub.


Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Читать дальше →
Всего голосов 63: ↑62 и ↓1 +61
Просмотры328.7K
Комментарии 47

Цикл стартапа: как (в общем) работает венчурное инвестирование

Венчурные инвестицииЗаконодательство в ITБизнес-модели

Привет, Хабр! Недавно я выпустил книгу о юридическом сопровождении венчурных инвестиций и IT-бизнеса. Продавать книгу я не собираюсь, поэтому с удовольствием выкладываю одну главу для членов хабрасообщества.

Книга «Закон стартапа»:
  1. Стартапер vs. предприниматель
  2. Выбираем форму
  3. Регистрация
  4. Корпоративное управление
    Как юридически строится компания
  5. Текущая работа
    Договоры и как они работают
    Как проверить партнера по открытым источникам
  6. Налоги
    Что платит IT-бизнес в России?
  7. Государственная поддержка
  8. Цикл стартапа
    Как (в общем) работает венчурное инвестирование
  9. Венчурные сделки
  10. Венчурные фонды
  11. Интеллектуальная собственность
  12. Офшоры и ВЭД
    Преимущества и подводные камни офшоров


По работе (я юрист и преподаватель) часто приходится объяснять студентам, как работает венчурное инвестирование и зачем инвестору вкладывать деньги в IT-бизнес, по сути, не получая ничего взамен. Поэтому я постарался объяснить природу венчурного феномена. Конечно, это все равно теория, на практике есть куча нюансов и деталей, но как общее руководство, я думаю, подходит. Если что-то останется неясным, спрашивайте в комментах, объясню по мере возможностей ;-)
Читать дальше →
Всего голосов 30: ↑28 и ↓2 +26
Просмотры22.4K
Комментарии 19

Reddit: инструкция по применению

Интернет-маркетингПовышение конверсии

Reddit.com, так называемый социально-новостной сайт, объединяющий в себе характеристики социальной сети и новостного портала, последние несколько лет стал привлекать к себе внимание SEO специалистов со всего мира благодаря своей головокружительной посещаемости и полной доступности. У русскоязычных пользователей нет причин оставаться в стороне, так что приглашаю всех желающих на небольшой мастер-класс по максимально эффективному использованию этой площадки для продвижения.
Читать дальше →
Всего голосов 16: ↑12 и ↓4 +8
Просмотры47K
Комментарии 2

Реклама в Instagram руководство для начинающего

ЯмбоксИнтернет-маркетингУправление медиа
Перевод
Tutorial
image

На данный момент в России Инстаграм как инструмент рекламы всё ещё используется довольно редко, поэтому мы в наших переодических публикациях не могли пропустить интересную статью на эту тему, надеюсь она принесёт вам пользу.
Читать дальше →
Всего голосов 9: ↑8 и ↓1 +7
Просмотры184.2K
Комментарии 2

Какая вовлеченность нужна вашему продукту и как ее точнее измерить

Веб-аналитикаМонетизация мобильных приложенийПовышение конверсииКонтент-маркетингАналитика мобильных приложений


Считается, что пользовательская вовлеченность напрямую связана с монетизацией. Создатели мобильных приложений ее часто измеряют и обсуждают цифры. И только кажется, что все исследуют ее одинаково. На самом деле, все намного интереснее.

Очень длинная статья содержит обзор подходов, методов и результатов исследований вовлеченности пользователей мобильных приложений. В ней не будет простых и быстрых «топ-10» советов по гарантированному повышению DAU, MAU, ARPU и др. Вместо этого, попробуем разобрать виды вовлеченности и прийти к пониманию, что и когда лучше измерять, а что измерять не имеет смысла. Сложные моменты разберем «на пальцах». В дополнение посмотрим на несколько переведенных методик измерения вовлеченности из научных рецензируемых журналов.

Статья может оказаться полезной создателям мобильных приложений, менеджерам продуктов, аналитикам, исследователям, UX-специалистам.
Читать дальше →
Всего голосов 4: ↑1 и ↓3 -2
Просмотры8.5K
Комментарии 4

Информация

В рейтинге
5,819-я
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Зарегистрирована
Активность