Pull to refresh
84
0
Залина Богазова @Zalina

Базилик

Send message

Морфологическая обработка изображений. Лекции от Яндекса

Reading time13 min
Views34K
Мы продолжаем публиковать лекции Натальи Васильевой, старшего научного сотрудника HP Labs и руководителя HP Labs Russia. Наталья Сергеевна читала курс, посвящённый анализу изображений, в петербургском Computer Science Center, который создан по совместной инициативе Школы анализа данных Яндекса, JetBrains и CS-клуба.



Всего в программе девять лекций. Первая и вторая уже были опубликованы. В предыдущем рассказе речь шла об основах пространственной и частотной обработки изображений. Третья лекция посвящена основным операциям морфологической обработки изображений. Под катом — слайды, план лекции и её дословная расшифровка.
Читать дальше →
Total votes 39: ↑38 and ↓1+37
Comments7

Основы пространственной и частотной обработки изображений. Лекции от Яндекса

Reading time18 min
Views62K
Мы продолжаем публиковать лекции Натальи Васильевой, старшего научного сотрудника HP Labs и руководителя HP Labs Russia. Наталья Сергеевна читала курс, посвящённый анализу изображений, в петербургском Computer Science Center, который создан по совместной инициативе Школы анализа данных Яндекса, JetBrains и CS-клуба.



Всего в программе — девять лекций. Первая из них уже была опубликована. В ней рассказывалось о том, в каких областях встречается анализ изображений, его перспективах, а также о том, как устроено наше с вами зрение. Вторая лекция посвящена основам обработки изображений. Речь пойдет о пространственной и частотной области, преобразовании Фурье, построении гистограмм, фильтре Гаусса. Под катом — слайды, план и дословная расшифровка лекции.
Читать дальше →
Total votes 51: ↑48 and ↓3+45
Comments9

Как я проходила собеседования в Яндекс: мой непростой, но успешный опыт

Reading time7 min
Views243K
Уже чуть больше полугода я работаю в поиске Яндекса релиз-инженером. И чуть ли не с первого рабочего дня хочу написать о том, как отзывалась на вакансию, как проходила собеседования, что мне в этом процессе понравилось, а что — не очень. Но сначала я входила в курс дела, а потом каждый день в моей работе появлялись такие интересные задачи, что я даже не была готов отвлечься от них на этот рассказ.

Вопрос для внимательных: сколько модулей отломится от корабля на старте?


А еще год назад у меня в жизни была вроде бы похожая, но в то же время совсем другая ситуация — времени на хобби не хватало, задач было много, но они не приносили мне никакого удовольствия. В итоге я решилась на перемены. На самом деле, эта позиция в Яндексе не была первой, которую я рассматривала. За то время, которое прошло до моего первого рабочего дня, я освежила в голове очень много тем. И перед финальным собеседованием мне пришлось взяться ещё за несколько. Сейчас я понимаю, какие ошибки совершила в этом процессе, поэтому хочу поделиться своим опытом с вами. Буду рада, если кому-то это будет полезно. Хочу сказать, что это не официальные рецепты от рекрутеров Яндекса, а только мои собственные выводы. В конце поста я поделюсь списком литературы, которая мне помогла в подготовке, и еще добавлю те источники, которые считаю полезными, оглядываясь назад.

Читать дальше →
Total votes 112: ↑87 and ↓25+62
Comments84

Введение в курс «Анализ изображений и видео». Лекции от Яндекса

Reading time8 min
Views70K
Мы начинаем публиковать лекции Натальи Васильевой, старшего научного сотрудника HP Labs и руководителя HP Labs Russia. Наталья Сергеевна читала курс, посвящённый анализу изображений, в петербургском Computer Science Center, который создан по совместной инициативе Школы анализа данных Яндекса, JetBrains и CS клуба



Всего в программе — девять лекций. В первой из них рассказывается о том, как применяется анализ изображений в медицине, системах безопасности и промышленности, какие задачи оно еще не научилось решать, какие преимущества имеет зрительное восприятие человека. Расшифровка этой части лекций — под катом. Начиная с 40-й минуты, лектор рассказывает об эксперименте Вебера, представлении и восприятии цвета, цветовой системе Манселла, цветовых пространствах и цифровых представлениях изображения. Полностью слайды лекции доступны по ссылке.
Читать дальше →
Total votes 60: ↑54 and ↓6+48
Comments5

Краткая история хакерства. Рассказ от руководителя информационной безопасности Яндекса

Reading time6 min
Views108K
Привет! Меня зовут Антон Карпов, в Яндексе я руковожу службой информационной безопасности. Недавно передо мной встала задача рассказать школьникам — студентам Малого ШАДа Яндекса — о профессии специалиста по безопасности. Я решил, что вместо скучной теории, которую и так можно прочитать в учебниках (да и что расскажешь за одну лекцию!), лучше рассказать историю компьютерной безопасности. На основе лекции я подготовил этот короткий рассказ.



Как ни крути, а информационная безопасность у многих прочно ассоциируется с хакерами. Поэтому и рассказать я хочу сегодня про хакеров и их историю. В наши дни под хакером понимается злоумышленник, который делает что-то нелегальное, взламывает какие-то системы с материальной выгодой для себя. Но это далеко не всегда было так.
Конспект лекции
Total votes 79: ↑69 and ↓10+59
Comments29

Как и для чего Яндекс отключает собственные дата-центры

Reading time7 min
Views110K
Раз в неделю Яндекс отключает один из своих дата-центров. Мы называем это учениями. Что это такое? Как возникло? Зачем мы это делаем? А не диверсия ли это? Насколько это опасно? На эти вопросы мне регулярно приходится отвечать как внутри, так и снаружи компании. Сегодня я решила прояснить все эти вопросы разом.



Сейчас у нас несколько собственных дата-центров, в которых располагается несколько десятков тысяч серверов и сетевое оборудование. Учения — это моделирование реальной жизненной ситуации, при которой мы теряем или весь дата-центр или его часть.

Для начала предлагаю обратиться к истории и попытаться понять, как мы пришли к такому решению. Все привыкли к тому, что наши сервисы работают всегда, без перерывов на обед и профилактику. Серьезные сбои происходят настолько редко, что каждый из них становится заметным событием.
Читать дальше →
Total votes 138: ↑133 and ↓5+128
Comments115

Этапы введения цензуры в интернете 2007-2012

Reading time5 min
Views108K
Глядя на то, как в отдельных областях России блокируется youtube и ubuntu, я не мог не вспомнить, как Кристиан Энгстрём и Рик Фальквинге в брошюре, представленной европарламенту, показали на примере Дании, Швеции и Евросоюза, что цензура в интернете используется, а порой изначально задумывается совершенно не для тех целей, которые преподносятся авторами законопроектов.

Статья написана в январе 2012 года, за 9 месяцев произошли некоторые изменения, но основные события на тот момент уже произошли, и параллели с тем, что происходит сейчас, очевидны. Часть этой информации уже просачивалась ранее в рунет, но здесь добавлены и систематизированы все основные события, поэтому привожу перевод практически полностью:
Читать дальше →
Total votes 101: ↑93 and ↓8+85
Comments49

Несколько замечаний о строительстве шоу

Reading time2 min
Views2.3K
Для начала давайте кое о чем договоримся. Я воспринимаю интернет-проекты так же, как любое другое шоу. Конечно есть некоторая разница между телепрограммой и блогом, однако сходств значительно больше чем различий. По этой же причине и словарь мой состоит в основном из простых слов, не связанных с интернетом. Проводите аналогии, вы узнаете то же, что знаю я. Да, и упреждая вопрос «откуда я взялся такой умный» — я давно был. И количество шоу, которые я режиссировал перевалило за два десятка. А количество шоу, за которыми я пристально смотрел — думаю за две сотни.

0. Есть разные способы измерять успешность шоу, однако для каждого шоу мерило успешности одно. Для блога это посещаемость, для интернет-магазина — продаваемость товара, для телевикторины — количество людей, которые не бегут на кухню во время рекламы. Так вот, определите мерило успешности вашего шоу, следите за ним, измеряйте его. Только так вы научитесь понимать какие ваши действия приводят к каким результатам.

1. Самый сложный совет, особенно для тех, кто уже начал своё шоу. Очень важно понимать что и зачем вы делаете. Как не странно это совсем не очевидно. Допустим вы ведете блог о летающих тарелках. Ответьте себе на вопросы: зачем вы это делаете? какова конечная цель шоу? кто ваша аудитория. Если ответы для вас не очевидны — шоу обречено на провал.

2. Следите за аудиторией, но не потакайте ей. Типовая ошибка многих шоу — прислушиваться к каждому фидбеку зрителя, к каждой критике со стороны. Не забывайте, большая часть ваших зрителей дилетанты в шоу, они не знают того, что знаете вы. Если вы плохо переносите прикладную психологию — попробуйте просто игнорировать критику, используйте только положительный фидбек. Есть две причины делать именно так: во-первых зритель, довольный шоу очень ленив и не полезет звонить-писать что-то о том, как ему понравилось. Если уж он написал вам “это было круто!!11” — значит это было действительно круто, задумайтесь. Во-вторых люди, критика которых заслуживает уважения и рассмотрения, очень редко бывает бесплатной, да и этих людей вы сами уже знаете и можете пересчитать по пальцам. Я надеюсь одной руки.

3. Играйте с аудиторией, она это любит. Этот совет подходит не всем, но явному большинству шоу. “Скандалы, интриги, расследования” — это один из лучших способов привлечения новых людей. Только боже вас упаси перепутать “играйте” с “заигрывайте”.

4. Если вы активный участник шоу — выберите себе имидж, опишите его и придерживайтесь его до конца, чего бы вам это не стоило. Зрители посещают ваше шоу не для того, чтобы увидеть как вы изменились. Если конечно ваше шоу не о том, как вы меняетесь.

5. Никогда не раскрывайте публично всех секретов вашего шоу. Магия, мистика, загадка, назовите это как хотите — но шоу без этого превращается в фарс, а иногда и в фарш.

Только записав всё это как на духу я понял, что все хорошие шоу подчиняются правилу сериалов. Этих правил всего три:

1. Есть сквозная сюжетная линия, которая обычно вмещается в пару-тройку предложений. В течении всего сериала эта сюжетная линия и раскрывается

2. Каждая серия должна заканчиваться примерно там же, где начиналась. Все основные персонажи переходят из серии в серию неизменными.

3. Одна из 12ти серий должна нарушать правило 2, чтобы следовать правилу 1.

Думаю на этом сегодня можно поставить точку с запятой. Если у вас есть свежие мысли по этому поводу — выкладывайте. А то не дай бог я напишу еще.
Total votes 6: ↑5 and ↓1+4
Comments40

Облачная платформа Яндекса. Cocaine

Reading time13 min
Views105K
Некоторое время назад мы довольно подробно начали рассказывать об одной из базовых облачных технологий Яндекса — Elliptics. Сегодня настала очередь поговорить о другой — той самой, под которой работают «эльфы» и которая делает мечту о своем облаке чуть ближе к реальности. Речь пойдет о Cocaine.

Cocaine (Configurable Omnipotent Custom Applications Integrated Network Engine) — это PaaS-система (Platform-as-a-Service) с открытым исходным кодом, являющаяся по сути app engine и позволяющая создавать собственные облачные хостинги приложений — такие, как Google AppEngine, OpenShift, CloudFoundry или Heroku.



Всем известно, что облака могут решить все инфраструктурные проблемы, превратить издержки в прибыль и насытить вашу жизнь бесконечной радостью и счастьем на веки веков. Единственным препятствием на пути к этим целям являются, собственно, облака. IaaS, PaaS, SaaS? Whatever-as-a-Service? Какой именно загадочный набор букв нужно выбрать, чтобы всё наконец стало хорошо?

Мы потратили немало времени, изучая эти вопросы, отбирая лучшие, на наш взгляд, идеи и концепции, чтобы построить такую облачную платформу, которую хотелось бы немедленно установить, настроить и успешно использовать.
Как всё работает, и почему именно так
Total votes 146: ↑136 and ↓10+126
Comments92

Лекции от Яндекса для тех, кто хочет провести каникулы с пользой. Дискретный анализ и теория вероятностей

Reading time3 min
Views143K
Для тех, кому одного курса на праздники мало и кто хочет больше, продолжаем нашу серию курсов от Школы анализа данных Яндекса. Сегодня подошла очередь курса «Дискретный анализ и теория вероятностей» – даже более фундаментального, чем предыдущий. Но без него нельзя представить ещё большую часть современной обработки данных.

В рамках курса рассматриваются основные понятия и методы комбинаторного, дискретного и асимптотического анализа, теории вероятностей, статистики и на примере решения классических задач демонстрируется их применение.



Читает курс Андрей Райгородский. Доктор физико-математических наук. Профессор кафедры математической статистики и случайных процессов механико-математического факультета МГУ им. М. В. Ломоносова. Заведующий кафедрой Дискретной математики ФИВТ МФТИ. Профессор и научный руководитель бакалавриата кафедры «Анализ данных» факультета инноваций и высоких технологий МФТИ. Руководитель отдела теоретических и прикладных исследований компании «Яндекс». (Ещё больше можно узнать в статье о нём на Википедии).

Содержание курса и тезисы лекций
Total votes 121: ↑115 and ↓6+109
Comments21

Яндекс.Карты меняют API. Почему нам понадобилось ломать обратную совместимость в кластеризаторе

Reading time14 min
Views61K
Я работаю в Яндексе, у Яндекса есть карты, а у карт есть API. API – вещь, которая позволяет встроить карты Яндекса на свой сайт. С версии 2.0 наш API умеет кластеризовать метки на клиенте. Вот как выглядят метки до и после кластеризации:

image

На днях состоялся очередной релиз нашей бета-версии 2.1.4. Этот релиз примечателен тем, что в нем случилось то, чего так боялись большевики. Как мы и предупреждали, нам пришлось сломать обратную совместимость в кластеризаторе меток.

В этой статье я хочу не просто перечислить новшества в работе с кластеризатором в версии 2.1.4, но и объяснить, зачем нам понадобилось эти новшества плодить. А то вам придется переписывать код, а переписывать код грустно, если не понимаешь, зачем это приходится делать.
Читать дальше →
Total votes 120: ↑110 and ↓10+100
Comments41

Компьютерное зрение. Лекция для Малого ШАДа Яндекса

Reading time7 min
Views66K
Область применения компьютерного зрения очень широка: от считывателей штрихкодов в супермаркетах до дополненной реальности. Из этой лекции вы узнаете, где используется и как работает компьютерное зрение, как выглядят изображения в цифрах, какие задачи в этой области решаются относительно легко, какие трудно, и почему.

Лекция рассчитана на старшеклассников – студентов Малого ШАДа, но и взрослые смогут почерпнуть из нее много полезного.



Возможность видеть и распознавать объекты – естественная и привычная возможность для человека. Однако для компьютера пока что – это чрезвычайно сложная задача. Сейчас предпринимаются попытки научить компьютер хотя бы толике того, что человек использует каждый день, даже не замечая того.

Наверное, чаще всего обычный человек встречается с компьютерным зрением на кассе в супермаркете. Конечно, речь идет о считывании штрихкодов. Они были разработаны специально именно таким образом, чтобы максимально упростить компьютеру процесс считывания. Но есть и более сложные задачи: считывание номеров автомобилей, анализ медицинских снимков, дефектоскопия на производстве, распознавание лиц и т.д. Активно развивается применение компьютерного зрения для создания систем дополненной реальности.

Подробный конспект лекции
Total votes 53: ↑50 and ↓3+47
Comments11

Тестирование в Яндексе: строим свой Лунапарк

Reading time6 min
Views62K


Иной раз и секундного взгляда на график времен отклика хватает, чтобы сказать: сервис не полетит. Еще пара секунд — и причина найдена: ядра процессора загружены неравномерно, слишком мало потоков запущено на сервере. Как создать удобную систему сбора и хранения результатов нагрузочных тестов? О том, какой опыт об этом мы накопили в Яндексе, сегодня мой рассказ.
Построить свой лунапарк
Total votes 71: ↑63 and ↓8+55
Comments11

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

Reading time10 min
Views146K
imageНа Yet another Conference 2013 мы представили разработчикам нашу новую библиотеку Yandex SpeechKit. Это публичный API для распознавания речи, который могут использовать разработчики под Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно здесь.

Yandex SpeechKit позволяет напрямую обращаться к тому бэкэнду, который успешно применяется в мобильных приложениях Яндекса. Мы достаточно долго развивали эту систему и сейчас правильно распознаем 94% слов в Навигаторе и Мобильных Картах, а также 84% слов в Мобильном Браузере. При этом на распознавание уходит чуть больше секунды. Это уже весьма достойное качество, и мы активно работаем над его улучшением.

image

Можно утверждать, что уже в скором времени голосовые интерфейсы практически не будут отличаться по надежности от классических способов ввода. Подробный рассказ о том, как нам удалось добиться таких результатов, и как устроена наша система, под катом.

Как устроено распознавание речи в Яндексе
Total votes 155: ↑149 and ↓6+143
Comments60

Устройство системы Безопасного Поиска Яндекса

Reading time7 min
Views20K
В 2007 году Яндекс столкнулся с вирусом, массово подменявшим на компьютерах пользователей поисковую выдачу Яндекса. Вместо релевантных результатов подставлялась реклама, не относящаяся к запросу. Нужно было срочно искать решение проблемы. Изучая ее, мы выяснили, что вирус попадает на пользовательские компьютеры при помощи атак типа drive-by-download. Зараженные страницы инициируют скрытые загрузки вредоносных файлов. Затем, эксплуатируя уязвимости пользовательской системы, вредоносное ПО устанавливается на компьютер.

Антивирусные программы не всегда хорошо защищают пользователей от этого типа атак и нового, только что перепакованного, вредоносного ПО, поэтому пользователям требуется дополнительная защита. Мы осознали, что чтобы побороть данное явление, нужно детектировать заражение сайтов, помогать вебмастерам удалять вредоносный код, а также мотивировать их не участвовать в партнерских сетях, через которые распространяются блоки drive-by-download-атак.

image
Читать дальше →
Total votes 67: ↑58 and ↓9+49
Comments22

YaC: почему важно не пропустить главную технологическую конференцию Яндекса в 2013 году

Reading time6 min
Views39K
2 октября Яндекс уже в четвёртый раз проведёт YaC. Yet another Conference — это самая большая технологическая конференция в Европе. Ну, если не во всей Европе, то в Восточной — точно.

image

Последний раз я писал пост на Хабрахабр пять лет назад. И как раз пять лет назад мы задумывали YaC. Тогда мы чётко сформулировали для себя, что не хотим делать очередную маркетинговую конференцию про одну конкретную компанию Яндекс. Мы сделали мероприятие, которое вообще не про Яндекс. Для нас YaC — это огромная дискуссионная площадка.
О чём конкретно будут говорить на секциях в этом году
Total votes 129: ↑118 and ↓11+107
Comments52

Ещё о тестировании в Яндексе роботами

Reading time9 min
Views28K
С точки зрения тестирования, Яндекс — это тысячи человеко-часов работы по проверке большого количества сервисов. Функциональности много, сценариев взаимодействия — миллионы. Мы стараемся сделать так, чтобы люди занимались только сложными и интересными задачами, а всю рутинную работу можно было бы поручить роботу.

В идеале именно робот должен проверять, что в результате простой загрузки страницы или сложного взаимодействия с формой ввода не возникает никаких вылетающих наружу исключений, “NaN”, “undefined” или пустых строк на месте подгружаемых данных. Экспериментальный проект по созданию и внедрению такого робота имеет кодовое название “Роботестер”.

image

Мы уже рассказывали, как реализовали его и научили работать с формами. Сегодня речь пойдёт о том, как наш робот старается найти максимальный объем функциональности сервиса, а затем и «понять» его.
Читать дальше →
Total votes 61: ↑56 and ↓5+51
Comments13

История открытых данных и Хакатон Яндекса

Reading time14 min
Views17K
14 — 15 сентября в Москве пройдёт первый Хакатон Яндекса, участники которого будут два дня и две ночи создавать проекты на основе открытых государственных данных с помощью технологий Яндекса.

Я уже много лет занимаюсь тем, чтобы у российских разработчиков рос интерес к работе с открытыми данными. Именно для этого создан конкурс Apps4Russia, организованный некоммерческим партнерством «Информационная культура». В этом году в нем появилась номинация для тех, кто создает приложения на отрытых данных и технологиях Яндекса. Эти события подтолкнули систематизированно рассказать здесь об истории открытых данных, их источниках, примерах использования и многих других важных вещах.

image

Это график из ЖЖ eugenyboger. То, что сейчас мы можем узнать подробные результаты выборов по каждому участку, — это норма, а еще совсем недавно это было не так даже в очень развитых странах.
Читать дальше →
Total votes 68: ↑65 and ↓3+62
Comments9

Яндекс, роботы и Сибирь — как мы сделали систему поиска по загруженному изображению

Reading time4 min
Views67K
Сегодня Яндекс запустил поиск картинки по загруженному изображению. В этом посте мы хотим рассказать о технологии, которая стоит за этим сервисом, и о том, как её делали.

Технология внутри Яндекса получила название «Сибирь». От CBIR — Content-Based Image Retrieval.

Конечно, сама по себе задача не нова, и ей посвящено множество исследований. Но сделать прототип, работающий на академической коллекции, и построить промышленную систему, которая работает с миллиардами изображений и большим потоком запросов — очень разные истории.



Для чего всё это нужно?


Есть три сценария, при которых нужен поиск по загруженной картинке и которые нам и нужно было научиться обрабатывать.
Читать дальше →
Total votes 171: ↑160 and ↓11+149
Comments57

Разбор всех задач и результаты Яндекс.Алгоритма

Reading time17 min
Views116K
Буквально пару часов назад в Санкт-Петербурге завершился открытый чемпионат по программированию Яндекс.Алгоритм 2013. Состязания состояли из нескольких онлайн-раундов по 100 минут, за победу боролись более 3000 программистов из 84 стран. По результатам трёх отборочных раундов в финал вышли 25 лучших.

image

Финалисты должны были решить шесть алгоритмических задач за 100 минут. Первое место занял недавний победитель ACM ICPC 2013 в составе команды НИУ ИТМО Геннадий Короткевич (tourist), который набрал меньше всего штрафного времени. Второе место досталось выпускнику НИУ ИТМО Евгению Капуну (eatmore). Третье место занял представитель Тайваня Ши Бисюнь.

В подготовке заданий для чемпионата участвовали специалисты из нескольких стран: России, Беларуси, Польши и Японии. Главными составителями задач стали разработчики минского офиса Яндекса (как и все сотрудники компании, к участию в состязаниях они не допускались). Мы попросили всех авторов разобрать задания, которые они подготовили для участников Яндекс.Алгоритма. Кстати, все задачи не удалось решить никому, лучший результат — три решённые задачи — показали только три участника.
Читать дальше →
Total votes 91: ↑81 and ↓10+71
Comments30

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity