Articles / Bookmarks / Profile of Zalina / Habr

Залина Богазова @Zalina

Базилик

Profile Publications 68Comments 279Bookmarks 178

Zalina Apr 5 2015 at 17:23

Морфологическая обработка изображений. Лекции от Яндекса

13 min

34K

Programming*Яндекс corporate blogAlgorithms*Image processing*

Мы продолжаем публиковать лекции Натальи Васильевой, старшего научного сотрудника HP Labs и руководителя HP Labs Russia. Наталья Сергеевна читала курс, посвящённый анализу изображений, в петербургском Computer Science Center, который создан по совместной инициативе Школы анализа данных Яндекса, JetBrains и CS-клуба.

Всего в программе девять лекций. Первая и вторая уже были опубликованы. В предыдущем рассказе речь шла об основах пространственной и частотной обработки изображений. Третья лекция посвящена основным операциям морфологической обработки изображений. Под катом — слайды, план лекции и её дословная расшифровка.

Читать дальше →

+37

Zalina Mar 28 2015 at 21:16

Основы пространственной и частотной обработки изображений. Лекции от Яндекса

18 min

62K

Programming*Яндекс corporate blogAlgorithms*Image processing*

Мы продолжаем публиковать лекции Натальи Васильевой, старшего научного сотрудника HP Labs и руководителя HP Labs Russia. Наталья Сергеевна читала курс, посвящённый анализу изображений, в петербургском Computer Science Center, который создан по совместной инициативе Школы анализа данных Яндекса, JetBrains и CS-клуба.

Всего в программе — девять лекций. Первая из них уже была опубликована. В ней рассказывалось о том, в каких областях встречается анализ изображений, его перспективах, а также о том, как устроено наше с вами зрение. Вторая лекция посвящена основам обработки изображений. Речь пойдет о пространственной и частотной области, преобразовании Фурье, построении гистограмм, фильтре Гаусса. Под катом — слайды, план и дословная расшифровка лекции.

Читать дальше →

+45

ninacarrot Mar 2 2015 at 15:50

Как я проходила собеседования в Яндекс: мой непростой, но успешный опыт

7 min

243K

Яндекс corporate blogIndustrial Programming*Professional literature*

Уже чуть больше полугода я работаю в поиске Яндекса релиз-инженером. И чуть ли не с первого рабочего дня хочу написать о том, как отзывалась на вакансию, как проходила собеседования, что мне в этом процессе понравилось, а что — не очень. Но сначала я входила в курс дела, а потом каждый день в моей работе появлялись такие интересные задачи, что я даже не была готов отвлечься от них на этот рассказ.

Вопрос для внимательных: сколько модулей отломится от корабля на старте?

А еще год назад у меня в жизни была вроде бы похожая, но в то же время совсем другая ситуация — времени на хобби не хватало, задач было много, но они не приносили мне никакого удовольствия. В итоге я решилась на перемены. На самом деле, эта позиция в Яндексе не была первой, которую я рассматривала. За то время, которое прошло до моего первого рабочего дня, я освежила в голове очень много тем. И перед финальным собеседованием мне пришлось взяться ещё за несколько. Сейчас я понимаю, какие ошибки совершила в этом процессе, поэтому хочу поделиться своим опытом с вами. Буду рада, если кому-то это будет полезно. Хочу сказать, что это не официальные рецепты от рекрутеров Яндекса, а только мои собственные выводы. В конце поста я поделюсь списком литературы, которая мне помогла в подготовке, и еще добавлю те источники, которые считаю полезными, оглядываясь назад.

Читать дальше →

+62

Zalina Feb 21 2015 at 20:49

Введение в курс «Анализ изображений и видео». Лекции от Яндекса

8 min

70K

Programming*Яндекс corporate blogAlgorithms*Image processing*

Мы начинаем публиковать лекции Натальи Васильевой, старшего научного сотрудника HP Labs и руководителя HP Labs Russia. Наталья Сергеевна читала курс, посвящённый анализу изображений, в петербургском Computer Science Center, который создан по совместной инициативе Школы анализа данных Яндекса, JetBrains и CS клуба

Всего в программе — девять лекций. В первой из них рассказывается о том, как применяется анализ изображений в медицине, системах безопасности и промышленности, какие задачи оно еще не научилось решать, какие преимущества имеет зрительное восприятие человека. Расшифровка этой части лекций — под катом. Начиная с 40-й минуты, лектор рассказывает об эксперименте Вебера, представлении и восприятии цвета, цветовой системе Манселла, цветовых пространствах и цифровых представлениях изображения. Полностью слайды лекции доступны по ссылке.

Читать дальше →

+48

tokza Nov 30 2014 at 14:08

Краткая история хакерства. Рассказ от руководителя информационной безопасности Яндекса

6 min

108K

Information Security*Яндекс corporate blog

Привет! Меня зовут Антон Карпов, в Яндексе я руковожу службой информационной безопасности. Недавно передо мной встала задача рассказать школьникам — студентам Малого ШАДа Яндекса — о профессии специалиста по безопасности. Я решил, что вместо скучной теории, которую и так можно прочитать в учебниках (да и что расскажешь за одну лекцию!), лучше рассказать историю компьютерной безопасности. На основе лекции я подготовил этот короткий рассказ.

Как ни крути, а информационная безопасность у многих прочно ассоциируется с хакерами. Поэтому и рассказать я хочу сегодня про хакеров и их историю. В наши дни под хакером понимается злоумышленник, который делает что-то нелегальное, взламывает какие-то системы с материальной выгодой для себя. Но это далеко не всегда было так.

Конспект лекции

+59

tvt Nov 17 2014 at 13:56

Как и для чего Яндекс отключает собственные дата-центры

7 min

110K

Яндекс corporate blog

Раз в неделю Яндекс отключает один из своих дата-центров. Мы называем это учениями. Что это такое? Как возникло? Зачем мы это делаем? А не диверсия ли это? Насколько это опасно? На эти вопросы мне регулярно приходится отвечать как внутри, так и снаружи компании. Сегодня я решила прояснить все эти вопросы разом.

Сейчас у нас несколько собственных дата-центров, в которых располагается несколько десятков тысяч серверов и сетевое оборудование. Учения — это моделирование реальной жизненной ситуации, при которой мы теряем или весь дата-центр или его часть.

Для начала предлагаю обратиться к истории и попытаться понять, как мы пришли к такому решению. Все привыкли к тому, что наши сервисы работают всегда, без перерывов на обед и профилактику. Серьезные сбои происходят настолько редко, что каждый из них становится заметным событием.

Читать дальше →

+128

115

ID_Daemon Oct 18 2012 at 19:22

Этапы введения цензуры в интернете 2007-2012

5 min

108K

Translation

Глядя на то, как в отдельных областях России блокируется youtube и ubuntu, я не мог не вспомнить, как Кристиан Энгстрём и Рик Фальквинге в брошюре, представленной европарламенту, показали на примере Дании, Швеции и Евросоюза, что цензура в интернете используется, а порой изначально задумывается совершенно не для тех целей, которые преподносятся авторами законопроектов.

Статья написана в январе 2012 года, за 9 месяцев произошли некоторые изменения, но основные события на тот момент уже произошли, и параллели с тем, что происходит сейчас, очевидны. Часть этой информации уже просачивалась ранее в рунет, но здесь добавлены и систематизированы все основные события, поэтому привожу перевод практически полностью:

Читать дальше →

+85

bobuk Aug 7 2008 at 10:10

Несколько замечаний о строительстве шоу

2 min

2.3K

Lumber room

Для начала давайте кое о чем договоримся. Я воспринимаю интернет-проекты так же, как любое другое шоу. Конечно есть некоторая разница между телепрограммой и блогом, однако сходств значительно больше чем различий. По этой же причине и словарь мой состоит в основном из простых слов, не связанных с интернетом. Проводите аналогии, вы узнаете то же, что знаю я. Да, и упреждая вопрос «откуда я взялся такой умный» — я давно был. И количество шоу, которые я режиссировал перевалило за два десятка. А количество шоу, за которыми я пристально смотрел — думаю за две сотни.

0. Есть разные способы измерять успешность шоу, однако для каждого шоу мерило успешности одно. Для блога это посещаемость, для интернет-магазина — продаваемость товара, для телевикторины — количество людей, которые не бегут на кухню во время рекламы. Так вот, определите мерило успешности вашего шоу, следите за ним, измеряйте его. Только так вы научитесь понимать какие ваши действия приводят к каким результатам.

1. Самый сложный совет, особенно для тех, кто уже начал своё шоу. Очень важно понимать что и зачем вы делаете. Как не странно это совсем не очевидно. Допустим вы ведете блог о летающих тарелках. Ответьте себе на вопросы: зачем вы это делаете? какова конечная цель шоу? кто ваша аудитория. Если ответы для вас не очевидны — шоу обречено на провал.

2. Следите за аудиторией, но не потакайте ей. Типовая ошибка многих шоу — прислушиваться к каждому фидбеку зрителя, к каждой критике со стороны. Не забывайте, большая часть ваших зрителей дилетанты в шоу, они не знают того, что знаете вы. Если вы плохо переносите прикладную психологию — попробуйте просто игнорировать критику, используйте только положительный фидбек. Есть две причины делать именно так: во-первых зритель, довольный шоу очень ленив и не полезет звонить-писать что-то о том, как ему понравилось. Если уж он написал вам “это было круто!!11” — значит это было действительно круто, задумайтесь. Во-вторых люди, критика которых заслуживает уважения и рассмотрения, очень редко бывает бесплатной, да и этих людей вы сами уже знаете и можете пересчитать по пальцам. Я надеюсь одной руки.

3. Играйте с аудиторией, она это любит. Этот совет подходит не всем, но явному большинству шоу. “Скандалы, интриги, расследования” — это один из лучших способов привлечения новых людей. Только боже вас упаси перепутать “играйте” с “заигрывайте”.

4. Если вы активный участник шоу — выберите себе имидж, опишите его и придерживайтесь его до конца, чего бы вам это не стоило. Зрители посещают ваше шоу не для того, чтобы увидеть как вы изменились. Если конечно ваше шоу не о том, как вы меняетесь.

5. Никогда не раскрывайте публично всех секретов вашего шоу. Магия, мистика, загадка, назовите это как хотите — но шоу без этого превращается в фарс, а иногда и в фарш.

Только записав всё это как на духу я понял, что все хорошие шоу подчиняются правилу сериалов. Этих правил всего три:

1. Есть сквозная сюжетная линия, которая обычно вмещается в пару-тройку предложений. В течении всего сериала эта сюжетная линия и раскрывается

2. Каждая серия должна заканчиваться примерно там же, где начиналась. Все основные персонажи переходят из серии в серию неизменными.

3. Одна из 12ти серий должна нарушать правило 2, чтобы следовать правилу 1.

Думаю на этом сегодня можно поставить точку с запятой. Если у вас есть свежие мысли по этому поводу — выкладывайте. А то не дай бог я напишу еще.

3Hren Jan 16 2014 at 17:15

Облачная платформа Яндекса. Cocaine

13 min

105K

Open source*Яндекс corporate blog

Некоторое время назад мы довольно подробно начали рассказывать об одной из базовых облачных технологий Яндекса — Elliptics. Сегодня настала очередь поговорить о другой — той самой, под которой работают «эльфы» и которая делает мечту о своем облаке чуть ближе к реальности. Речь пойдет о Cocaine.

Cocaine (Configurable Omnipotent Custom Applications Integrated Network Engine) — это PaaS-система (Platform-as-a-Service) с открытым исходным кодом, являющаяся по сути app engine и позволяющая создавать собственные облачные хостинги приложений — такие, как Google AppEngine, OpenShift, CloudFoundry или Heroku.

Всем известно, что облака могут решить все инфраструктурные проблемы, превратить издержки в прибыль и насытить вашу жизнь бесконечной радостью и счастьем на веки веков. Единственным препятствием на пути к этим целям являются, собственно, облака. IaaS, PaaS, SaaS? Whatever-as-a-Service? Какой именно загадочный набор букв нужно выбрать, чтобы всё наконец стало хорошо?

Мы потратили немало времени, изучая эти вопросы, отбирая лучшие, на наш взгляд, идеи и концепции, чтобы построить такую облачную платформу, которую хотелось бы немедленно установить, настроить и успешно использовать.

Как всё работает, и почему именно так

+126

anton Jan 4 2014 at 14:49

Лекции от Яндекса для тех, кто хочет провести каникулы с пользой. Дискретный анализ и теория вероятностей

3 min

143K

Яндекс corporate blogMathematics*

Tutorial

Для тех, кому одного курса на праздники мало и кто хочет больше, продолжаем нашу серию курсов от Школы анализа данных Яндекса. Сегодня подошла очередь курса «Дискретный анализ и теория вероятностей» – даже более фундаментального, чем предыдущий. Но без него нельзя представить ещё большую часть современной обработки данных.

В рамках курса рассматриваются основные понятия и методы комбинаторного, дискретного и асимптотического анализа, теории вероятностей, статистики и на примере решения классических задач демонстрируется их применение.

Читает курс Андрей Райгородский. Доктор физико-математических наук. Профессор кафедры математической статистики и случайных процессов механико-математического факультета МГУ им. М. В. Ломоносова. Заведующий кафедрой Дискретной математики ФИВТ МФТИ. Профессор и научный руководитель бакалавриата кафедры «Анализ данных» факультета инноваций и высоких технологий МФТИ. Руководитель отдела теоретических и прикладных исследований компании «Яндекс». (Ещё больше можно узнать в статье о нём на Википедии).

Содержание курса и тезисы лекций

+109

Kukabarra Dec 24 2013 at 15:20

Яндекс.Карты меняют API. Почему нам понадобилось ломать обратную совместимость в кластеризаторе

14 min

61K

Яндекс corporate blogAPI*Yandex API*

Я работаю в Яндексе, у Яндекса есть карты, а у карт есть API. API – вещь, которая позволяет встроить карты Яндекса на свой сайт. С версии 2.0 наш API умеет кластеризовать метки на клиенте. Вот как выглядят метки до и после кластеризации:

На днях состоялся очередной релиз нашей бета-версии 2.1.4. Этот релиз примечателен тем, что в нем случилось то, чего так боялись большевики. Как мы и предупреждали, нам пришлось сломать обратную совместимость в кластеризаторе меток.

В этой статье я хочу не просто перечислить новшества в работе с кластеризатором в версии 2.1.4, но и объяснить, зачем нам понадобилось эти новшества плодить. А то вам придется переписывать код, а переписывать код грустно, если не понимаешь, зачем это приходится делать.

Читать дальше →

+100

krainov Nov 21 2013 at 19:03

Компьютерное зрение. Лекция для Малого ШАДа Яндекса

7 min

66K

Яндекс corporate blogImage processing*

Область применения компьютерного зрения очень широка: от считывателей штрихкодов в супермаркетах до дополненной реальности. Из этой лекции вы узнаете, где используется и как работает компьютерное зрение, как выглядят изображения в цифрах, какие задачи в этой области решаются относительно легко, какие трудно, и почему.

Лекция рассчитана на старшеклассников – студентов Малого ШАДа, но и взрослые смогут почерпнуть из нее много полезного.

Возможность видеть и распознавать объекты – естественная и привычная возможность для человека. Однако для компьютера пока что – это чрезвычайно сложная задача. Сейчас предпринимаются попытки научить компьютер хотя бы толике того, что человек использует каждый день, даже не замечая того.

Наверное, чаще всего обычный человек встречается с компьютерным зрением на кассе в супермаркете. Конечно, речь идет о считывании штрихкодов. Они были разработаны специально именно таким образом, чтобы максимально упростить компьютеру процесс считывания. Но есть и более сложные задачи: считывание номеров автомобилей, анализ медицинских снимков, дефектоскопия на производстве, распознавание лиц и т.д. Активно развивается применение компьютерного зрения для создания систем дополненной реальности.

Подробный конспект лекции

+47

Direvius Nov 17 2013 at 20:00

Тестирование в Яндексе: строим свой Лунапарк

6 min

62K

IT systems testing*Яндекс corporate blog

Иной раз и секундного взгляда на график времен отклика хватает, чтобы сказать: сервис не полетит. Еще пара секунд — и причина найдена: ядра процессора загружены неравномерно, слишком мало потоков запущено на сервере. Как создать удобную систему сбора и хранения результатов нагрузочных тестов? О том, какой опыт об этом мы накопили в Яндексе, сегодня мой рассказ.

Построить свой лунапарк

+55

iliia Oct 22 2013 at 15:57

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

10 min

146K

Яндекс corporate blogData Mining*Algorithms*

На Yet another Conference 2013 мы представили разработчикам нашу новую библиотеку Yandex SpeechKit. Это публичный API для распознавания речи, который могут использовать разработчики под Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно здесь.

Yandex SpeechKit позволяет напрямую обращаться к тому бэкэнду, который успешно применяется в мобильных приложениях Яндекса. Мы достаточно долго развивали эту систему и сейчас правильно распознаем 94% слов в Навигаторе и Мобильных Картах, а также 84% слов в Мобильном Браузере. При этом на распознавание уходит чуть больше секунды. Это уже весьма достойное качество, и мы активно работаем над его улучшением.

Можно утверждать, что уже в скором времени голосовые интерфейсы практически не будут отличаться по надежности от классических способов ввода. Подробный рассказ о том, как нам удалось добиться таких результатов, и как устроена наша система, под катом.

Как устроено распознавание речи в Яндексе

+143

elcoyot Sep 26 2013 at 20:19

Устройство системы Безопасного Поиска Яндекса

7 min

20K

Information Security*Яндекс corporate blogYandex API*

В 2007 году Яндекс столкнулся с вирусом, массово подменявшим на компьютерах пользователей поисковую выдачу Яндекса. Вместо релевантных результатов подставлялась реклама, не относящаяся к запросу. Нужно было срочно искать решение проблемы. Изучая ее, мы выяснили, что вирус попадает на пользовательские компьютеры при помощи атак типа drive-by-download. Зараженные страницы инициируют скрытые загрузки вредоносных файлов. Затем, эксплуатируя уязвимости пользовательской системы, вредоносное ПО устанавливается на компьютер.

Антивирусные программы не всегда хорошо защищают пользователей от этого типа атак и нового, только что перепакованного, вредоносного ПО, поэтому пользователям требуется дополнительная защита. Мы осознали, что чтобы побороть данное явление, нужно детектировать заражение сайтов, помогать вебмастерам удалять вредоносный код, а также мотивировать их не участвовать в партнерских сетях, через которые распространяются блоки drive-by-download-атак.

Читать дальше →

+49

bobuk Sep 18 2013 at 15:59

YaC: почему важно не пропустить главную технологическую конференцию Яндекса в 2013 году

6 min

39K

Яндекс corporate blogYandex API*

2 октября Яндекс уже в четвёртый раз проведёт YaC. Yet another Conference — это самая большая технологическая конференция в Европе. Ну, если не во всей Европе, то в Восточной — точно.

Последний раз я писал пост на Хабрахабр пять лет назад. И как раз пять лет назад мы задумывали YaC. Тогда мы чётко сформулировали для себя, что не хотим делать очередную маркетинговую конференцию про одну конкретную компанию Яндекс. Мы сделали мероприятие, которое вообще не про Яндекс. Для нас YaC — это огромная дискуссионная площадка.

О чём конкретно будут говорить на секциях в этом году

+107

bromozel Sep 16 2013 at 14:36

Ещё о тестировании в Яндексе роботами

9 min

28K

Website development*IT systems testing*Яндекс corporate blog

С точки зрения тестирования, Яндекс — это тысячи человеко-часов работы по проверке большого количества сервисов. Функциональности много, сценариев взаимодействия — миллионы. Мы стараемся сделать так, чтобы люди занимались только сложными и интересными задачами, а всю рутинную работу можно было бы поручить роботу.

В идеале именно робот должен проверять, что в результате простой загрузки страницы или сложного взаимодействия с формой ввода не возникает никаких вылетающих наружу исключений, “NaN”, “undefined” или пустых строк на месте подгружаемых данных. Экспериментальный проект по созданию и внедрению такого робота имеет кодовое название “Роботестер”.

Мы уже рассказывали, как реализовали его и научили работать с формами. Сегодня речь пойдёт о том, как наш робот старается найти максимальный объем функциональности сервиса, а затем и «понять» его.

Читать дальше →

+51

ibegtin Sep 11 2013 at 16:50

История открытых данных и Хакатон Яндекса

14 min

17K

Яндекс corporate blogYandex API*Open data*

14 — 15 сентября в Москве пройдёт первый Хакатон Яндекса, участники которого будут два дня и две ночи создавать проекты на основе открытых государственных данных с помощью технологий Яндекса.

Я уже много лет занимаюсь тем, чтобы у российских разработчиков рос интерес к работе с открытыми данными. Именно для этого создан конкурс Apps4Russia, организованный некоммерческим партнерством «Информационная культура». В этом году в нем появилась номинация для тех, кто создает приложения на отрытых данных и технологиях Яндекса. Эти события подтолкнули систематизированно рассказать здесь об истории открытых данных, их источниках, примерах использования и многих других важных вещах.

Это график из ЖЖ eugenyboger. То, что сейчас мы можем узнать подробные результаты выборов по каждому участку, — это норма, а еще совсем недавно это было не так даже в очень развитых странах.

Читать дальше →

+62

krainov Sep 9 2013 at 13:05

Яндекс, роботы и Сибирь — как мы сделали систему поиска по загруженному изображению

4 min

67K

Search engines*Яндекс corporate blogImage processing*

Сегодня Яндекс запустил поиск картинки по загруженному изображению. В этом посте мы хотим рассказать о технологии, которая стоит за этим сервисом, и о том, как её делали.

Технология внутри Яндекса получила название «Сибирь». От CBIR — Content-Based Image Retrieval.

Конечно, сама по себе задача не нова, и ей посвящено множество исследований. Но сделать прототип, работающий на академической коллекции, и построить промышленную систему, которая работает с миллиардами изображений и большим потоком запросов — очень разные истории.

Для чего всё это нужно?

Есть три сценария, при которых нужен поиск по загруженной картинке и которые нам и нужно было научиться обрабатывать.

Читать дальше →

+149

EgorK Aug 22 2013 at 19:16

Разбор всех задач и результаты Яндекс.Алгоритма

17 min

116K

Sport programming*Яндекс corporate blogAlgorithms*

Буквально пару часов назад в Санкт-Петербурге завершился открытый чемпионат по программированию Яндекс.Алгоритм 2013. Состязания состояли из нескольких онлайн-раундов по 100 минут, за победу боролись более 3000 программистов из 84 стран. По результатам трёх отборочных раундов в финал вышли 25 лучших.

Финалисты должны были решить шесть алгоритмических задач за 100 минут. Первое место занял недавний победитель ACM ICPC 2013 в составе команды НИУ ИТМО Геннадий Короткевич (tourist), который набрал меньше всего штрафного времени. Второе место досталось выпускнику НИУ ИТМО Евгению Капуну (eatmore). Третье место занял представитель Тайваня Ши Бисюнь.

В подготовке заданий для чемпионата участвовали специалисты из нескольких стран: России, Беларуси, Польши и Японии. Главными составителями задач стали разработчики минского офиса Яндекса (как и все сотрудники компании, к участию в состязаниях они не допускались). Мы попросили всех авторов разобрать задания, которые они подготовили для участников Яндекс.Алгоритма. Кстати, все задачи не удалось решить никому, лучший результат — три решённые задачи — показали только три участника.

Читать дальше →

+71

1 2 ...

6 7