Как стать автором
Обновить
20
0
Лиза Титаренко @Elisabet-89

Пользователь

Отправить сообщение

Яндекс глазами стажера

Время на прочтение 6 мин
Количество просмотров 68K

Лето — пора отпусков, каникул и, конечно же, стажировок. Будучи студентом третьего курса по направлению «Прикладная математика и информатика» Иркутского государственного университета, ими я интересовался больше всего. Мне посчастливилось на три месяца присоединиться к службе компьютерного зрения Яндекса. В этом посте я хочу рассказать, каково быть стажером в Яндексе, какие на самом деле задачи перед ними ставят, и что вам вообще за все это будет. Признаюсь, я прошел отбор не без труда, поэтому думаю, что мой пост может быть полезен тем, кто сейчас планирует свое лето.



Команда компьютерного зрения и я в серой футболке


Как это начиналось


Сложности подстерегали меня еще на этапе заполнения анкеты — несколько часов кропотливого труда по заполнению формочек были безжалостно уничтожены ночным обновлением системы. Не идеально, по моему мнению, решив тестовые задачи, я почти начал сомневаться в своих шансах. И вдруг мне ответили и предложили познакомиться с группой нейросетевых технологий, входящей в состав службы компьютерного зрения, так как я указал это направление в своих интересах. Поговорив с сотрудниками Яндекса «за жизнь» и обсудив возможные задачи, я принялся за работу над новым тестовым заданием — построением текстового классификатора.


Читать дальше →
Всего голосов 71: ↑65 и ↓6 +59
Комментарии 9

Работа распределённой команды в условиях самоизоляции: как мы почти не заметили разницы

Время на прочтение 9 мин
Количество просмотров 5.7K


Режим самоизоляции многих вынудил работать из дома. Кому-то смена обстановки даётся легче, кому-то сложнее, а кто-то и вовсе не заметил бы разницы, но после объявления недели (а потом и месяца) «карантина» прирост постов о лайфхаках, эффективности и продуктивности в ленте существенно увеличился.

Меня зовут Михаил Трошев, я руковожу службой поисковых интерфейсов Яндекса. Наша команда много лет работает распределённо — ниже расскажу, чем это отличается, а чем схоже с «удалённо», как организовано, почему не ломается и чем может быть полезен наш опыт тем, кого резкая смена режима работы застала врасплох.

Что-то наверняка покажется вам банальным (Agile, Scrum, Kanban, DevOps — ничего себе открытия!), но это ведь как с зарядкой по утрам: все знают, что она полезна, но делать регулярно и в полную силу почему-то лень. Так вот: мы делаем. И это работает.
Читать дальше →
Всего голосов 29: ↑20 и ↓9 +11
Комментарии 5

Как Яндекс Карты с помощью отзывов улучшают поиск организаций

Время на прочтение 8 мин
Количество просмотров 6K


Раньше Карты, Поиск и Алиса отвечали на запросы об организациях, во многом основываясь на данных от самих организаций. Это был нормальный компромисс, но всегда можно сделать лучше.

Теперь учитываются ещё и реальные отзывы людей. Тем самым запросы, по которым раньше выдача была менее релевантной, обрабатываются качественнее, и мы можем решить больше пользовательских задач. Давайте расскажу, как мы к этому шли, и покажу примеры.
Читать дальше →
Всего голосов 17: ↑16 и ↓1 +15
Комментарии 18

Как люди помогают технологиям в Яндекс Картах

Время на прочтение 7 мин
Количество просмотров 8K
На днях пользователи Яндекс Карт получили возможность актуализировать данные о доступности организаций. Например, можно указать, оборудован ли пандусом вход в парикмахерскую или есть ли в торговом центре специализированный туалет. Для начала мы попросили пешеходов Яндекса разметить первые 400 тысяч организаций в 73 городах.

Я Данис Гаязов из внутреннего сервиса Crowd, команды полевого краудсорсинга. Полевого, потому что мы работаем «в поле», то есть не в офисе. Сегодня по случаю запуска я расскажу, зачем Картам пешеходы и как они помогали и помогают делать сервисы более полезными.


Результат работы пешехода на заре проекта схем ТЦ
Читать дальше →
Всего голосов 24: ↑22 и ↓2 +20
Комментарии 20

ICDAR: новости анализа и распознавания документов в преддверии 2022 года

Время на прочтение 8 мин
Количество просмотров 2.5K

Декабрь – пора подводить итоги года. В этом посте постараемся рассказать читателям Хабра о новых интересных идеях, которые появились в области анализа и распознавания изображений документов.

В сентябре прошла очередная, 16-я конференция ICDAR-2021 – главное событие в области анализа и распознавания документов. Конференция проводится раз в два года, в этом году ABBYY также принимала участие с докладом, но сейчас речь пойдет не о нашей работе, а о других интересных, на наш взгляд, публикациях с этой конференции. К сожалению, не все работы легко найти в свободном доступе, поэтому под катом будет множество полезных ссылок для ознакомления. Поехали!

Читать далее
Всего голосов 11: ↑10 и ↓1 +9
Комментарии 0

2021 год в разработке технологий ABBYY – и не только. Подводим итоги года

Время на прочтение 8 мин
Количество просмотров 2K

С наступающим новым годом, Хабр! Чтобы не быть занудами, постараемся подвести короткие итоги 2021 года, потому что без них никуда :)

Вот несколько главных событий, которыми гордится вся наша команда:

     Создали low-code/no-code платформу, которая позволяет автоматизировать обработку документов и применять машинное обучение даже сотрудникам без навыков программирования. Микросервисная архитектура, Kubernetes, Docker-контейнеры, облако – в общем, классный и сложный продукт, который сделает жизнь для тех, кто много работает с информацией, чуточку проще.

   Создали уникальную технологию FastML, которая в связке с алгоритмом кластеризации позволяет гораздо точнее определять классы документов, даже если у вас их очень-очень много. Это принципиально новый подход, и мы считаем, что за ним – будущее. Пока об этом можно почитать в патенте, а вообще планируем об этом большой пост сразу после того, как все закончат есть оливье и выйдут из праздничного анабиоза.

   Обновили библиотеку машинного обучения NeoML – теперь она работает до 10 раз быстрее и поддерживает Python. Приглашаем всех питонистов (и не только) оценить всю мощь обновленной NeoML!

А еще мы попросили руководителей направлений поделиться, что самое важное их команды сделали в 2021 году, какие события в своей профессиональной области им запомнились и какие планы у них на следующий год. Вот что они рассказали.

Читать далее
Всего голосов 12: ↑11 и ↓1 +10
Комментарии 7

Что такое ABBYY Vantage и как мы придумали платформу для тех, кто не умеет кодить

Время на прочтение 9 мин
Количество просмотров 9K

ABBYY представила Vantage – low-code/no-code платформу нового поколения для интеллектуальной обработки документов с набором готовых обученных когнитивных сервисов (навыков или скиллов) для распознавания, классификации и извлечения данных из документов любой сложности.

Это значимое событие по ряду причин. Во-первых, в разработке мы использовали самый современный стек технологий (REST API, Cloud-native, микросервисная архитектура с Docker-контейнерами, которые управляются с помощью Kubernetes). Во-вторых, запустили Marketplace – онлайн-площадку, на которой клиенты могут приобретать готовые навыки для обработки документов и обмениваться ими с другими компаниями. В-третьих, добавили в продукт машинное обучение на стороне клиента. То есть система сама постоянно дообучается и повышает качество работы сервисов на основании того, как с ней взаимодействует клиент. Например, когда вносит исправления в результаты распознавания. Но обо всем по порядку.

Мы расскажем о разных составляющих Vantage в серии постов. Первый из них об общей концепции платформы. В этом посте мы покажем интерфейс и обозначим технологии, которые используются в платформе. Скорее под кат!

Читать далее
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 9

Словарь визуальных слов: как создать, зачем использовать, где применять

Время на прочтение 15 мин
Количество просмотров 3.3K

Автоматическое извлечение информации из деловых документов (счетов-фактур, квитанций, ID) все еще остается сложной задачей из-за отсутствия единого стандарта оформления: несмотря на то, что любой подобный документ содержит определенный набор полей, которые можно извлечь (дата, валюта, общая сумма), расположение элементов сильно отличается в зависимости от типа документа или компании. Также определенные трудности вызывают неоднозначное расположение границ документа, например, из-за смещения изображения на скан-копии. Этот фактор тоже может повлиять на положение искомых областей.

Использование словарей (кодовых книг) визуальных слов, аналогичных Bag-of-Words (BoW), раньше было довольно популярно для обработки изображений (к примеру, для поиска или классификации изображений документов). Мы решили создать принципиально новое решение для извлечения информации из документов, которое бы решало перечисленные выше проблемы предшествующих подходов и базировалось бы на построении и использовании оптимизированного словаря визуальных слов. При этом дополнительным достоинством нашей разработки является то, что обнаружение полей основано только на данных изображения и не требует больших размеченных наборов данных для обучения (fine-tuning) системы на стороне пользователя.

Подробно о том, как был создан словарь визуальных слов, его работе и результатах читайте тут, а переведенный сокращенный вариант — под катом.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Комментарии 4

Как ухаживать за мозгом

Время на прочтение 12 мин
Количество просмотров 87K
Эх, люблю свои мозги! Каждый день забочусь о них, как о самом важном. В этой статье мой опыт поддержания здоровья мозга переплетён с последними результатами научных исследований. Под катом рассказ, как сделать так, чтобы мозг работал эффективно и сохранял ясный ум (завтра и через 30 лет), был готов принимать решения, концентрироваться на задачах и при этом не старел.


Читать дальше →
Всего голосов 78: ↑66 и ↓12 +54
Комментарии 116

Как вести технический блог?

Время на прочтение 16 мин
Количество просмотров 20K


Я работаю в коммерческой разработке с 2011 года. С конца 2012 занимаюсь разработкой под iOS. Свою первую техническую статью я написал на Хабре в начале 2017 года про подход к локализации мобильных приложений. Потом выпустил ещё несколько статей по iOS-разработке на Хабре и в конце 2017 года я перешёл в новую компанию и решил вести блог про solution architecture https://medium.com/@nvashanin, где начал описывать общие концепты, обязанности архитектора, его скилл-сет и т.д. К лету 2020 года количество просмотров моих статей перевалило за 800 тысяч, а количество времени, которое люди потратили на прочтение — больше 6 млн минут, или около 12 лет чистого времени. Флагманская статья была переведена другими людьми на разные языки: например, польский или испанский.

В статье я расскажу про свой путь к техническому блогу — от идеи до регулярных публикаций. Расскажу, о чём можно писать, как писать и как оформлять статьи, а также о том, как на них заработать. Мне, например, удалось купить себе часы на деньги, которые принёс блог. Статья подойдёт тем, кто только задумывается о написании статей, а также будет полезна и тем, кто уже активно пишет.
Читать дальше →
Всего голосов 68: ↑68 и ↓0 +68
Комментарии 22

Как жить и работать с психиатрическим диагнозом: расшифровка эфира, часть 1

Время на прочтение 24 мин
Количество просмотров 24K

И снова привет, Хабр.

Две недели назад я написала пост с каминг-аутом, что я работаю в IT с тяжелым психическим расстройством и предложила задавать вопросы. И форма ответов просто взорвалась! Впервые за время, которое я на площадке, я увидела человеческую часть нашего коммьюнити так близко.

Поэтому перед публикацией расшифровки я хочу сказать спасибо за поддержку и доверие. Я постаралась ответить на все вопросы во время эфира — вышло длинно, поэтому расшифровка выйдет двумя частями: в целом о жизни с БАР и практические вопросы, вроде как найти врача.

Под катом часть первая — о жизни с БАР.
Всего голосов 65: ↑58 и ↓7 +51
Комментарии 43

PVS-Studio впечатлен качеством кода Abbyy NeoML

Время на прочтение 4 мин
Количество просмотров 6.1K
image1.png

На днях компания ABBYY опубликовала исходный код своего фреймворка NeoML. Нам предложили проверить эту библиотеку с помощью PVS-Studio. Это интересный проект с точки зрения анализа, так что мы не стали откладывать его в долгий ящик. Чтение этой статьи не займет у вас много времени, так как проект оказался высокого качества :).
Читать дальше →
Всего голосов 33: ↑33 и ↓0 +33
Комментарии 20

Колесо Сансары: принципы борьбы с рутиной

Время на прочтение 7 мин
Количество просмотров 15K
Под катом статья для тех, кто, с одной стороны, эмоционально сгорает в рутине, стрессует, отмечает у себя повышенную тревожность, а, с другой стороны, должен продолжать концентрироваться на рабочих задачах и как-то их вывозить.


Всего голосов 25: ↑23 и ↓2 +21
Комментарии 15
Процедура регистрации SIM-карт не менялась уже более двух десятков лет. В сравнении с остальными технологиями — вечность. Пока одни всерьез обсуждают возможности телепортации, другие тащатся в офис оператора или его партнера, стоят в очереди и теряют чуть ли не полчаса на том, что медленный сотрудник забивает в учетную систему паспортные данные. А потом еще примерно час ждут, пока купленная SIM-карта активируется в биллинге, чтобы с нее можно было позвонить. Проект GoldenSIM и ABBYY далек от телепортации, но сокращает эти полтора часа до полутора минут.
Подробности — под катом
Всего голосов 43: ↑38 и ↓5 +33
Комментарии 31

[Обновлено в 10:52, 14.12.19] В офисе Nginx прошел обыск. Копейко: «Nginx был разработан Сысоевым самостоятельно»

Время на прочтение 7 мин
Количество просмотров 313K

Другие материалы по теме:


Eng version
Что значит наезд на Nginx и как это отразится на индустрииdeniskin
Open source — наше всё. Позиция Яндекса по ситуации с Nginxbobuk
Официальная позиция Программных комитетов Highload++ и других IT-конференций на претензии к Игорю Сысоевуolegbunin


По информации от одного из сотрудников, в московском офисе опенсорс-разработчиков Nginx проводят обыски в рамках уголовного дела, истцом по которому выступает Рамблер (ниже официальный ответ пресс-службы компании по этому вопросу и подтверждение наличия претензий к Nginx). В качестве доказательств приводится фото постановления о производстве обыска в рамках уголовного дела, возбужденного 4 декабря 2019 года по статье 146 УК РФ «Нарушение авторских и смежных прав».

Фото постановления о производстве обыска


Как предполагается, истцом выступает компания Рамблер, а ответчиком пока «неустановленная группа лиц», а в перспективе — основатель Nginx Игорь Сысоев.

Суть претензии: Игорь начал работу над Nginx, будучи сотрудником Рамблера, а только после того, как инструмент стал популярен, основал отдельную компанию и привлек инвестиции.

Почему Рамблер вспомнил о своей «собственности» только спустя 15 лет — неясно.
Всего голосов 797: ↑794 и ↓3 +791
Комментарии 1457

Кота и пса накормит робот

Время на прочтение 6 мин
Количество просмотров 9.3K


Забыли покормить кота, и он будит вас в пять утра голодными руладами? Ищете сиделку для домашнего любимца на время командировки или поездки за город? Технологии решат эти проблемы, к радости четвероногих друзей. Рассказываем о новом бренде Petoneer — умной кормушке Nutri Feeder и поилках Fresco Ultra и Mini.
Читать дальше →
Всего голосов 28: ↑25 и ↓3 +22
Комментарии 25

Как ужиться с поколением Z

Время на прочтение 12 мин
Количество просмотров 73K


Знаете, когда читаешь публикации в СМИ насчёт очередных особенностей очередного поколения молодых людей, начинает казаться, что мир катится в пропасть. Все эти фразы про молодёжь, которая не умеет работать, не признаёт авторитетов и скоро погубит мир, свежестью своей мысли заставляют вспомнить глиняные таблички времён Хаммурапи.

Чушь. Познакомьтесь с поколением Z. Они скоро станут вашими коллегами, подчинёнными и даже начальниками. Они обычные люди, просто получившие смартфон раньше, чем научились читать. Умные, целеустремлённые, образованные. Да, они не жгли тряпки на заброшенной стройке и не ели муравьёв в песочнице, но зато многие из них уже успели собрать свой первый школьный проект на Arduino и вовсю осваивают 3D-печать.

Эта тема всё больше нервирует рекрутеров, которые ещё не совсем понимают, как правильно их нанимать, и руководителей, которые не уверены, что получится ужиться с этим поколением. Всё не так страшно. Я хочу рассказать немного больше о социологических аспектах поколений. А ещё попробуем понять, почему бывает так сложно работать с центениалами, и как направить их творческую натуру на благо компании.
Всего голосов 134: ↑115 и ↓19 +96
Комментарии 604
Замечали, что при поиске работы об одних компаниях вы вспоминаете сразу, а про другие понимаете, что лучше туда и носа не совать? Впечатление об имидже работодателя вы можете составить по информации в соцсетях, медиа, на профильных мероприятиях. Другой вопрос, доверяете ли вы этой информации? На что вы в первую очередь обращаете внимание при поиске информации о работодателе?
Пройти опрос
Всего голосов 35: ↑29 и ↓6 +23
Комментарии 10

Как мы создавали технологию оптического распознавания текста. OCR в Яндексе

Время на прочтение 12 мин
Количество просмотров 19K
Привет! Сегодня я расскажу читателям Хабра о том, как мы создавали технологию распознавания текста, работающую на 45 языках и доступную пользователям Яндекс.Облака, какие задачи мы ставили и как их решали. Будет полезно, если вы работаете над схожими проектами или хотите узнать, как так получилось, что сегодня вам достаточно сфотографировать вывеску турецкого магазина, чтобы Алиса перевела её на русский.


Читать дальше →
Всего голосов 65: ↑41 и ↓24 +17
Комментарии 12
Потребление контента похоже на процесс приёма пищи. Обычно мы тратим деньги на калории, но важна не только калорийность. Чем еда полезнее, вкуснее и красивее, тем больше мы её хотим. Так и с контентом. В этой статье поговорим, как стать «контентным поваром»: готовить текст так, чтобы его хотелось открыть и прочитать. А главное — чтобы он был полезен читателю и не стал фастфудом.
Читать далее
Всего голосов 19: ↑15 и ↓4 +11
Комментарии 8

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирована
Активность