Pull to refresh
12
0
Send message

Почему Илья Суцкевер не ходит на работу?

Level of difficultyEasy
Reading time7 min
Views36K

Слева направо: Грег Брокман и Илья Суцкевер. Фон — картины Суцкевера. @gdb

Илью Суцкевера не уволили, официально не отстранили, но на рабочем месте его не видели всю прошлую неделю. В других случаях это был бы типичный прогульщик, если бы речь шла не про главного научного сотрудника OpenAI.

Почему Суцкевер не ходит в офис? Пока что сказать трудно. Зато сейчас легко предположить, почему уволили Сэма Альтмана. Для этого нужно размотать клубок OpenAI до самого основания компании.
Читать дальше →
Total votes 44: ↑42 and ↓2+40
Comments57

Как Яндекс научился распознавать, что написано в рукописных архивах

Reading time11 min
Views31K

Привет, Хабр. Меня зовут Саша, в прошлый раз я рассказывал сообществу про поиск организаций в Яндексе. В этот раз мы вновь поговорим про поиск, но уже совершенно другого рода. Сегодня расскажем про «Поиск по архивам». Этот проект вырос из моего личного интереса к истокам семьи, но в итоге (хочется верить!) поможет тысячам других таких же пользователей чуть больше узнать о своих корнях.

Генеалогическое исследование — очень трудоёмкий процесс. Информация о родственниках разбросана по разным архивам, запросы на получение данных могут обрабатываться долго, а доступ даже в открытые архивы ограничен. Несмотря на то что оцифровка архивных документов ведётся уже более десяти лет, по ним не так-то просто искать — придётся отсматривать вручную множество сканов в надежде найти фамилию предка. 

Чтобы упростить этот процесс, мы научились превращать в текст сканы архивных документов. Основная сложность этой задачки заключалась в том, что текст в архивах написан от руки. Машинописный текст всё-таки создан по предсказуемым правилам: автор использует набор уже известных шрифтов. А рукописный текст уникальный, потому что каждый человек пишет по-своему. Кроме того, архивные документы написаны не просто от руки, но и на дореволюционном русском языке, который существенно отличается от современного. 

Решению этой задачи мы и посвятим историю. А поможет мне с ней Таня @miryable из команды, которая уже много лет развивает в Яндексе технологию оптического распознавания символов (OCR).

Читать далее
Total votes 145: ↑144 and ↓1+143
Comments103

Information

Rating
Does not participate
Registered
Activity