Pull to refresh

Comments 77

Спасибо, это было очень интересно узнать.
Спасибо, было интересно узнать, что вам было интересно это узнать.
Вот и закончилась моя первая статья на Хабре. Надеюсь, она не была очень занудной

Не была! Спасибо за интересный материал!
Нажал на вашу ссылку и пол фильма посмотрел. Как-то затянуло…
да, вы правы, затягивает.
В той серии ТБВ, насколько я помню, они именно распознаватель формул делали и на скрине изображен процесс тестирования.
Если точно, то их система должна была решать сложные диффуры.
Не столько именно решать, находить соответствие с табличными, уже известными дифурами.
Ну я примитивно выразился. Находить решения она должна была не для табличных, а специфических, часто используемых в теорфизе. Например, уравнение Шрёдингера.
Какое конкретно уравнение Шрёдингера? Для разных систем это разные классы уравнений.

И решают конкретный класс уравнений, а не «общее уравнение Шрёдингера».
Какое конкретно уравнение Шрёдингера?
Извините, но в сериале об этом ни слова.
Вы что, оставили комментарий основываясь на сериал?

Там же были практически все виды уравнений — от Бесселя (сферических и цилиндрических) и Ганкеля до уравнений разрешимых в элементарных функциях.
Вы что, оставили комментарий основываясь на сериал?
Так и разговор как раз о том, для чего делалось приложение в сериале.
А если быть точнее, то распознавать и решать?
А если совсем точно, то даже не решать, а подставлять значения в уже известное решение :)
Школьники, наверное, давно мечтали о такой программе!
Будущее уже сегодня :-)
Спасибо за статью, познавательно.

У вас 1 хорошо распознается. Почему-то в егэ заставляют писать 1 как l. Я думал, чтобы не компьютер не спутал с 7кой?
Интересно какой алгоритм распознавания используется в егэ.
1 путает с 9кой иногда, но очень редко, а с семеркой не путает, потому что обучен тому, что семерка состоит из двух росчерков — с палочкой посередине.
Кстати, в Японии и Корее принято писать 7 без второй перечеркивающей черточки, как в печатных шрифтах. И наши ребята часто ошибаются и при чтении — путают с единицей, — и при написании — заграничные друзья и их компьютеризированные распознавалки не понимают, что это за плюсик с хвостом.
Может, еще где-то принято такое написание, но мне об этом не известно.
でも、時々に使っています。とにかく、伝統の書き方は重要です。どう思いますか、ワイルさん?
Ошибка тут: {9} over {x}. Должно быть {1} over {x}. Спасибо за статью :)
Диплом защищать :-) Это же тестовое, учебное приложение. Конкурент mip.exe из него не получится. Если перечислять, что еще должно быть сделано кроме рефакторинга кода, получится примерно такой список:
  1. написать более совершенный классификатор (использующий SVM)
  2. научить распознавать разные стили письма
  3. реализовать более совершенный алгоритм сегментации
  4. воспринимать xml-подобный формат электронных чернил для возможности загрузки сторонних баз
  5. научить распознавать матрицы
  6. спроектировать годный интерфейс
и так далее.
А исходники открывать не планируется?
Предполагаю, что если я их открою, большое количество программистов умрёт от разрыва сердца. Хотя, если доведу до ума в течение года-двух, то почему бы и нет :-)
Убей конкурентов, открой исходный код!
Очень жалко. А то обычно, желая довести до ума, через месяцок — другой забивают и вообще не выкладывают…

Судя по скриншотам — запущено под Linux, что вдвойне заинтересовало. Есть — ли под Linux аналоги?

Мне, в общем-то, нафиг не нужно, но побаловаться интересно было-бы.

А на чем пишите, кстати?
Мне кажется, проект очень даже стоящий. Под linux вообще мало средств для распознавания рукописного текста… Думаю, желающие помочь с кодом найдутся.
ИМХО, при полной проработке тянет на кандидатскую
Эээ… а что именно тянет-то?
Разве автор предложил что-то новое?
Распознавание символов — нейронной сетью. Сегментация — по ретроспективе росчерков, а значит не годится для распознавания изображений (что, кстати, кардинально отличет даный проект от ТБВ). То, что индекс стоит выше символа — как бы и так понятно. А больше ничего и нет…
Новизна не всегда означает, что автор взял и создал из ничего новый метод. Большинство работ — это применение уже существующих методов и алгоритмов в новой области. Конечно, что-то новое в работе безусловно должно быть, но как правило новая идея — это хорошо забытая старая. Вот у меня в работе, например, куча новых алгоритмов, хотя если приглядеться, то подобные алгоритмы уже где-то кем-то когда-то были использованы.
следующий этап портируйте на andoid и iphone)
чтобы заработать на подводную лодку…
так и представляю учеников и студентов, фотографирующих задания на контрольных и экзаменах =)
Это вы еще на ЕГЭ не были.
а что там на ЕГЭ, расскажите по подробнее
Откуда-то ведь в интернете появляются слитые варианты с Дальнего Востока :)
Так что, вполне ухитряются.
В этом году один вариант появился за день до экзамена. Фоткают все, кому не страшно и не лень, и выкладывают тут же в интернет с просьбами решить. Дальневосточные регионы выкладывают задания, чтобы западные успели ознакомиться с ними.
На дольнем востоке минимальный процент сдавших?
Слишком велик шанс получить на своем ЕГЭ вариант, отличный от дальневосточного. Разве что типы заданий оценить. Преимущество не очень большое в итоге.
Для этого и фоткают. А еще чтобы решили.
Да ладно :) Некоторые в том году делали очень просто — в 4 утра в день ЕГЭ скачивали варианты с Дальнего Востока, шли к репетитору, с ним быстро прорешивали и шли на экзамен уже очень неплохо подготовленные, т.к. между вариантами почти всегда разница только в числах.
Так а я о чем?)
Разница в числах только в регионе, а между регионами задания немного разные.
Не туда ответил, хотел на уровень повыше =)
В том году особой разницы не заметил. Ну или она критична разве что для совсем несоображающих «абитуриентов»
Да нет, я имел возможность сравнить. Типы заданий были похожи.
На ЕГЭ задания фоткают только если организаторы, у детей эту возможность исключил на 99%!
Очень странное заявление, учитывая что только сегодня я смотрел пару фоток КИМов в плохом качестве, выложенных экзаменуемыми. Все зависит от организаторов, а среди них есть и не совсем бдительные.
Ну если только сами организаторы косячат…
Вот сами посмотрите:
1- пришли на пункт сдачи телефоны сдали,
2- (не сдали и ладно) в аудитории сидит 2 наблюдателя + ходят независимые проверяющие,
3-выносить ни работу ни черновики «в туалет» нельзя,
4-если и каким то чудом все ответственные куда то делись\отвлеклись и ты сфотографировал то у твоих оставшихся 14 «товарищей по несчастью» есть право подать жалобу с последующими последствиями для тебя (есть такие справедливые)
Я все таки имею непосредственное отношение к проведению ЕГЭ 11…
> 1- пришли на пункт сдачи телефоны сдали,
У нас никто не сдавал. Да и не просили.

> в аудитории сидит 2 наблюдателя + ходят независимые проверяющие
Сидят и читают книжки, иногда смотрят на экзаменуемых. Независимые проверяющие не ходили.

> 3-выносить ни работу ни черновики «в туалет» нельзя,
Зато можно взять с собой из дома чистый листок и его вынести.

> 4-если и каким то чудом все ответственные куда то делись\отвлеклись…
Все заняты решением. А кто не занят, тот тоже списывает. Хотя от места еще зависит.
Мне друг позвонил во время ЕГЭ из туалета и продиктовал задачу. Через 20 минут перезвонил и получил ответ.
ходят независимые проверяющие

Эти независимые проверяющие при должной сноровке местных преподов и наличии коньяка становятся очень лояльными.
Знаю много случаев, когда «всем пофиг» было — и наблюдателям, которые почти не следили или смотрели сквозь пальцы, и уж тем более другим экзаменуемым. У самого при сдаче в прошлом году была возможность почти не напрягаясь сфотографировать варианты, отослать кому-нибудь и потом скатать решения, но лень было заморачиваться.
Ну это как всегда в России идея хорошая, а реализация и халатность портит все начинания.
Да и идея то по сути хорошая только при сильном ее обобщении, т.е. она хороша где-то на уровне «надо оценивать способности более объективно»
Это ЕГЭ то идея хорошая? =))) Все эти «запреты на списывание» и «бдительность» — бред полнейший.
Я программирую и верстаю профессионально уже 3 года, но всё-равно регулярно лажу в шпаргалку, чтобы посмотреть какое-нибудь тег, функцию на php или метод из Js. Хотя я с ними работаю ежедневно.
У учителей не халатность, а понимание. Только мудаки могут реально ходить и издеваться над детьми, тщательно проверяя, не списывают ли они.
Вот тут статья про ЕГЭ от учителя: scepsis.ru/library/id_3023.html, тоже имеющего отношение к ЕГЭ.
Видно, что меры эти ни к чему не приводят.
Эта софтинка с фотками не работает.
Я ни черта не смыслю в программировании (надеюсь поправить в скором времени), но то, что Вы сделали — это круто.
Вы оценивали точность распознавания символов?
Нет, не оценивал. Основное внимание уделил стадии структурного анализа. Вообще, для хорошего распознавания с высокой точностью необходим более совершенный классификатор. К сожалению, не хватило времени его написать.
>> передискретизация по длине дуги методом линейной интерполяции

При таком подходе теряется часть существенной информации росчерка, конкретно, динамика его ввода. В случае человеко-зависимого алгоритма это приводит к снижению качества распознавания.
Интересно было бы увидеть рез-ты тестирования качества распознавания в сравнении с простым прореживанием.

P.S. Надо заметить, что если по задумке автора сеть не будет переобучаться пользователем, то такой подход является выигрышным.
Глядя на иллюстрацию с обучением классификатора, вспомнил, как на работе бились над задачей различения оценок «Н» и «4» (при распознании информации из ведомостей успеваемости), которые преподаватели пишут так, что даже на глаз, зачастую, определить тяжело. Проблема решилась на 60% увеличением базы образцов для обучения и на 35% надписью «Пожалуйста, пишите аккуратней!». Но ошибки всё равно иногда бывают.
Хорошо было бы записывать распознанные формулы в разных форматах — LaTeX, OpenOffice, Microsoft Equation…
Работа превосходная, тянет даже на несколько дипломов. Хотя бы бинарники покажете?
Мне кажется, что вы у корня про циферки забыли, т.е. бывают корни не только второй степени.
Знаю, а еще и матрицы, например… Но целью было продемонстрировать рабочий подход, а не создать супер приложение, которое может все формулы на свете :-) Тут было мнение, что ничего нового нет — я с этим согласен. Повторюсь — цель — рассказать об одном из алгоритмов решения описанной проблемы.
<зануда>Просто примеры корней в статье есть (а матриц нет), а корни не доработаны.</зануда> :)
Но статья, конечно же, отличная! Большое спасибо за неё! Добавил в закладки. Как раз надо будет курсач написать на тему распознавания рукописных символов.
Only those users with full accounts are able to leave comments. Log in, please.