Как стать автором
Обновить

Комментарии 313

а говорят компьютеры уделали мозг человека… Где уж там. Как числодробилки — да, пожалуй.
Хотя в данном случае облажались скорее программисты и ученые-лингвисты, компы просто не знают, что от них требуется.
Компы не в состоянии решить эту проблему by design. Для решения этой проблемы Фон Неймановская и ей подобные архитектуры просто не годятся.
А раз уж зашли в тупик при решении относительно простой задачи с точки зрения мозга, то более сложные задачи, такие, как процесс творчества, интуиция и т.д. вообще недосягаемы. То есть пока создать настоящий ИИ не представляется возможным
А чем Вас не устроила именно архитектура фон Неймана?
Она не умеет ассоциации без эмуляции. А какое вообще может быть распознавание речи без ассоциативного мышления?
Да и задумывалась она как последовательная.
вы путаете понятия.
фон Неймановская архитектура всего-лишь описывает связь между I/O, памятью
нет, вы правы.
хотя бы из-за первого же принципа: Принцип использования двоичной системы счисления для представления данных и команд.
на двоичной системе ИИ (а для полноценного распознавания речи именно он и нужен) невозможен в принципе (или возможен, но с невероятно низкой ресурсоэффективностью).

последовательность архитектуры не принципиальна, в данном случае, т.к. обходится условным переходом…
Была, вроде, такая технология вроде ПЛИС, только аналоговая. Думаю что она лучше подойдет.
кстати да, по сути для реализации нечеткой логики нужны аналоговые системы.
потому что даже если цифре поднять дискретность — это не будет истинно нечеткая логика…
современные процессорные мощности позволяют вычислить любую аналоговую ошибку с достаточной для вас точностью.
читаем про нечеткую логику:
«функция принадлежности элемента к множеству может принимать любые значения в интервале [0...1], а не только 0 или 1»

а ну-ка реализуйте мне это на «современных процессорных мощностях» с их двоичной системой.
на сколько порядков упадет производительность этих ваших «современных процессорных мощностей» при дискретизации каждого бита, скажем, в 100 000 раз?
Неудачный пример.

Покажите для начала ту аналоговую схему (или её биологический аналог), который даст такую точность.

Насколько я помню, 48 кГц от 100 кГц уже ухо не отличает. Ухо целиком. Ну а компьютер целиком вполне не только обрабатывает, но и в mpeg сжимает такие значения «на лету».
Насколько я помню, неотличимые звуки тем не менее влияют на психический аспект восприятия. Не помню, где, но я читал, что когда людям с абсолютным слухом предложили послушать два варианта одной итой же мелодии, и в первой из них сигнал был срезан в неслышимом диапазоне, он показался им хуже, т.к. «что-то не так звучит».
ru.wikipedia.org/wiki/Double — в 64битных системах мантисса дабла составляет 52 бита, то есть точность порядка 10 в 15й степени.
Посмотрел профиль териона. Там написано что он дизайнер. Вохможно стоило уточнить что мантисса — по сути, это количество цифр в дробном числе, за вычетом ведущих нулей. Чтобы это было проще обсуждать.

А так — на практике цифровая схема точнее аналоговой за счет устойчивости к помехам, возникающим при передаче данных. Все остальное упирается в датчики, которые, как правило изначально аналоговые и лишь преобразуют аналоговый сигнал в цифровой.
ага, 52 разрядный АЦП :) шутите
НЛО прилетело и опубликовало эту надпись здесь
Не сомневаюсь, вот только оговорок будет горка с небольшим для этого 64 разрядного.
Даже к примеру теже самые 24 разрядные 100 килогерцные, почти все сигма делта, которые плывут при константном напряжении (на сколько я знаю эту тему)
Ну а потом согласитесь, есть вещи которые в цифровом виде не то что бы не возможны, скорее не логичны.

А если поднять то 200,300 мегагерц, то вообше не о каких 24 битах речи нет. (тут и 16 бит редкость)
А к примеру для оптических систем, когда надо скажем 50 гигагерц то вообше не более 4,6 бит, и стоит оно ооочень дорого :)
НЛО прилетело и опубликовало эту надпись здесь
(О работе глаза) я вообше то не спец но могу предположит следующее: к примеру течет функция немного, то есть вместо одной длинны волны определяем немного другую (они то ведь абсолютные как раз), то есть видим скажем не темно зеленый а просто зеленый (может не совсем удачный пример, но смысл ясен), тогда выходит что не отрабатываем так как нужно?

(Об обратной свези: аля фидбэк) к примеру PID, когда интегральный геин строго единица, то есть обязаны держать в нуле сигнал ошибки, а у нас как раз АЦП плывет, сразу как результат шатания, которые раскачивает систему и приведут в некоторых случаях к опрокидыванию. А сам PID быстрый то есть раз в 200 быстрее чем средняя чистота сигнала потому как пропорциональный гэин, тьюнят через FFT-loop автоматически.

(Об AI) поясните не понял (о линейности)
НЛО прилетело и опубликовало эту надпись здесь
А имеются ли какие-либо доказательство того, что окружающий мир дискретен? Или непрерывен?
На текущий момент этот вопрос скорее из области философии, поэтому в каждом конкретном случае рассматривается то решение, которое удобнее для описания модели, т.е. которое позволяет лучше отразить происходящие процессы.
Если посмотреть математический аппарат, применяемый для каждого из двух (непрерывного и дискретного) случаев, то для практических задач дискретная функция (например, выборка) просто интерполируется, и рассматривается уже как непрерывная.

Поэтому прежде чем говорить о дискретизации в 100 000 раз, необходимо понять, какого уровня дискретизации будет достаточно для описания.

Формально же оценивать производительность систем с фон-неймановской архитектурой можно только после установки этой границы.
Все аналоговые системы обладают ужасной производительностью (да как и человеческий мозг), по сравнению с дискретными. Все же цифра лучше работает с цифрой, но вот некоторые вещи без аналога ну никак :(
Открою тебе страшную тайну: аналоговые системы обладают несоизмеримо большей производительностью.
Пока компьютеры завидуют мультизадачности мозга мыши.
А мой мозг завидует мультизадачности компьютеров.
И я говорю о осознанной мультизадачности, а не о фоновых процесах типа дыхания, работы сердца и остальных органов.
Вы о подсознании слышали? Сознание проще расценивать не как однопоточность, а как активное приложение в мозгу…
Ну или как DE.
Смотря в чём измерять производительность.
Можно нескромный вопрос. На примере чего сделан такой вывод?
Ну например нахождение первообразной. Что будет работать быстрее, метод Эйлера или интегрирующее звено?
Молодой человек, с чего Вы делаете такие далеко идущие выводы?
Там, дальше, например, дизайнер утверждает о невозможности эффективной реализации нечёткой логики при помощи цифровых процессоров. Я не буду даже говорить, что это, мягко скажем, не его тема, и лучше не утверждать того, в чём не разбираешься.
У меня вопрос к Вам лично: что конкретно Вы понимаете под ассоциациями в данном случае и чем в связи с этим конкретно Вас не устраивает архитектура фон Неймана?
Ну я тут не буду же всю теорию нейронных сетей рассказывать. Про то, как формируются образы, про то, как идет их распознавание. И т.д.
Что касается ассоциаций: вот есть у нас некая нейронная сеть: мы подаем на вход некий набор сигналов, обучаем её проще говоря, у нейронов в сети формируются некие весовые коэфиценты. Нейроны запоминают образ, возникает некая ассоциация. После мы можем подавать на вход уже неполный или искаженный образ, нейронная сеть будет способна восстановить по этим неполным данных исходный образ по ассоциации.Примерно по такому же принципу работает и человеческий мозг, только процессы несоизмеримо сложнее, именно за счет ассоциативной памяти мы и распознаем смысл сказаных слов.
А теперь вопрос: каким образом без эмуляции можно создать систему подобную нейронным сетям в системах с отдельной памятью и отдельным центральным процессором.
По какому принципу работает человеческий мозг науке мало известно. И когда пишите про ассоциации для хомячковых/математических так называемых нейронных сетей, по сути являющимися обычной линейной системой уравнений, то берите слово в скобки.
Почему не в состоянии? Ладно, если бы вы говорили про недостаток мощности современных ПК, но чем архитектура то вам не угодила?
А вообще, соглашусь с мнением, что проблема в людях. Ну не придумал еще никто хорошего алгоритма.
Нужно придумать такой алгоритм, который придумает нужный алгоритм.
Эволюционные вычисления (ГА, ГП) движутся в этом направлении.
А это уже в какой-то мере эмуляция, это не совсем родная стихия для обычной компьютерной архитектуры. Где в мозгу вы видел конвееры, где вы в мозгу видели прогнозирование ветвления, причем двоичного? Ну и где вы найдете мне микросхему с аппаратной реализацией нечеткой логики?
нечеткую логику в двоичной системе можно только эмулировать, при этом затрачивая дурные ресурсы… более того, даже имея эти ресурсы, все равно будет баг на баге и возможность создания стабильной системы с нечеткой (даже эмулированной) логикой будет бесконечно стремиться к нулю…
хоть раз в своей жизни собирали схему на ОУ? :)))
НЛО прилетело и опубликовало эту надпись здесь
распознавание букв в голосовом сигнале — пройденный этап. Нейросетью реализуется, хоть и с некоторыми доработками.
Можно ссылку на обученную сеть для распознавания отдельных звуков… русского языка?
… плюс более менее полную базу данных слов разбитых на звуки.
да неужели? ), и вы сейчас этот текст наговорили своей машине, да?
это до сих пор пробелма, открою вам секрет. И точность распознавания фонем (звуков) Нейросетью по мировым достижениям и достижениям исследователей старн Украины и др. составляет 64,28% на слитной речи, но не свободной, т.е. спонтанной — и это самый лучший на данный момент результат… вот и подумайте, что должна сделать языковая модель, что бы распознавание было ну хотя бы 85%.
Архитектура может быть и не идеальна, но просимулировать биологические структуры явно в состоянии, так что…
В теории, путем биологической симуляции можно добиться многого, в том числе и распознавания речи… однако это симуляция на очень низком уровне, с огромными затратами ресурсов. Вопрос в том, возможно ли симулировать процессы, происходящие в мозгу, на более высоком уровне.
Не компы виноваты, а люди которые толком не могут объяснить как правильно употреблять слова.
виноваты разные логические принципы. мозг оперирует нечеткой логикой, машина— четкой.
реализовать на существующей аппаратной базе нечеткую логику невозможно в принципе.
следственно, в обозримом будущем ИИ и все прочие плюшки (включая распознавание речи) нам не светят
НЛО прилетело и опубликовало эту надпись здесь
про эмуляцию я тут уже писал — крайне неээфективно и гарантированно с ошибками.
я имел ввиду аппаратную реализацию. без нее никак
НЛО прилетело и опубликовало эту надпись здесь
когда(если) освоят био-машины (на базе настоящих нейронов) — тогда, возможно, и прийдем и к ИИ и к прочему…
У меня полное ощущение с моими 4рмя курсами электроники что Терион пытался троллить.

Существует достаточное количество алгоритмов для нечеткой логики — придумали фреймовые структуры для баз знаний, онтологии отношений между сущностями и прочую кучу вещей. Оно даже работает. Надеюсь я не совру, если скажу что нечеткая логика используется в тех-же спам-фильтрах для определения спама.
>реализовать на существующей аппаратной базе нечеткую логику невозможно в принципе.

Думаю, с нечеткой логикой скорее вылезут другие проблемы — не факт, что машина, построенная на таких принципах сочтет человечество достойным плодов своих вычислений и «размышлений». :)))
>>> «Хотя в данном случае облажались скорее программисты и ученые-лингвисты, компы просто не знают, что от них требуется.»

Истинно! Не зря говорят, что ответ всегда содержится в вопросе. Нужно только правильно задавать вопросы.
НЛО прилетело и опубликовало эту надпись здесь
если мерять флопсы, то порог человеческого мозга давно достигнут.
у мозга производительность всего-то 100 терафлопс (или петафлопс).
а вот последние мейнфреймы:
# Blue Gene/L (2006) — 478,2 Тфлопс
# Jaguar (суперкомпьютер) (2008) — 1,059 Пфлопс
# IBM Roadrunner (2008) — 1,042 Пфлопс
# Jaguar Cray XT5-HE (2009) — 1,759 Пфлопс
# IBM Sequoia (2012) — 20 Пфлопс

вопрос не в производительности, а в логике
НЛО прилетело и опубликовало эту надпись здесь
Ну вот к примеру есть такая веселая штука, как осознанные сновидения. Получается, что мозг способен генерировать на лету абсолютно не отличимую от реальности модель всего мира.
НЛО прилетело и опубликовало эту надпись здесь
Ну я бы не использовал тут эту терминологию. В мозгу нету ничего близко похожего на БД.
ну почему… память человека — суть ассоциативная бд…
Ага, только работает она через раз. Особенно на экзаменах…
Компьютеры помимо быстрой обработки должны данные для этой обработки откуда-то взять. Здесь упираемся в интерфейсы, с чем у человеческого мозга нет никаких проблем.
Я к тому, что при большой эффективности именно «молотилки» информации, общий процесс ее обработки далеко не так эффективен — бутылочное горлышко здесь не ЦП.
говорят же вам, ассоциативная!
а не реляционная :)
> Ну вот к примеру есть такая веселая штука, как осознанные сновидения

Есть или «вы считаете что есть»? Если первое, пруф пожалуйста
Нет, конечно же, никаких сновидений, это ему приснилось.
Всегда думал что это скорее есть, нежели некоторые считают что это есть. Даже удивлен встретив подобный вопрос.
Пруф к сожалению, возможен только при приложении к этой теме намерения, что за вас даже при всем желании никто сделать не сможет.
А так — да, работает — с чужой колокольни=)
получилось пройти первые врата?
=) Не знаю, право слово
ну как же, эмиссар обязан сообщить об этом, во всяком случае так принято, сообщил?
Обязан? хм… Думаю он очень удивится=)
Я б не советовал относиться слишком серьезно к подобным условностям — они не оставляют места магии
это традиция с давних времен, пройти врата не значит быть за ними иногда, а иметь возможность преодаливать их по своему усмотрению
Иногда стоит отказаться от того, что говорится словами, чтобы понять что они за собой несут
это тот случай? как здесь писать в личку?
Вероятно=)

В личку можно в профиле похоже.
Люди очень охотно верят в чудеса и в свои безграничные возможности :) Осознанные сновидения — это и то и другое. Неудивительно что в их существование верят очень многие. Думаю процент свидетелей НЛО — не меньше ;) Насчет своего опыта — в бытность бешеной популярности Кастанеды практиковал не менее полугода, очень активно. Результат нулевой. Самое главное что руки увидеть удалось, но сон сразу же прекратился. Для себя сделал вывод что осознанное действие — прекращает сон, то есть эти два состояния несовместимы.
Осознанное действие концентрирует внимание — не важно сон это или нет.
Ну то есть вы считаете что они есть просто потому что «всегда так думали». То есть существуют ли они — вопрос веры и не более того. Доказательств никаких нет. Отсутствие серьезных ученых занятых изучением этого явления, говорит о том что это скорее из области магии и эзотерики. То есть не годится как аргумент в техническом диалоге.
Боюсь искуственный интеллект по аналогичным признакам тоже можн отнести к магии и эзотерике :)

А осознанные сны не могут быть аргументом по другой причине — это сугубо субъективный опыт.

Но в данном случае говорится не о осознанных снах, а о том, что мозг может генерировать свою картину мира в реальном времени.
> Но в данном случае говорится не о осознанных снах, а о том, что мозг может генерировать свою картину мира в реальном времени

Дык об этом говорится как о 100% факте, с чем лично я — не согласен
А если предложить в качестве аргумента обычные сны?
Обычные сны — поток информации, о котором даже нельзя сказать наверняка что он трехмерный. Вряд ли их (сны) можно отождествлять как пример мего-производительности мозга, скорее наоборот: это некий реплей событий, без намека на эмуляцию, разве что довольно достоверно для сознания…
повторюсь, вопрос не в производительности, а в логике.
в принципах и эффективности вычислений, если хотите.
Если не секрет — как Вы измерили производителььность мозга? =)
это не я измерил.
про порог в петафлопс я читал очень давно, но увы, не могу сейчас найти пруфлинк.
гугление показывает разные оценочные результаты от 10^14 до 10^18 операций в секунду.
Из википедии «Человек, пользуясь лишь ручкой и бумагой, выполняет операции с плавающей запятой очень медленно и часто с большой ошибкой. Говоря о производительности нашего вычислительного аппарата, придётся использовать такие единицы как миллифлопс и даже микрофлопс. Тем не менее, мозг человека в реальном времени может выполнять такие сложные операции как синтез и распознавание речи и образов, координацию в пространстве и многие другие.»

Незнаю кто делает 10^12 операций с плавающей точкой в секунду, но я и одной за секунду не сделаю, даже с бумажкой… А делает ли мозг подобные операции напрямую — никто не знает… (ну кроме Анатоле=)
Судя по некоторым аномальным случаям, он вполне способен напрямую считать и весьма быстро.
А тут как раз и работает эмуляция — аналоговый мозг эмулирует цифровое устройство, тратя на это много сил. И не корректно сравнивать производительность систем с разной логикой
Это никак не объясняет феномен людей, обсчитывающих в уме огромные числа — мгновенно и без ручек/бумажек/проблем с точностью

Это раз, и два — такая задача как распознавание образов (приводили уже такой пример тут) требует намного больше ресурсов, и вопрос уже не в «попугаях» пороговой производительности, но в эффективности архитектуры=)
НЛО прилетело и опубликовало эту надпись здесь
А вот тут шиш уже… Закон Мура действительно начинает трещать по швам, ибо мы верно движемся к теоретическому пределу для технологического процесса для элементов на кремниевой основе, дальше минитиуаризация не будет иметь смысла из за возникающих побочных эффектов
НЛО прилетело и опубликовало эту надпись здесь
Как бы вы правы безусловно, но подобная правота недальновидна.
Флопсы, папугаи и прочее — безусловно стремительно растут. Но дело в том, что изза проблем в архитектуре мы топчемся на месте, не в состоянии совершить скачек, хотя технические ресурсы для этого давно есть.
Если применить смекалку, поработать над принципами организации, то можно приложить эту безумную ракету современных ЦП для гораздо более интересных задач, чем ворочение неподъемных (читай — неэффективных) тонн машинного кода.

Если во времена 8088 программа занимала считанные килобайты, то сейчас — далеко нет, и именно на это уходят безумные ресурсы современных систем.
Я не призываю вернуться к ассемблеру повсеместно (он кстати для современных систем уже совсем не так прост), но применять похожий подход к аппаратной архитектуре мне кажется неверно.
НЛО прилетело и опубликовало эту надпись здесь
Твоя правда=)
Наверное, просто очень хочется при жизни увидеть все те чудеса прогресса, которые пока сложно и представить даже себе
НЛО прилетело и опубликовало эту надпись здесь
Во всем важна база — раньше она была, и мы до сих пор в некоторых местах пользуемся старыми наработками (BIOS, например — только недавно начали от него отказываться), теми «вылизанными» кирпичиками, из которых мы и строим новые сложные системы.
Времени тратим меньше, но и КПД упал безбожно.
Хотя, конечно, смотря с чем сравнивать
>Мура трещит пока не подтвержденные. да к барьеру частоты подошли. но что мы видим? пошло наращивание ядер на кристалле. пошло наращивание разрядности.

Вы его читали? Там вовсе речь шла не о частоте процессора, там речь шла о количестве транзисторов на кристалле. Сейчас Интел использует технологический процесс что-то около 32нм, а это уже близко к теоретическому пределу для кремния (что-то около 19нм).
НЛО прилетело и опубликовало эту надпись здесь
Не понимаю, почему это наблюдение называют «законом».
У него даже нет чёткой формулировки!
Это — наблюдение, или тенденция.

Это настолько же закон как и то, что бутерброд всегда падает маслом вниз («закон Мерфи»).

Позвольте мне напомнить, что такое закон.
Физи́ческий зако́н — эмпирически установленная и выраженная в строгой словесной и/или математической формулировке устойчивая связь между повторяющимися явлениями, процессами и состояниями тел и других материальных объектов в окружающем мир
Если не буквоедствовать, то закон Мура превращается в обычную экспоненциальную функцию роста :)
НЛО прилетело и опубликовало эту надпись здесь
Вот у этой то экспоненты сейчас и вылез технологический предел. У идеи наращивать количество ядер тоже есть технологический предел. Проблема тут банальная: с ростом числа ядер растет количество служебной информации, которую приходится передавать, причем растет как n квадрат. Итого после определенного числа ядер наоборот производительность начинает падать.
Итого в наращивании частоты мы дошли до предела, в наращивании количества ядер когда-нибудь тоже дойдем.
НЛО прилетело и опубликовало эту надпись здесь
*100 терафлопс (или 1 петафлопс)
(на всякий случай, для ясности)
Сравнивать производительность мозга и современных ПК — некорректно. Устройство слишком различается.
Говорят, мозг улитки в 100500 раз круче самого мощного компа на земле.
Говорят, что кур доят
У улитки нет мозгов, а есть — висцеральные нервные стволы.
Это нервую систему, с парой десятков нейронов, можно успешно симулировать на компьютере.
Просвятите пожалуйста,
у улитки всего пара десятков нейронов, или можно успешно симулировать пару десятков нейронов?
НЛО прилетело и опубликовало эту надпись здесь
абсолютно не корректно. клетка это отдельный процессор (или ядро, как вам больше нравится). Со своим регистром и кешовой памятью…
НЛО прилетело и опубликовало эту надпись здесь
Там выше человек говорил о паре десятков нейронов в нервной системе улитки.
Я понять хочу — это «всего» или «столько можно смоделировать»? И тот и другой вариант странным выглядит
НЛО прилетело и опубликовало эту надпись здесь
Я думаю что в мозге улитки точно найдется 15 нейронов… или что там у нее в нервном узле.

Это не мешает найтись там еще паре тысячам нейронов. но в этом я уже не уверен.
Ну так коли там не всего 15, но «как минимум 15», то фраза «Это нервую систему, с парой десятков нейронов, можно успешно симулировать на компьютере.» звучит странно
Во-первых: брюхоногих огромное количество, от самых примитивных до довольно развитых: с простым мозгом, и даже довольно сложными глазами с хрусталиком.
Во-вторых: c 15 нейронами я действительно загнул, там намного больше.
И в-третьих: не слышали о проекте Blue Brain?
Они успешно симулировали 1-ну колонку кортекса крысы, которая содежит в себе 10 000 нейронов и 108 синапсов.
Спасибо, число 15 несколько смущало — собственно как раз в свете новостей о симуляции кортекса, где синапсов в любом случае намного больше. Это нейронные сети или что-то другое, не расскажете популярно?
Они говорят, что хотят симулировать мозг на молекулярном уровне, правда, не знаю, насколько они в этом преуспели.

Насколько я понял, то это — действительно нейронная сеть, но в качестве нейронов используют отдельные процессоры.
Там около 8000 процессоров, тоесть на каждом симулируется один или два нейрона.
Ну это, насколько я понимаю, далеко не самый масштабный прожект в этой области.
А область интересная, особенно в свете того что может дать успешный результат таких исследований
Даже это неправда man нейронные сети. За единицу хранения информации приближенно можно принять связь между нейронами, а количество этих связей с ростом сложности системы растет просто фантастически.
И это еще весьма приближенная оценка.
вы имеет ввиду нейронные сети? если да, то вы не правы, поскольку нейроны в нейронных сетях, точнее говоря, любое его формальное описание, это убогая аппроксимация реальных нейронов.
«можно успешно симулировать на компьютере»
Ещё как «успешно». Так успешно, что нобелевка светит. Правда ни мозгов ни мощностей ещё не хватает для эмуляции даже нематоды.
НЛО прилетело и опубликовало эту надпись здесь
К.О. сообщает о рекурсии.
тут нет рекурсии, никто не говорит что одно как то связно с другим…
ведь управление голосом (для этого первые приложения управления на буквы и слова не делили команды) и распознавание речи это разные вещи!
И как вы предлагаете сверять полученную из внешнего мира аудио коммнаду с записанной в памяти?
Сразу скажу — сравнивать «влоб», вычислять какие-нибудь «коэффициенты примерной корреляции» можно, но в итоге не работает — точнее может быть и работает, но точность подобных методов неудовлетворительная.
Не совсем согласен. Уже даже в современных телефонах (нокиа серия Е, например) голосовой набор номера и голосовое управление основаны на синтезе звука и сравнении с тем, что поступает на вход. Может быть какое-то предварительное обучение и делалось, но в «чистом» телефоне распознавание имени контакта из записной книжки работает явно не меньше, чем в 80% случаев, и со временем точность повышается. Какие алгоритмы там используются для сравнения- не знаю, но мы проверяли на работе- плевать эта система хотела на язык, шумы, тембр голоса, можно спокойно передать телефон другому человеку, все равно распознает, главное- не выделываться и не пытаться действовать как в известном анекдоте про лесопилку.

Другое дело, что записная книжка мобильника сильно меньше словаря великого русского языка, возможно еще и этим объясняется более-менее приемлемая скорость и небольшое количество ошибок.
Есть разница между словом условной комманды и фразой языка — голосовое управление с заданным/ограниченным набором вариантов вполне реализуемо, соверменные телефоны тому подтверждение, вы совершенно правильно говорите.
И алгоритм работы вы правильно указали — сравнение синтезированного образца с записанным извне.
Алгоритмы, основанные на количественном анализе средних коэффициентов (для каждой области своих, именно для анализа аудиоданных сам не писал, но думаю принцип схожий) замечательно работают на ограниченном наборе эталонных данных, но спотыкаются при попытке разобрать живую речь, даже формализованную.
Необходимо постоянное, динамическое (не изначально жестко заданное) корректирование параметров анализа (коэффициентов, которые для него используются), что очень сложно алгоритмизировать.
Ну в принципе, распознавать речь для управления не обязательно. Основная проблема — миллиарды комбинаций и зависимость от контекста, отсутствует до поры до времени. В компьютер можно занести запись четких команд и распознавание будет идти на основе акустической, а не смысловой похожести. В принципе, голосовое управление примерно так и работает. И тут улучшение можно делать не только в сторону распознавания смысла, но и в сторону умного шумоподавления, чтобы выделять команду из фонового шума, в случае изменения дикции, темпа итд. И в этом направлении какие-то успехи есть.
Конечно, для идеального управления голосом нужно смешивать и выделение речи и ее разбор, но для конкретно управления голосом, достаточно решить только относительно простую задачу шумоподавления (или точнее выделения команды из общего шума)
Почему для этого не использую нейронные сети. Прогнать через такую систему пару сотен терабайт с «субтитрами» для начала а потом и синтаксический разбор устраивать.
Видимо пока нету нейронных сетей достаточного объема
Думаю, причина не одна. Пока нет ресурсов, чтобы сделать нейросеть размером и производительностью как человеческий мозг. Даже хотя бы его «речевой отдел». Ну а за неимением строятся различные упрощенные модели, которые имеют все те недостатки, которые мы видим на данный момент в системах распознавания речи :)
Сделать бы модель хорошую. Пусть будет работать медленно, но качественно. А ресурсы подтянутся.
Боюсь, до того чтобы воссоздать ИНС размером с человеческий мозг, придется долго ждать соответствующих ресурсов ;)
100 миллиардов нейронов в мозге человека, даже если сеть не полносвязная (а это уже ограничения!), а каждый ну хотя бы с миллионом связей, это уже 1017 операций ;)
В том и парадокс, что частоты мозга даже не мегагерцы, он содержит относительно мало нейронов, по крайней мере, создать такой объем памяти довольно легко, но хрен его знает, как он при этом умудряется делать то, что он делает. Вычислительная мощность мозга уступает современным компьютерам, но при этом мозг делает что-то, чего пока понять никто не смог. Сильно подозреваю, что как только (если это случится) это получится понять, и распознавание речи, и ИИ станут повседневными явлениями.
Совершенно верно. Одна из основных проблем распознавания речи в частности и исследований в области искуственного интеллекта в общем в том, что мы еще не до конца разобрались, как работает наш собственный, «натуральный» интеллект. Ведь намного проще что-то воссоздать, когда знаешь точно, как это устроено.
Тут есть одна загогулина: нужно досконально изучить мозг, а это пока сделать невозможно.
Представьте себе что у одного нейрона длина аксона может превышать _1_ метр! Это колоссальный труд.
не бойтесь, это не так страшно. ) это только у нейронов в стволе такие длинные аксоны. их функция сравнима с обычными проводами.
Ну, тем что в мозгу хватит и 20 сантиметров, чтоб связаться с любой другой его точкой…
Хотя и там они вряд ли через весь мозг аксоны тянут.
Для этого нужно для начала придумать такой нейросетевой алгоритм, который сможет из этого вычленить что-то конструктивное. Существующие — не смогут, какой объем сети не ставь.
В целом тут неверный подход «Научим распознавать — научим думать», а должно быть наоборот. Каждый младенец с рождения имеет аппарат для размышлений, но с чистой БД. Во многих подходах в ИИ делают наоборот, создают мощную БД и практически бесполезную думалку. И нейронные сети не панацея, это лишь далёкая модель, которая без обучения сама не способна справиться с новыми данными и, по сути, работает на некоем узнаваемом поле. А вот придумать хорошую «думалку» — пока эта задача не по силам.
Хорошая думалка должна обьединять несколько уровней абстракции, которые акцентируются на различных аспектах речи:
1) Речь выражает мысли — программа должна уметь мыслями оперировать — программа должна уметь оперировать абстрактными понятиями, их взаимосвязями, уметь новые взаимосвязи из уже имеющихся и т.д. Этими задачами занимаются спецы по математической логике, кибернетики и другие математики. Математический аппарат довольно развит, есть и практические реалиции с похожими целями (например, дескриптивные логики).
2) Речь очень выразительна — одно и то же предложение в разных контекстах может выражать совершенно разные мысли, ну а сколькими способами можно выразить одну и ту же мысль… Добавляет сложности то, что контекст меняется постоянно, предметная область может смениться за пару минут полностью, и система должна успевать подстраиваться. Здесь на помощь приходит нечеткая логика, она слаба в построении выводов, но очень гибка по сравнению с четкой логикой.
3) Речь не монотонна (если это не лекция по матану :)) — акцент, посторонний шум, эмоциональное состояние говорящего и прочая мешают узнаванию/пониманию слов. Здесь могут помочь нейросети, они хорошо справляются с распознаванием зашумленного сигнала.

На данный момент встречаются связки четкой логики и нечеткой, нечеткой логики и нейросетей. Создание же полной системы потребуется много профессионалов и денег, которых как обычно ни у кого нет.
И нейронные сети не панацея, это лишь далёкая модель, которая без обучения сама не способна справиться с новыми данными и, по сути, работает на некоем узнаваемом поле.
советую ознакомиться с картами Кохонена
Да читал я, читал. Смысл тот же, есть некая основа, на базе которой сеть обучается. Например, вот цитата: «Изначально известна размерность входных данных, по ней некоторым образом строится первоначальный вариант карты.» Смысл в том, что думалка у человека вообще не знает какая там размерность будет в следующую секунду и оперирует абстракциями так же, как и точными данными. Любая нейронная сеть в данный момент это всё равно некоторое приближение, которое создано для одной цели/задачи. И сеть не может сейчас сама себе поставить новую задачу и достигать её, так как это уже самоосознание. Собственно, нейронная сеть, даже Кохонена, обучается строгое количество итераций, а по достижении приемлемого коэффициента ошибок просто работает, выполняет одну и ту же задачу. Для примера, я не видел ни одной нейронной сети, которая способна одновременно распознавать речь, изображения и выполнять анализ финансовых данных. Потому, что бы смоделировать хотя бы кусочек мозга понадобится миллионы сетей, заточенных под конкретную задачу. Но и всё равно, такой набор не способен делать открытия и исследовать что-либо, сеть всё-таки как конечный автомат, раз за разом выполняет анализ уже известных данных и не способна работать с данными другого типа, тем более неизвестными.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Греемся еще как
Зря вы так думаете. В пересчете на ватты человек греется даже больше :) Не говоря уже о КПД
НЛО прилетело и опубликовало эту надпись здесь
Почему пассивной? просто она жидкостная + дофига мелких испарителей :)
Позволю себе возразить тезису, упомянутому в начале статьи, о том что систему невозможно научить, скормив ей все имеющиеся на данный момент тексты, т.к. в них менее 10570 фраз. Ведь человек тоже обучается на основе услышанных/прочитанных текстов (в основном), и он за свою жизнь читает далеко не все имеющиеся тексты :). Так что в данный момент проблема двоякая: с одной стороны нет вычислительных мощностей, чтобы воссоздать функциональность человеческого мозга, с другой — нет упрощенного алгоритма для воссоздания этой функциональности на имеющихся ресурсах (если это вообще возможно).
Вот эти ребятки как-то научили систему:

единую функциональную грамматику, универсальную для всех языков сделать невозможно, думаю.
для некоторых групп языков — да.
но совместить русский, немецкий, китайский и какое-нибудь наречие африканского племени «большие уши» вряд ли удастся…
На самом деле приведенная картинка несколько противоречит написанному. Там же видно что для «Reading Speech» отличные результаты были получены еще в 90-е (в пределах человеческой ошибки). А в настоящее время борются с «Conversational» и «Meeting» где присутствуют и сленг, и посторонние звуки, и перебить могут на полуслове и мимика имеет значение и еще куча всяких «и», т.е. проблема видимо именно с «расчленением» и как замечено выше «доставкой» звука, а не смысловыми заморочками.

С другой стороны, я думаю, несмотря на то что в 90-е были получены хорошие результаты «распознавания» речи, искусственный интеллект чудесным образом не появился, и интерес спонсоров исследований несколько приуменьшился и соответственно упали финансовые вливания.
НЛО прилетело и опубликовало эту надпись здесь
Приведу вам два классических примера, которые вызывают ступор у большинства иностранцев (из смешных)

Запер замок на замок, чтобы замок не замок.
Нах*я вы эту х*йню нах*ячили, а ну быстро расх*ячивайте нах*й.

НЛО прилетело и опубликовало эту надпись здесь
Возможно речь _шла_ не про слова а про основания.
НЛО прилетело и опубликовало эту надпись здесь
Да чего вы придрались? Что плохого вам сделало слово «хуй»?
НЛО прилетело и опубликовало эту надпись здесь
Так это вы же на этом слове такое внимание акцентируете, будто вам больше не о чем поговорить.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Извините что встреваю: но я понимаю фразу так «Зачем вы это сделали — верните как было». Я пока вижу у предложения только один вариант его трактовки. Действительно слово хуй здесь зависит от контекста и потенциально может иметь множество толкований. Я так понимаю eugenioz хотел услышать нечто другое.
Ниже уже отмечено про поэзию — это с моей точки зрения более сильный пример.
Про fuck ихний аналог тоже завернут не хуже.
А вот покруче — 3 одинаковых, но разных слова: Косил Косой косой косой
можно добавить еще одно слово «косой» в значении «длинная песчаная отмель, идущая клином, грядой от берега»
и в значении прически женской…
Косил Косой косой косой с косой
… на косе %)
— x86 emulation on

> Запер замок на замок, чтобы замок не замок.
Не вижу проблем для распознавания, слова хорошо различимые, словоформ похожих на на «замок» не знаю.

> Нах*я вы эту ху*ню наху*чили, а ну быстро расху*чивайте нах*й.
Здесь скорее всего будет Out-of-Dictionary error. Т.е. вместо «нах*я» будет «на х*я» — найдется знакомый предлог «на» все остальное запишется как слышится. Результат в целом не плохой.

— x86 emulation off

Вы ведь не забывайте, что под «распознаванием» голоса люди, проводящие исследования, понимают преобразование из голоса в текст, а не рисование картинок на тему произнесенных фраз.

«Запер замок на замок, чтобы замок не замок»

Кажется, господин Зеленков Юрий Григорьевич из Яндекса успешно решил эту задачу ещё до 2003 года.
Что вы имеете в виду? Как и что именно он решил?
Была решена проблема различия существительного и глагола в предложениях вида «Стекло стекло на пол»
И которое из стекол здесь глагол? Первое или второе?
А какая разница? Ясно, что одно из этих слов — существительное, другое — глагол. От перестановки эти слов значение предложения не меняется.
А если имелось в виду «стекло! стекло на пол!» (говоря о чем то, что таки переместилось на пол путем течения) или «стекло, стекло на пол [положите]!» (говоря о предмете)

Если на письме это можно различить пунктуацией, то в речи только по контексту
Оба могут, тут даже позиция слова не помогает (как, к примеру, в «весло зацепило платье» / «платье зацепило весло» — 1-е слово подлежащее).
А как насчет фразы «Эти типы стали есть на складе»? Если речь идет о семантическом парсинге.
А давайте придумаем слово кудь(я)
Накудья вы эту кудью накудьячили, а ну быстро раскудьячивайте накудь.
В подобных предложениях само слово не имеет значение — имеет значение только, какой частью речи оно является. Синтаксис предложения определяет смысл, а не само слово.

Как например:
Варкалось. Хливкие шорьки
Пырялись по наве,
И хрюкотали зелюки,
Как мюмзики в мове.

Зерталось. Шорькие хливки.
Ныфрялись по заве.
И зюлькотали хрекотки.
Как люзмики в жрове.

Самое интересное что мы пытаемся у себя в голове создать картину, пользуясь асоциациями, похожестью звуков и синтаксиса.
Например мы точно можем определить, что зерталось, ныфрялись, зюлькотали — глаголы в прошедшем времени, шорькие — прилагательное во множественном числе и т.д. И только из контекста мы можем узнать что в именительном падеже заве — зава, так как есть предлог по.
Еще яркий пример
asiol.livejournal.com/27900.html

когда понимает не только взрослый, но и ребенок.

Помик волит:
— Калуша, а Калушаточки помиковичи?
Калуша разбызила клямсы и волит зюмо-зюмо:
— Куа?
Помик тырснул в бурдысья и из бурдысьев волит:
— Калуша, а Калушаточки помиковичи?
А Калуша как заволит:
— Некузяво, оее, некузяво так волить!
А помик в бурдысьях как забурлыкает: бурлы, бурлы, бурлы.
А Калуша волит:
— Не бурлыкай, бурлак. Калушаточки не помиковичи, а помиковны!
НЛО прилетело и опубликовало эту надпись здесь
в том-то и дело, что суть понятна, но при этом слова для этого текста выдуманы. человек без проблем схватывает суть =)
ВЫ РОБОТ!
«помиковичи» — какое-то корявое псевдослово, какое грамматическое значение у него подразумевалось?

Уж лучше про "глокую куздру" написали бы — там всё однозначно.
Ну уж я тогда то же тыкну Пуськи бятые

Ну а про помиковичи, спросил ребенка, ребенок подумал и сказал Калушаточки не помиковичи, а помиковны! Собственно спорить как бы трудно, да и я придерживаюсь — этой версии :)
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
мозг ошибочен? :)
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Известных слов не нашел (если не считать того, что я раньше это уже читал\слышал), но тем не менее нашел некоторый адекватный смысл. Так же как и в сказках про бутявку :)
НЛО прилетело и опубликовало эту надпись здесь
Ну похоже что именно это и надо.

p.s. к вопросу про язык — русский же :) Даже у незнакомых слов мозг легко определяет части речи, падежи, формы слов и т.п.
НЛО прилетело и опубликовало эту надпись здесь
Я имею ввиду то, что для полноценного распознавания простой речи придется «научить» компы понимать абстрактные образы.
НЛО прилетело и опубликовало эту надпись здесь
еще раз: это одна и та же задача. Неважно, существующий язык, или выдуманный. Тем более, в данных случаях, не язык, а лишь слова выдуманные. А это вообще не имеет значения, т.к. новые слова появляются постоянно, и нет смысла создавать «самый полный глобальный словарь» для распознавания языка.
НЛО прилетело и опубликовало эту надпись здесь
Вы меня сбили предыдущим комментарием. Тут речь не о выдуманных языках, а о выдуманных словах в реальном языке.

А про языки — я не знаю ни французский, ни немецкий — но могу определить эти языки, когда их слышу.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Вы не правы. Чтобы научить полноценно распознавать язык, надо научить распознавать именно такие «выдуманные слова» (не просто бредовый набор букв, а вполне соответствующее языку слово) — какой смысл «распознавания», если будет просто сравнивание с некоторой библиотекой шаблонов?
НЛО прилетело и опубликовало эту надпись здесь
Тогда расскажите нам всем заблуждающимся, каким образом в языке появляются новые слова.
НЛО прилетело и опубликовало эту надпись здесь
Вы не ответили на вопрос: как образуются новые слова в языке (допустим, в русском)? И что же изучает морфология, если слова просто записаны в Самом-Большом-И-Полном-Словаре? В школе, кстати, это проходят, классе в 5 наверно, если не раньше.
Даже сильно упрощая, язык не состоит из набора слов. Есть фонетика, морфология. Предложения не состоят просто из набора слов, должны быть связи между словами.
В вашем понимании языка не существует имен собственных.
А как бтыь с тем, что члеоевк джае вот тиаке фарзы без тудра воспрмаиниет?
вы точно мне отвечали? ) не вижу противоречия с моим комментарием.
PS попробуйте теперь это произнести )
НЛО прилетело и опубликовало эту надпись здесь
В этом ваша проблема. Надо научить машину понимать тот «бред выше».

Про Бармаглота, это мой самый любимый стих, как в оригинале так и в переводе.
Если получится машину осмыслить/понять (как угодно называйте) уловить суть — «этого бреда» — это будет прорыв.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Немного не так. Эта фраза состоит только из однокоренных слов:
— Нахуя дохуя нахуячили — расхуячивайте нахуй!
Вы поэзию почитайте. Вообще любое слово в языке может иметь абсолютно любой смысл. Всё зависит от контекста.
Ну, прямо в словаре вы слово с тысячей значений, конечно, вряд ли найдете. Я думаю, что имелось в виду то, что человек может обыграть любое слово, как ему в голову взбредет, и с большой вероятностью другой человек поймет, что этим хотели сказать. Ну вот как у нас словом «дура» можно назвать абсолютно любую вещь, а в испанском разговорном «tronco» (бревно) — это еще и «приятель». А вот у компьютера с этим проблемы, потому что алгоритмов для образного мышления не существует.
НЛО прилетело и опубликовало эту надпись здесь
Пример слова «фигня» (если не нравится, то «штука»).
Использовать следующим образом для набора необходимого количества значений, указать пальцем на предмет и сказать: «Эта фигня предназначена для ....».
В различном контексте принимает произвольные семантические значения.
НЛО прилетело и опубликовало эту надпись здесь
Угу, таких слов не много, но именно они портят малину ;)
Вот навскидку несколько слов, у каждого из которых точно будет тысяча значений. Ого, ну, штука, вещь, идти. Или взять слово «конец» с сотней значений. Слово вообще сакральное, жаль, некоторые его значения уже потеряны. Вот, например, в словаре Даля приводится поговорка: «Не за то вора били, что воровал, а за то, что концы прятал» — что это значит?

И насчёт поэзии ниже вам правильно намекнули.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Тысяча значений появится тогда, когда захочется определить все объекты, которые соответствуют данному слову. Конечно, нет тысячи значений на естественном языке — т.к. фраза «ручка — удобный выступ для переноски объекта» задает огромное количество вариаций вида и устройства этой самой ручки. Но окажется, что для того, чтобы довести эту фразу до состояния, в котором ее сможет применить компьютер для надежного определения, является ли какой-то конкретный объект ручкой, нам придется таки прописать сотни вариаций.

Я правда не уверен, что в статье такой аргумент был уместен. Все же при распознавании речи мы занимаемся именно распознаванием речи, а не анализом смысла фразы (хотя конечно, с анализом смысла распознавание станет надежнее — но не надо пытаться охватить все сразу).
НЛО прилетело и опубликовало эту надпись здесь
>человеческий мозг тоже не идентифицирует эту «ручку»

Подсознательно — пытается идентифицировать, и если речь идет о чем-то определенном — то таки идентифицирует. Но это уже к распознаванию смысла, а не собственно речи. Решена же несколько другая задача, но в тонкости я бы не стал вдаваться — я не специалист в этой области.
Блин, только вчера начал читать книгу по нейрофизиологии а тут такой облом =(
> Базовые правила функциональной грамматики понятны каждому человеку, но их никак не удаётся формализовать, чтобы стало понятно и компьютеру. А без этого никак.

А зачем компьютеру их понимать??
Большинство человеческих задач обращенных к компьютеру, в конечном итоге выливается в обмен информацией с другими людьми.
Берем распознавалку речи, прикручиваем ее к поисковым мощностям гугла — и вперед, за информацией. Собственно, гугл над этим уже работает.
Собственно, это уже работает — у Гугла в Америке есть телефонный номер, по которому как раз голосом отлично ищутся разные вещи.
> некоторые учёные всю жизнь изучают предлог ПО и не могут до конца раскрыть его тайны
И им по!
Google не выкладывали свой корпус в свободный доступ. Они отдали его в руки консорциума по лингвистическим данным, который требует за него $150. Это только за пачку дисков с данными; еще может отдельно надо платить за использование в коммерческих нуждах.
после таких комментов, захотелось посмотреть «Я робот»
Лучше почитайте.
По моему одна из основных проблем упомянута в посте:
Выбор конкретного значения зависит от контекста, то есть от окружающих слов. В устной речи он ещё зависит от выражения лица или от интонации.

То есть сделать анализ одного из источников данных не достаточно для точного распознавания. Скормить машине анекдот и ждать, что она улыбнётся как бы не умно. Плюс все возможные общие знания и известные факты на которые можно операться, чтобы вызвать какую то эмоциональную оценку, сымитировать манеру и жесты, взгляд, да и вообще обстановку в контексте которой фраза произнесена…

Я даже примерно не могу представить как можно добиться и 80% то процентов успеха. Проще научить людей отдавать команды определённым набором слов и сочетаний с единственно возможным смысловым и эмоциональным значением. Тогда может хватить и того, что уже имеем.
НЛО прилетело и опубликовало эту надпись здесь
>Предполагалось, что когда компьютер научится понимать человеческую речь, мы быстро сможем создать систему искусственного интеллекта

путают причину и следствие. всё в точности до наоборот — без хорошего ИИ нельзя сделать ни ->100% распознавание речи ни ->100% распознавание текста. хотя с последним конечно намного проще даже у наших двоичных друзей.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Жмете на картинку в тексте, видите список статей.
Я смотрел www.itl.nist.gov/iad/mig/tests/rt/ASRhistory/pdf/bnews97_tests.pdf

Что имеем: для испанского — 30 часов аудиозаписей новостей и 25% ошибок на тестах. мандаринский (или как он правильно по-русски) вроде бы посложней оказался — 30% ошибок после 30 часов обучения. имхо за 30 часов человеку сложновато будет переварить незнакомый язык в такой степени.
и обратите внимание, все это происходило в лохматом 97 году
интересно, а нет ли в паблике стстистики ошибок по ютубовской распознавалке?

(кстати, обучать подобные системы на субтитрах, коих скопилось уже over 9000, должно быть довольно удобно)
((но опять припрется какоенить РАО или RIAA и будет съедать всем моск))
Может начинать надо было с генерирования речи, в том числе отражающую оттенки эмоций (состояний). Иными словами вывести более совершенный синтезатор, а потом уже наоборот, перевод из звука в некий параметрический вид. Стоит отметить тот факт, что человек способен настраиваться на речь избирая лишь нужную информацию.

А вот компьютерным системам распознавания речи которыми я пользовался желательно иметь полную тишину, вводить данные с правильной дикцией (ещё и с настройкой) и так далее. По поводу того, что написали в комментариях про ИИ, мне видится задача хотя бы в простом восприятии текста. Перевод звук в текст без осмысления и прочего.
Синтезировать тоже сложно, потому что в лингвистике есть такое понятие «смысловое ударение» для фразы или предложения. То есть чтобы правильное интонационное ударение поставить, надо понять смысл текста.
> Язык необходимо формализовать в рамках единой функциональной грамматики, универсальной для всех языков, и без серьёзной помощи лингвистов тут не обойтись, если задача вообще решаема.

Ха! Это же «теорема Ферма» лингвистов: не получается создать такую вот общую модель, и притом очень давно не получается. Есть масса вариантов, и каждый чем-то плох, чтобы занять место «таблицы Менделеева» от лингвистики.

Вот откуда надо начинать.
>Предполагалось, что когда компьютер научится понимать человеческую речь, мы быстро сможем создать систему искусственного интеллекта.

Кем это предполагалось? Учеными, или все-таки писателями-фантастами, и различного рода журналистами пишущими на научпоп-темы?

Напрягают просто такие заявления — когда делают говорящую механическую куклу, и называют это прорывом в области создания ИИ… Словом, когда формой пытаются «подменить» содержание — это зло.

А компьютер пока что ничего не может _понимать_. Ни человеческую речь, ни человеческий текст, ничего. Всё что он может сейчас (и полагаю, в будущем) — воспринимать информацию, обрабатывать её, и выдавать результат обработки.
Если учесть, как работает у человека распознавание речи, то масштаб трагедии станет ещё очевиднее. Потому что распознавание речи исключительно в виде потока акустических сигналов у человека тоже не блещет. Но качество распознавания сильно улучшается, если человек не просто слышит речь, но и видит лицо говорящего. И ещё сильнее улучшается, когда наблюдает жестикуляцию говорящего. Вот тут распознавание и доходит почти до 100%. Пруфлинк (pdf, английский)

Речь — это не просто язык и тем более не просто поток акустических сигналов. И распознавание её зависит не только от знания синтаксиса и грамматики. Сейчас нейрофизиологи изучают связь понимания речи с сенсо-моторикой. И полученные результаты говорят о том, что надо перестраивать старые модели. Когда нам это удастся, можно будет уже с новыми моделями вернуться к проблеме компьютерного распознавания.
Вам очень трудно распознавать речь говорящего по телефону?
Видимо, комментатор хотел сказать о смысловой нагрузке речи, а не о содержании ее в виде слов.
Нет, это как раз о распознавании отдельных слов и даже фонем. В экспериментах, например, проверяли, насколько человек способен отличить «ба» от «га» и «да» только на слух.
Люди ведь общаются не в режиме «отправил 000101», «получил 010010».
При «живом» разговоре информации передается гораздо больше, чем при переписке или удаленном разговоре по телефону. Можно передавать и улавливать мельчайшие оттенки скрытых смыслов, за счет мимики, и прочей невербалики. Разные люди по-разному этим владеют, но думаю в ситуации, когда надо «понять», а не «принять», вы тоже предпочтете живое общение.
по телефону часто приходится переспрашивать.
Если слушать песни — в 80% русских я не могу разобрать о чем там речь, про иностранные вообще говорить не стоит, там все еще хуже. Воспринимаю речь просто как инструмент очередной, только на уровне интонаций.
И это учитывая что я-то человек, а компьютеру как?
Гораздо труднее, чем вживую. Особенно, если я с этим человеком не знакома.
Очень трудно, особенно когда звонишь с мобильника на мобильник в другом городе. Или когда на другой стороне включена громкая связь. Если качество связи хоть немного ухудшается и начинаются потери пакетов- все, сушите весла.
Только мне на лицо очевидная подмена понятий? В статье умудрились пересечься «звуки» и процесс осознавания машиной того, что я говорю. Ну я могу напечатать ей то же предложение, и? Она от этого лучше будет понимать фразу «эй, железный, сваргань ка мне чаечку»?

Есть две совершенно разные задачи:
1. Перевода звука в текст. И здесь фонем и «акустического сигнала» все же скорее достаточно, чем нет. Выше по тексту отличный пример с «косил косой косой косой». Задача и не требует осознания что там значат эти три косых подряд. Ну произнесли их, и хорошо. Есть мнение, что это задача без пункта 2 имеет крайне ограниченное применение. Поэтому порог в 80% — это очень здорово. Больше пока просто не надо: не отобьется.
2. Ассоциативное восприятие текста вне предметной области конкретной машины. Именно текста. Какие фонемы, какой акустический сигнал? А вот тут все очень плохо. И здесь 80% — это мечта любого фантаста. Если в 8 случаях из 10 машина будет понимать, что я говорю… черт, я повторю 2 раза, которые она меня не поймет. Даже перефразирую.

Короче начали за здравие, кончили за упокой. Желтизна.
Хотя если подумать, порог в 80% прямого восприятия может вполне быть и у человека, его ж в чистом виде не измерить. Кто знает сколько мозг утеряной при передаче информации восстанавливает из контекста? Тогда решение второй задачи поможет решению первой. Но тем не менее: идея восприятия машиной речи скорее все же сводится к тексту. Мы вот друг-друга читаем и понимаем: при таком виде взаимодействия «транспортные потери» минимальны. А мимики, etc нет (смайлы не в счет ;). И ничего, понимаем.
> Спустя несколько десятилетий они поняли, что человеческая речь — не просто набор звуков и акустический сигнал просто не несёт достаточно информации для распознавания текста.

Полагаю слова при известном языке и, особенно, предметной области, распознавать не так уж трудно.

Другое дело смысл. Интерпретировать эмоциональную составляющую, отношение, по тексту точно невозможно. Вместо субъект-субъектной коммуникации работает практически исключительно воображение и клише. По-этому категорически избегаю с подругами чатиться, общаюсь только лично, ато несколько раз получались кровные обиды на пустом месте.
такое ощущение, что не стой стороны подходим…
Да это не мы подходим. Это автор пытается в очередной раз атаковать теорию ИИ с помощью сомнительной аргументации, замкнутой на себя. Лавры Курцвейла и компании не дают покоя. Люди опробовали один подход, не получилось — пробуют другой. И тем временем вокруг них всегда находятся кликуши, причитающие «да ничего у тебя не выйдет». Проходили, знаем.
В самом первом абзаце автор почему-то путает задачи распознавания речи (преобразования звука в текст для дальнейшей обработки) и понимания информации искусственным интеллектом. Для решения последней задачи, кстати, вовсе не обязательно решать первую — многочисленные текстовые боты тому пример. Конечно, для обеих этих задач могут пригодиться одни и те же средства — нейросети, мощное железо, генетические алгоритмы и т. д., но это не повод считать их одной и тем более делать далеко идущие выводы на основе только лишь того, что конкретный подход к решению задачи уперся в бутылочное горлышко.

Я представляю себе эту проблему так, что говорящий по ходу речи вносит в нее настолько сильные искажения, что слушатель реконструирует искаженные звуки и общий смысл на основе накопленного языкового контекста из миллионов услышанных примеров. Грубо говоря, если сравнивать с OCR — речь это очень сильно искаженная «капча», для распознавания которой нужно долго и нудно обучать нейросеть. Но через тысячи дней обучения на миллионах (не миллиардах) звучащих слов миллиарды реальных нейронов формируют полноценный естественный человеческий интеллект. То есть в конечном итоге эта задача может быть решена через сильный ИИ — разумеется, когда будет построено соответствующего уровня железо, способное к обучению. Это как минимум 2029 год. (ИИ-скептики с аргументацией типа «ИИ не удалось построить за 40 лет, значит он не будет построен никогда» просто забавляют. Зачастую такие люди слабо понимают матчасть и/или имеют какие-то предубеждения насчет природы разума.)

Таким образом, если мы обнаружили, что информация, которую мы пытаемся распознать, накрепко завязана на контекст из прошедшей через наш мозг обучающей информации подобного типа в виде сырых звуковых данных — наша задача организовать систему сбора таких обучающих данных в эффективных масштабах. То есть — некое подобие Google Translate с примерами звучащих множеством голосов предложений, разбитых на слова, разбитые в свою очередь на звуки. И вот тогда бутылочное горлышко недостатка контекстной информации будет преодолено. Это как с машинным переводом и вообще нейросетями — если не получается формализовать все правила, нужно запустить обучение на примерах.
Вот скажем житель Москвы (другого города с московским говором) оказывается где-нибудь в сибири, после чего пытается пообщаться с бабусей местного пошива. Каков будет итог их общения — очень невысокий порог узнавания слов, хотя язык-то вроде один.
ща в прокате кинцо «бобро пожаловать» — как раз иллюстрирует эту ситуацию.

P.S.: Рекомендую всем, кстати. Милая лёгкая французская комедь.
а меня волнует формат данных на котором объекты реального мира отражаются в нейронных сетях
надо придумать новый международный язык таким образом, чтобы он нормально автоматически мог распознаваться, всего-то делов)
++++++++++[->+++++++>++++++++++>+++++++++++>
+++++++++++>++++>+++>+++++++++>+++++++++++>+
+++++++++>++++++.
Простите, имелось ввиду это:

++++++++++[>+++++++>++++++++++>+++>+<<<<-]>++
.>+.+++++++..+++.>++.<<+++++++++++++++.>.+++.
------.--------.>+.>.

:)
Такой язык уже придуман. Поищите по слову lojban
Вы, наверное, имеете в виду Ложбан.
Он тем и отличается, что в нём отсутствуют неоднозначности и исключения, и он может быть легко проанализирован компьютером.

Но, мне кажется, что это — дурной тон, подстраиваться под компьтеры, они должны подстраиваться под нас.

В мире огромное количество прекрасных языков, на которых написано огромное количество прекрасной литературы. Которая, на моё мнение, не будет звучать так же прекрасно на одном из «универсальных» языков. И, если Эсперанто еще похож на человеческий язык, то Ложбан — похож больше на код.

Будет ли эта цитата из «A Tale of Two Cities» звучать так же зазывающе на любом, кроме английского, языке?
It was the best of times, it was the worst of times, it was the age of wisdom, it was the age of foolishness, it was the epoch of belief, it was the epoch of incredulity, it was the season of Light, it was the season of Darkness, it was the spring of hope, it was the winter of despair, we had everything before us, we had nothing before us, we were all going direct to heaven, we were all going direct the other way — in short, the period was so far like the present period, that some of its noisiest authorities insisted on its being received, for good or for evil, in the superlative degree of comparison only.

Она даже на русском звучит не так.
Неверно, что в ложбане совсем уж отсутствуют неоднозначности. Например, как отмечается в 4-й главе «Грамматики ложбана», «значение танру обычно по меньшей мере отчасти неоднозначно…».

Я не думаю, что попытки добиться от языка регулярности — это обязательно подстройка под компьютеры; ведь они гораздо старше любых компьютеров. Изобретение письма и формализация грамматик, ведь, естественные языки не сгубили?
Акустический сигнал не несёт достаточно информации для распознавания текста

Разве это мешает нам разговаривать по телефону?
непонятно о чем статья — о распознавании речи или о понимании сказанного? если требуется только перевести в электронный вид сказанные слова то причем тут изучение морфем, количество возможных смыслов предложения и т.п., а если требуется понимание компьютером сказанного, то это уже относится к процессу мышления и почему тогда статья названа «распознавание речи»?
О том, что для распознавания речи нужно её понимать, иначе плохо получается.
НЛО прилетело и опубликовало эту надпись здесь
Интересно а искусственные языки распознавать проще? (Эсперанто например)
Pascal ваще запросто :)
Ложбан — очень просто, в сравнении с настоящими языками.
Тут так много сказано про человеческий мозг, что и я решил вставить свои 5 копеек. По образованию я социолог, но тематику мозга мы иногда затрагивали на лекциях.

Начну пожалуй с того, что с точки зрения эволюции можно заявить, что мозг довольно не оправданный орган — жрет много энергии, реально много лишнего функционала, который не способствует выживанию. Да, для стандартных животных рефлексов достаточно меньшего мозга при маленьких энергозатратах. Отсюда и берется лень — надо же как-то энергию экономить.

Второе, мозг при рождение человека более пустой, чем мозг животного. Да у нас есть пару безусловных рефлексов, но мозг животного более запрограмированный. Снежному барсу рожденному в Африке будет на порядок сложнее выжить, чем если бы он родился в родных условиях. Животные приспосабливаются поколениями, занимают свои ареалы и стараются за их зону не выходить — выход чреват смертью.

Это же дает фору человеку, потому что мозг человека более обучаемый, в связи с тем, что он пуст при рождении — его можно наполнить как угодно и где бы человек не родился при должном воспитании и при отсутствии физических дефектов он выживет в любой среде. Этим же частично объясняется наше долгое подростание.

Веду я все это к тому, что мозг можно научить всему, что угодно, годы тренировок с самого детства позволят человеку производить быстрые операции сравнимые со скоростью компьютера. Но не это главное.

Суть в том, что если мы хотим научить компьютер тому же, что умеем мы нужно действовать по аналогии. Не нужно писать готовое решение, нужно научить компьютер самому его найти. Нужно научить компьютер учится. Пусть он сам сформирует словарь — у него это точно быстрее получится, чем у человека. Не надо будет вводить это все за него — он сам справится. Нужно создать общую методологию языка, создать парадигму, которая обобщит лингвистику.

Другое дело, что это открывает другие проблемы — искусственный интеллект и не факт, что современная комп архитектура с этим может справится. Но мир же не стоит на месте, варианты думаю другие существуют?
и ещё может появиться проблема, что не будет двух абсолютно одинаковых компьютеров :)
а какие есть решения для распознавания фразы на русском языке: «дрочить нельзя работать»
?
Здрасте, кто доказал что возможно построить единую функциональную грамматику, универсальной для всех языков?
На подобном когда-то Лаплас прогорел. Он считал, что если ему дать информацию обо всех объектах во Вселенной, то он сможет посчитать совершенно точно состояние Вселенной в любой момент времени. Но квантовая механика и принцип неопределенности поставили крест на его детерменизме.
Витгенштейн, изучая отношение языка и мира, чуть умом не тронулся (если можно так говорить о философах), а уже потом породил лингвистическую философию.
А у меня гуглофон наговоренное моим жутким акцентом английское предложение в sms неплохо вводит… Где же правда.
> Google выложил 24-гигабайтный архив с текстами во всеобщий доступ и прекратил дальнейшие публикации по этой теме

сурово…
Но при этом Youtube умеет по голосу делать сабтайтлы, да и Google Voice работает неплохо.
ютубовские сабтайтлы удивительные перлы выдают =) грамматически слова связаны между собой, но текст будто списан с монолога страдающего шизофазией =)
НЛО прилетело и опубликовало эту надпись здесь
еще есть такая вещь как абсолютно одинаково звучащие выражения, но при этом и пищущиеся по-разному и смысл имеющие разный. К сожалению в русском, как родном, мне сложно привести пример, поскольку я над ним не задумываюсь.

Но вот пример испанского — «Ha sido» звучит абсолютно одинаково как и «Has ido», причем в первом случае это глагол «быть» в прошедшем третьего лица единственного числа, а во-втором — глагол «идти» во втором лице единственного числа. Понятно о чем собственно речь только из контекста, даже если исключить здесь всяческие помехи в произношении, а также анализ сказанного — как распознает компьютер это «асидо»?, чтобы, например, в текстовом редакторе напечатать?
— А в цеху его нет?
— Овцехуев у нас не работает.
Как я вижу создание ИИ.
Язык и другие элементы человек учит, а не получает с рождения.
Нужно выделить то, что человек имеет уже с рождение. Это рефлексы, память, возможность произносить звуки и т.д.
Нужно сделать робота, способного учиться как человек, и тогда будет результат.
Бррр. Столько мнений.
К оригиналу статьи идут довольно грамотные комментарии специалистов. В статье похоже сделали некорректные выводы. К примеру, системы голосовых команд оценивались на тестах для распознавания связной речи. Получались грустные результаты. Но ведь эти системы и не предназначены для этого.

Так что все далеко не так плохо.
А база в Google похоже таки не зря у них лежала. Распознавание речи уже есть и работает. Все-таки сверточные ИНС — реальная сила.

Понятно, что голосовой поиск на Android реализован именно на гигантской семантической базе Google. Но он все-таки работает лучше и точнее, чем любые отдельные системы под персоналки. И, да, сам факт существования голосового поиска во-многом опровергает пессимистический характер статьи.

Довольно уверенно компьютеры учатся делать то, что до их существования умел делать только человек, распознавание речи — сложная задача, но очевидно будет решена с приемлемым качеством, причем надеюсь в ближайшее время.
В компании «Брейнсофт» в группе «Айноу» разработана технология «Мента Лоджи», которая умеет парсить русский язык с точностью 99,9%.

Продукт коммерческий.
… Но смыслы продукт использует только из заранее подготовленной базы из 10к слов, а предложения для анализа принимает только из тестового корпуса?
Для технического сайта количество слов ограничено. Можем демонстрировать анализ любого наперёд заданного текста. Только сообщите об этом и мы откроем закрытые слова.
На сайте «Айноу» отрабатывается прототип смыслового анализатора. Смысловой анализ пока не может делать ни одна компания в мире.
И вот, 2018 год, сверточные нейросети, Apple HomePod, все дела

Все как-то по другому выглядит :)

Публикации

Истории