Открыть список
Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Универсальный грамматический анализатор естественных языков с нуля. Выпуск 1

Компиляторы
Компиляторы, интерпретаторы… Сколько им посвещено книг и проектов! Баста, надоело! А вот сунешся в область анализа естественных языков, и никакой информации! А все что есть как-то очень сложно, непонятно и не универсально. Была у меня идея создать средневековую лингвистическую новеллу. Чтобы можно было разговаривать с персонажами на каком нибудь древнем естественном или вымышленном языке. На Латыни например? И на Квенья. И чтобы они понимали. А почему бы и нет?
Читать дальше →
Всего голосов 41: ↑37 и ↓4 +33
Просмотры12.2K
Комментарии 5

Как работает нейронный машинный перевод?

Блог компании LokaliseСемантикаАлгоритмыМашинное обучение
Перевод

Описание процессов машинного перевода основанного на базе правил (Rule-Based), машинного перевода на базе фраз (Phrase-Based) и нейронного перевода


image

В этой публикации нашего цикла step-by-step статей мы объясним, как работает нейронный машинный перевод и сравним его с другими методами: технологией перевода на базе правил и технологией фреймового перевода (PBMT, наиболее популярным подмножеством которого является статистический машинный перевод — SMT).

Результаты исследования, полученные Neural Machine Translation, удивительны в части того, что касается расшифровки нейросети. Создается впечатление, что сеть на самом деле «понимает» предложение, когда переводит его. В этой статье мы разберем вопрос семантического подхода, который используют нейронные сети для перевода.

Давайте начнем с того, что рассмотрим методы работы всех трех технологий на различных этапах процесса перевода, а также методы, которые используются в каждом из случаев. Далее мы познакомимся с некоторыми примерами и сравним, что каждая из технологий делает для того, чтобы выдать максимально правильный перевод.
Читать дальше →
Всего голосов 27: ↑26 и ↓1 +25
Просмотры15K
Комментарии 8

Синтаксический анализ в NLTK

Python
Здравствуйте. Это статья об синтаксическом анализе предложений, их представлении. Для разбора предложений будет использоваться пакет NLTK и язык программирования Python (версии 2.7).

Вступление


В моей предыдущей статье мы рассматривали морфологические анализаторы и их использование. Настоятельно рекомендую прочитать её, чтобы лучше понять данную статью. Также там рассматривается установка и настройка пакета NLTK.
Читать дальше →
Всего голосов 14: ↑14 и ↓0 +14
Просмотры14.3K
Комментарии 1

Новогодний датасет: открытая семантика русского языка

Открытые данные
Новый год — время чудес и подарков. Главным чудом, которое подарила нам природа, безусловно является естественный язык и человеческая речь. А мы, в свою очередь, хотим сделать новогодний подарок всем исследователям этого феномена и поделиться датасетом по открытой семантике русского языка.

В статье мы позволим себе немного подискутировать на тему смыслов, расскажем как мы пришли к необходимости создания открытой семантической разметки, расскажем о настоящих результатах и будущих направлениях этой большой работы. И, конечно, дадим ссылку на датасет, который вы сможете скачать и использовать для своих экспериментов и исследований.
Читать дальше →
Всего голосов 26: ↑25 и ↓1 +24
Просмотры7.6K
Комментарии 8

Изучение иностранного языка: коллекция заблуждений

Научно-популярноеИзучение языков
Как выучить иностранный язык? Почти все сталкивались с изучением иностранного языка в своей жизни: в школе, в вузе, кто-то ходил на курсы, занимался с репетитором или пытался изучать самостоятельно. Пытались все, но получилось далеко не у всех. Почему?

Чтобы ответить на этот вопрос, нужно понять, что мы делаем «не так». Проблема, на мой взгляд, заключается в так называемой «народной лингводидактике», которая построена на распространённых ошибочных представлениях о том, что такое язык, как он работает и как его нужно изучать. Эти заблуждения распространены как среди тех, кто изучает, так и среди тех, кто учит.

Давайте рассмотрим наиболее заметные заблуждения и разберёмся, почему они ошибочны и как они мешают нам учить язык.
Читать дальше →
Всего голосов 43: ↑34 и ↓9 +25
Просмотры54.6K
Комментарии 81

Небольшая игра на анализ текста

Логические игры
Здравствуйте, Хабровчане!

Понадобилось мне записать пару паролей на бумажке, а как мы знаем, пароль на бумажке — это транспарант «вход здесь», поэтому я решил как-то их зашифровать, чтобы их нельзя было прочитать просто так, но в тоже время я сам мог их легко и быстро набрать. Сначала я думал просто их зашифровать методом Цезаря, но мне показалось это слишком простым и я решил найти способ шифровки «на лету», в итоге я перешел от шифрования к подчерку врачей стенографии, а оттуда уже… а оттуда уже меня затянуло в придумывание собственной системы записи. Кусочки текста маленькие, но мне кажется проблем не возникнет, если понадобится, пришлю больший по объему текст.
Читать дальше →
Всего голосов 8: ↑5 и ↓3 +2
Просмотры2.5K
Комментарии 1

Учёные установили: у людей, которые умело матерятся, богаче словарный запас

Научно-популярное
Если кто-то упрекает вас, что ругаться матом некрасиво, можете смело возразить — наука на нашей стороне. Новое исследование британских американских учёных выявило, что люди с хорошим набором ругательств скорее имеют богатый словарный запас, чем вежливые люди без набора ругательств.

Другими словами, если вы знаете много разнообразных ругательств, то вы, скорее всего, умный и интеллектуально развитый человек.

Результаты исследования противоречат распространённому заблуждению, что человек ругается тогда, когда не может подобрать слов, чтобы выразить своё мнение.
Читать дальше →
Всего голосов 29: ↑18 и ↓11 +7
Просмотры35.5K
Комментарии 24

Программа пишет политические речи

СофтИскусственный интеллект
Многие замечали, что речи политиков имеют довольно стандартный формат, они похожи друг на друга. Нужно несколько раз повторить основные тезисы, используя стандартные формулировки. Такое впечатление, что есть алгоритм, который задаёт структуру таких речей.

В связи с этим возникает вопрос: может ли компьютер генерировать подобные тексты самостоятельно?

Валентин Кассарниг (Valentin Kassarnig) из университета Массачусетса доказал, что такое возможно. Он опубликовал программу (репозиторий на гитхабе), которая делает именно это: генерирует политические речи, удивительно похожие на настоящие. Подробнее о генераторе политических текстов автор рассказывает в научной статье.
Читать дальше →
Всего голосов 14: ↑12 и ↓2 +10
Просмотры12K
Комментарии 21

Определено новое универсальное выражение лица, понятное всем людям на Земле

Научно-популярноеМозг

Визуальные маркеры, соответствующие негативной моральной оценке: гнев (A), отвращение (B), презрение (С), а также комбинация маркеров этих трёх эмоций (D) — выражение "Not Face" («Не-а»)

Мимика играет важную роль в человеческой коммуникации, без слов передавая собеседнику информацию о конкретных эмоциях: радость, удивление, презрение и т.д.

Многие выражения лиц понятны всем людям на Земле, независимо от культуры и расы: улыбка есть улыбка в любом уголке Земли. Теперь же американские учёные из университета штата Огайо впервые экспериментально доказали существование выражения лица, которое заменяет конкретную словесную фразу из любого языка на планете. Выражение "Not Face" сочетает визуальные маркеры трёх известных эмоций: гнев, отвращение и презрение. Это сведённые брови (код AU 4 в лицевой морфологии), поднятый подбородок (AU 17), сжатые губы (AU 24) и напряжение одного или двух уголков губ за счёт щёчной мышцы (AU 14). В совокупности такое универсальное выражение заменяет фразу «Нет, я не согласен» или, кратко, междометие «Не-а» (Nope).
Читать дальше →
Всего голосов 12: ↑7 и ↓5 +2
Просмотры7.5K
Комментарии 20

Небольшая доза алкоголя действительно улучшает навыки владения иностранным языком

Научно-популярноеМозгХимия
Группа голландских, британских и немецких специалистов по психофармакологии опубликовала научную статью, в которой прояснили некоторые аспекты влияния на высшую нервную деятельность отравления малыми дозами алкоголя.

Наука достаточно хорошо изучила отрицательные эффекты влияния алкоголя на мозг. Исследования показали, что ядовитое вещество подавляет разные аспекты когнитивной функциональности, в том числе самоконтроль, рабочую память и способность переключаться между задачами (многозадачность). Все эти способности крайне необходимы для эффективного восприятия, обработки и воспроизведения речи. Из этого можно сделать вывод, что пьяный человек будет хуже понимать речь и хуже говорить. Это косвенно подтвердили тесты на фонетическую беглость (способность генерировать слова, который начинаются с определённой буквы).

В новой работе учёные поставили задачу исследовать, как употребление алкоголя влияет на способность говорить на иностранном языке (субъективно и объективно) у людей, которые владеют несколькими языками.
Читать дальше →
Всего голосов 15: ↑14 и ↓1 +13
Просмотры18.9K
Комментарии 26

Взламывая коды языка «Аватара»

Научно-популярноеНаучная фантастика
Перевод


Одним жарким четвергом в июле 2013 года я встретился с долговязым молодым человеком на станции Юнион в г. Вашингтон, О.К. Он вёл себя энергично и немного нервно; пожав мне руку, он торопливо провёл меня к серебристому седану, за рулём которого сидела его подруга Сара. И хотя он представился, как Иен Райли, в следующие пять дней он был для меня Фтиафпи. Фтиафпи, что означает «ради изучения» – это его имя на языке На’ви, специально разработанном для эпического фильма Джеймса Камерона 2009 года, «Аватар».

Иен и Сара везли меня на AvatarMeet, ежегодное собрание фанатов и говорящих на На’ви, проходящее в обширных лесах национального парка Шенандоа в Виргинии. По мере нашего приближения к месту сбора пейзаж становился зеленее, городских голубей заменяли орлы, а дорожные знаки всё больше указывали на водопады и фермы вместо шоссе. Чем ближе мы подъезжали, тем сильнее Сара раздражалась из-за дорожного движения, а Райли на переднем сиденье выказывал всё больше признаков волнения из-за предвкушения встречи. Надпись на напечатанной на заказ футболке Райли гласила «Oeru syaw fko Ftiafpi», что на На’ви означает «Меня зовут Фтиафпи». Это была его первая встреча за два года, как сообщил он, потянувшись и тронув Сару за плечо. «И у Сары это первый раз», сказал он, сияя, в то время как она терпеливо убрала его руку и сосредоточилась на дороге.
Читать дальше →
Всего голосов 30: ↑27 и ↓3 +24
Просмотры12.4K
Комментарии 46

Располагает ли китайский язык к суевериям?

МозгИзучение языков
Перевод

Как двусмысленность в языке может привести к появлению уникальных табу




Каждый год больше миллиарда человек по всему миру празднуют Китайский новый год и занимаются незаметными лингвистическими танцами с удачей. Их можно представить себе в виде набора праздничных ритуалов, напоминающих ухаживание. Чтобы привлечь удачу в их жизни, они могут украшать дома и двери бумажными вырезками счастливых слов или фраз. Люди, которым нужно подстричься, стремятся сделать это до Нового года, поскольку слово «волосы» (фа) звучит похоже на слово «процветание» – а кому надо отрезать процветание, если даже вам надо просто подровнять? В праздничном меню часто присутствуют рыба, поскольку её название (ю) звучит, как слово «излишек»; водоросли фэт чой, поскольку на кантонском диалекте это звучит как «богатей»; апельсины, поскольку в определённых регионах их название звучит, как «удача».

Англоязычные [и русскоязычные] читатели способны оценить хорошую игру слов, и обыгрывание омофонов (слов, звучащих одинаково, но имеющих разное значение) – один из приёмов создания хорошей рекламы. Но китайские традиции возводят игру слов на новый уровень – такой, который глубоко уходит в корни культуры, в которой удачи упорно добиваются при помощи позитивных слов и дел, а неудачу отталкивают, устраняя негативное. Число «четыре» запятнано омофонией со словом «смерть» – многие китайцы никогда не купят дом с адресом, содержащим 4. В графическом дизайне часто встречаются рыбы и летучие мыши, потому что они звучат так же, как слова «изобилие» и «удача». Традиции дарения подарков преисполнены омофонных табу; можно дарить яблоки, потому что они звучат, как «мир», но не груши, потому что их название похоже на «разлуку». То, почему определённые объекты или числа считаются счастливыми или несчастливыми часто объясняется как само собой разумеющееся явление, происходящего из-за похожим образом звучащих слов.
Читать дальше →
Всего голосов 30: ↑28 и ↓2 +26
Просмотры9.5K
Комментарии 20

Программист на всю голову: как кодинг влияет на мышление

Блог компании Binary DistrictПрограммированиеИзучение языков
Научиться программировать — значит не только развить полезный навык, но и приобрести особый тип мышления. Программисты умеют хорошо решать математические и логические задачи. Также они обращают внимание на детали, моделируют ситуации в обычной жизни и дают оценку на основе большого количества факторов.



В преддверии нашего курса Go Workshop рассказываем, что психологи, лингвисты и педагоги думают о влиянии кодинга на мозг, при чем тут австралийские индейцы и гипотеза Сепира-Уорфа.
Читать дальше →
Всего голосов 25: ↑20 и ↓5 +15
Просмотры59.1K
Комментарии 258

Ноам Хомский: где искусственный интеллект пошел не туда?

Машинное обучениеЧитальный залИстория ITНаучно-популярноеИскусственный интеллект
Перевод
Комментарий переводчика: Подробное интервью с легендарным лингвистом, вышедшее 6 лет назад, но ничуть не утратившее своей актуальности. Ноам Хомский —  «современный Эйнштейн», как его называют, делится своими соображениями об устройстве человеческого мышления и языка, искусственном интеллекте, состоянии современных наук. На днях ему исполнилось 90 лет, и это кажется достаточным поводом для публикации статьи. Интервью ведет молодой учёный-когнитивист Ярден Кац, он сам прекрасно разбирается в предмете, поэтому беседа очень содержательна, а вопросы столь же интересны, как и ответы.

Читать дальше →
Всего голосов 51: ↑50 и ↓1 +49
Просмотры50.5K
Комментарии 48

Новогодний датасет 2018: открытая семантика русского языка

Открытые данныеМашинное обучениеNatural Language Processing
Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.


Читать дальше →
Всего голосов 32: ↑32 и ↓0 +32
Просмотры7.5K
Комментарии 27

Тайны сознания и математика

Математика
В Древнем Египте математики не пользовались доказательствами. Все их утверждения были лишь эмпирически обоснованы. Но тем не менее, пирамиды стояли, а самолеты летали. И, наверное, никто бы и не требовал строгих доказательств, если бы не желание что-то опровергнуть. Вместе с греками математика обрела новую жизнь, в которой появились такие задачи, как квадратура круга, иррациональность корня из двух и задача о трисекции угла. С этого момента потребовались аксиомы, законы логики и теоремы. Современную же математику интересует еще и то, что возможно доказать, а что — нет. Продвижением стали теоремы Геделя о неполноте, формализация логики и Теория доказательств. Я предлагаю теорию и одну аксиому, которая поможет ответить на часть оставшихся вопросов и обозначить границы нашего сознания. В частности, это вопросы полноты, проблема равенства и аксиоматизация нашего воображения.

Читать дальше →
Всего голосов 36: ↑27 и ↓9 +18
Просмотры9.7K
Комментарии 17

Как создаются новые слова в современном английском языке

Блог компании EnglishDomИзучение языков
Во второй половине ХХ века мировые языки стали активно пополняться новыми словами. Благодаря активному развитию технологий и глобализации появилось большое количество новых приспособлений, понятий, профессий.

Лингвисты утверждают, что словарь английского языка ежегодно пополняется на 15-20 тысяч лексических единиц. В 1987 году издательским домом Penguin Random House проводилось масштабное исследование английской лексики. Исследователи установили, что за 20 лет появилось более 50 000 абсолютно новых лексических единиц, а значение 210 000 слов должно быть пересмотрено или дополнено.

Сегодня процессы изменения и дополнения лексики английского языка идут еще быстрее. Благодаря интернету любые удачные неологизмы мгновенно входят в лексикон сотен тысяч людей.

Мы разберем основные принципы, как именно создаются неологизмы в английском.
Читать дальше →
Всего голосов 27: ↑22 и ↓5 +17
Просмотры6.5K
Комментарии 6

Уроки украинского

Изучение языков
Не бросайте чтение, будет не про политику. Язык, как он есть. Краткие заметки для быстрого начала понимания украинского, ну и в конце немного программирования, чтобы уж не совсем оффтоп.

Несколько замечательных особенностей украинского языка.

1. Звательный падеж.

Эта милая сердцу категория была в общем прародителе всех славянских языков, но сейчас осталась рудиментарно. Хотя она и понятна носителю современного русского, возьмите обращение «Друже!». Звательный падеж знаком нам из Библии («Отче наш!», «Врачу, исцелися сам!»), что неудивительно, так как церковнославянский — солунский диалект староболгарского.
Примеры:
Читать дальше →
Всего голосов 326: ↑285 и ↓41 +244
Просмотры85.2K
Комментарии 1851

Блеск и нищета переводной литературы

Блог компании ITSummaПрофессиональная литератураDIY или Сделай сам


— Лучше вообще не читать, чем такое.

Часто ли вы читаете техническую литературу? Именно литературу, а не мануалы на хабре или багрепорты на гитхабе? А когда читаете, на каком языке предпочитаете это делать (если есть возможность выбирать, конечно)? Какую версию предпочтёте, русскоязычную или англоязычный оригинал?

В некоторых кругах бытует отдающее снобизмом и элитаризмом мнение, что читать (смотреть кино, играть в игры) стоит только на языке Шекспира и никак иначе. Многим же другим довольно сложно проверить первых на тему того, просто ли они зазнаются или с переводной тех.литературой есть какие-то серьёзные проблемы. Банально по причине плохого владения языком оригинала.
Читать дальше →
Всего голосов 46: ↑40 и ↓6 +34
Просмотры16.8K
Комментарии 106

Ко дню рождения Юрия Кнорозова: изучаем основы письменности Майя

Читальный залНаучно-популярное
Перевод

Письменность майя была единственной полноценной системой письменности в Америке, но благодаря стараниям отважных испанских конкистадоров к XVII веку она была полностью забыта. Тем не менее, тысячи этих символов сохранились на резных камнях, фресках и керамике, и в XX веке обычный советский аспирант выдвинул идею, которая позволила их расшифровать. И данная статья покажет, как устроена эта система.
Читать дальше →
Всего голосов 104: ↑103 и ↓1 +102
Просмотры22.6K
Комментарии 68