Как стать автором
Обновить

Uz-Translations: иностранные языки, онлайн образование

Время на прочтение1 мин
Количество просмотров2.5K


Уважаемые хабрапользователи, хочу представить вашему вниманию мой языковой проект: Uz-Translations — информационный блог для филологов и переводчиков. Сайт был запущен в 2004 году.

Цель сайта создать в Интернете уникальный ресурс, где будут собраны материалы как для изучающих, так и преподающих иностранные языки. Ежедневно на сайте размещаются статьи, посвященные искусству перевода, лингвистике, страноведению, а также обзоры программ, учебных материалов, словарей и онлайн курсов, которые сейчас набирают популярность во всем мире!

Буду рад услышать вашу критику и замечание в адрес сайта!
Всего голосов 24: ↑15 и ↓9+6
Комментарии34

Кузявые ли бутявки, т.е. пишем морфологический анализатор на Python

Время на прочтение8 мин
Количество просмотров54K
Морфологический анализатор для русского языка — это что-то заумное? Программа, которая приводит слово к начальной форме, определяет падеж, находит словоформы — непонятно, как и подступиться? А на самом деле все не так и сложно. В статье — как я писал аналог mystem, lemmatizer и phpmorphy на Python, и что из этого получилось.
Читать дальше →
Всего голосов 115: ↑109 и ↓6+103
Комментарии44

Такете и Малума. Практическое использование феномена

Время на прочтение3 мин
Количество просмотров11K
«Билайн и МТС неожиданно в один день сменили логотипы вот на такие»:



«Как вы думаете, что из этого символ МТС, а что — Билайн?»

С таким вопросом я приставал к своим коллегам, а полученные ответы заносил в тетрадку и задумчиво хмыкал. В конце статьи будут результаты опроса, а пока что объясню в чем его смысл.

Давно известен и описан феномен сопоставления человеком бессмысленных слов бессмыссленным фигурам согласно их форме. Как вы думаете, что из этого Малума, а что — Такете?



В. Келер (W. Kohler) в 1947 году показал, что большинство людей называют округлую фигуру Малума, а угловатую — Такете. Это означает, что у людей есть механизмы возникновения стойких ассоциаций между словами и фигурами, независимо от их смысла. А раз так, просто необходимо эти механизмы использовать.

Развиваю тему под катом. Если вам интересно применение психологии в дизайне, некоторые другие идеи я описывал на своем сайте.

Читать дальше →
Всего голосов 151: ↑140 и ↓11+129
Комментарии101

Гибридная реализация русской морфологии

Время на прочтение3 мин
Количество просмотров2K
При создание поисковых решение одним из первых с чем приходиться сталкивать разработчику это предварительная обработка текста. Разбивка на термины, фильтрация стоп слов. Важной операцией влияющей на качество поиска на данном этапе является приведение слов к нормальной форме. Ниже приведены основные подходы к этой проблеме.
Читать дальше →
Всего голосов 17: ↑15 и ↓2+13
Комментарии4

Нанотехноблогии

Время на прочтение4 мин
Количество просмотров497
image

предыстория


Мы живем в постоянно ускоряющемся и постмодернизирующемся мире, в котором потоки информации выливаются на каждого в непомерном объеме.

Типичный представитель нашей эпохи склонен к клиповому мышлению, многозадачности и восприятию целой мозайки разнообразных данных каждый день.
Читать дальше →
Всего голосов 29: ↑16 и ↓13+3
Комментарии38

Нечёткий поиск на клиенте и Soundex

Время на прочтение7 мин
Количество просмотров8.6K
Soundex — один из алгоритмов сравнения двух строк по их звучанию. Был разработан чуть менее 100 лет назад Робертом Расселом и Маргарет Оделл. Активно используется в США при диктовке фамилий.

Я давно интересовался применением этого алгоритма и нашёл ему место для фильтрации данных на клиенте, а точнее, для поиска отеля по названию в проекте Островок.ru.

Задача

На Островке все найденные отели передаются на клиент и вся фильтрация и сортировка выдачи происходит в браузере. Необходимо было добавить фильтр по названию отеля.

Решение, проблемы и готовый скрипт
Всего голосов 72: ↑70 и ↓2+68
Комментарии44

Имена людей и интерфейс

Время на прочтение13 мин
Количество просмотров49K
Пространство рассуждения статьи затрагивает вопросы различия имен людей во всем мире, и то, как это влияет на дизайн форм ввода, баз данных, онтологий информатики и др. в контексте Всемирной Паутины.

image

Заинтересованная аудитория: авторы HTML-контента, разработчики скриптов серверных приложений (PHP, JSP и т.д.), менеджеры веб-проектов и любые другие люди, так или иначе связанные с дизайном форм ввода данных, дизайна баз данных и онтологий, которые затрагивают личные имена людей.

Следует помнить о различиях формирования и традициях употребления имен людей в других странах. Зачастую создатели сайтов или программ одной культуры не учитывают национальные особенности пользователя другой, что заставляет последнего чувствовать себя непривычно, и ставит дополнительные преграды к использованию продукта.

Читать дальше →
Всего голосов 314: ↑301 и ↓13+288
Комментарии121

Скрытые Марковские модели в распознавании речи

Время на прочтение3 мин
Количество просмотров24K
Самое быстрое и эффективное взаимодействие между людьми происходит посредством устной речи. С помощью речи могут быть переданы различные чувства и эмоции, а главное — полезная информация. Необходимость создания компьютерных интерфейсов звукового ввода-вывода не вызывает сомнений, поскольку их эффективность основана на практически неограниченных возможностях формулировки в самых различных областях человеческой деятельности.

Читать дальше →
Всего голосов 35: ↑29 и ↓6+23
Комментарии9

Методы современной лингвистики для изучения китайского языка

Время на прочтение8 мин
Количество просмотров6K
Очевидно, что перед каждым ученым, серьезно исследующим китайский язык, остро стоит вопрос о методологии (методе) своих изысканий, следовательно, — их перспективах и собственном месте в лоне китаистики.

Данный вопрос, несмотря на видимую простоту, сложен хотя бы потому, что эффективность конкретной лингвистической методологии должна быть обоснована в сопоставлении с другими методологическими системами и проанализирована на предмет возможности ее применения для изучения конкретного языкового материала.

Подобное исследование до сих пор целенаправленно не проводилось, что, как нам представляется, определяет актуальность исследования.

Итак, до начала 20 века — периода, когда стали известны идеи Ф. де Соссюра о необходимости формирования лингвистики как отдельной дисциплины, российские китаисты уже добились огромных успехов в деле подбора, анализа, систематизации языкового материала.

Читать дальше →
Всего голосов 22: ↑9 и ↓13-4
Комментарии10

Заходят русский, англичанин и китаец в программу…

Время на прочтение6 мин
Количество просмотров5.1K
Привет, Хабровчане!
Что вы думаете про нашу техническую документацию и локализации продуктов, если вам доводилось с ними сталкиваться? И читаете ли вы документацию вообще?
В свою очередь, мы хотим рассказать вам, как ЛК удается делать так, чтобы и русский, и англичанин, и китаец одинаково легко обращались с нашими программами. Больше всех об этом знает руководитель отдела локализации и разработки технической документации Татьяна Родионова.


image― Татьяна, насколько это вообще объемная работа, как много сотрудников числится в вашем отделе?

― Сейчас в отделе работают 48 человек. По функциям все они делятся на 4 группы. Группа технического документирования разрабатывает материалы, которые помогают пользователю разобраться в программе. Это тексты графического интерфейса продуктов, справка, интегрированная в продукт, а также сопроводительные документы, такие как «Руководство пользователя». Тексты пишут технические писатели.
Локализацией текстов на языки занимаются переводчики и инженеры группы локализации. Сегодня мы локализуем наши продукты на 33 языка. Основные языки ― русский, английский, немецкий, французский и для некоторых продуктов ― китайский. Понятно, что локализовать продукт на 33 языка силами только штатных сотрудников невозможно. В помощь мы привлекаем переводческие агентства и носителей языков по всему миру.
Читать дальше →
Всего голосов 11: ↑8 и ↓3+5
Комментарии1

Зачем информационным технологиям нужны лингвисты?

Время на прочтение7 мин
Количество просмотров993
Добрый день! Эта заметка — результат моих горестных раздумий о роли современной филологии в век коммерции и информационных технологий. Моя интуиция настойчиво шепчет о том, что исследования языка сейчас могут быть полезны как никогда. Печальная же реальность демонстрирует все новые лица в ряду безработных кандидатов филологических наук. В связи с этим я хочу предложить участникам сообщества одну идею и прошу оценить ее с точки зрения реалистичности, жизнеспособности и полезности.

Идея состоит в том, чтобы практически использовать очень популярный сейчас анализ концептов. Практическое применение полевого описания концептов я вижу, во-первых, в том, чтобы использовать его в системе раскрутки сайтов, прогнозировании возможных поисковых запросов, формирования соответствующего текстового наполнения веб-ресурса. Во-вторых, оно может стать научной основой для создания названий с оптимальным ассоциативным фоном, в том числе адаптированных для различных культур (в случаях международного использования). В третьих — оно может помочь дизайнерам, которые работают, главным образом, с понятиями (по сути — концептами), выраженными в конкретных образах. Ниже коротко рассказывается о том, что такое концепт в лингвистике и как описываются его поля.

В последние годы в филологии приобрело популярность направление, которое называется когнитивной лингвистикой. Один из основных предметов изучения когнитивной лингвистики – концепты. Концепт – это «некое представление о фрагменте мира или части такого фрагмента, имеющее сложную структуру, выраженную разными группами признаков, реализуемых разнообразными языковыми способами и средствами. Концептуальный признак объективируется в закрепленной и свободной формах сочетаний соответствующих языковых единиц – репрезентантов концепта. Концепт отражает категориальные и ценностные характеристики знаний о некоторых фрагментах мира. В структуре концепта отображаются признаки, функционально значимые для соответствующей культуры» (Пименова М.В. Введение в когнитивную лингвистику. — Кемерово, 2004). Структура содержания концепта включает буквальный смысл (внутреннюю форму), пассивный, исторический слой, новейший, актуальный и активный слой, эволюционные семиотические ряды концептов, образы, ассоциации. Концепт может иметь или не иметь имени, но он всегда вербализуется в языковых единицах.

Вербализация – словесное отображение содержания концепта. Представляя концепт как поле, выделяют ядерную, околоядерную зоны, зоны ближней и дальней периферии. В ядерную зону входят единицы, называющие концепт, в околоядерную – характеризующие его. К ближней и дальней периферии относятся слова и выражения, соответственно более и менее тесно связанные с концептом по смыслу. Приведем фрагмент анализа концепта «Дом» в русском и немецком языках.
Читать дальше →
Всего голосов 15: ↑9 и ↓6+3
Комментарии4

О том, как мы ворпсиманием теcкт

Время на прочтение4 мин
Количество просмотров172K
Помните, в интернете, году этак в 2003, проходила картинка, в которой сообщалось, что неважно в каком порядке идут буквы в слове, лишь бы первая и последняя были на местах, а остально мозг сам скомпонует и вычленит смысл. Вот оригинальный текст:

По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы чиатем не кдаужю бкуву по отдльенотси, а все солво цликеом.


В английском варианте это звучало так:
Arocdnicg to rsceearch at Cmabrigde Uinervtisy, it deosn’t mttaer in waht oredr the ltteers in a wrod are, the olny iprmoatnt tihng is taht the frist and lsat ltteer are in the rghit pcale. The rset can be a toatl mses and you can sitll raed it wouthit pobelrm. Tihs is buseace the huamn mnid deos not raed ervey lteter by istlef, but the wrod as a wlohe.


Попытка поэкспериментировать с разными текстами показала, что с русским языком все не так безоблачно, как с английским и алгоритм эффективного и readable-перемешивания все-таки немного другой.

Читать дальше →
Всего голосов 125: ↑107 и ↓18+89
Комментарии86

Машинный перевод и автоматический словарь в Яндексе

Время на прочтение3 мин
Количество просмотров19K
Каждый большой продукт включает в себя много сложных и интересных технологий, над созданием которых работали люди, зачастую посвятившие им целую жизнь. И в браузере Yandex реализованы многие разработки наших коллег, которые могут остаться не замеченными неспециалистами и казаться незначимыми деталями. Например, одной из облачных технологий Яндекса, которые интегрированы в Браузер, стал наш собственный переводчик.

Сам Яндекс.Перевод вышел из беты несколько месяцев назад. От других немногочисленных подобных сервисов его отличает автословарь, уникальная технология которого разработана командой лингвистов и программистов Яндекса. Во время его разработки удалось объединить современные статистические подходы машинного перевода и традиционные лингвистические инструменты.



Чтобы понять, насколько значимым шагом в развитии машинного перевода является появление автословаря, стоит вспомнить, что 20 лет назад были распространены синтаксические переводчики, для которых таблицы соответствия фраз на разных языках составляли вручную. Процесс их создания стал меняться только в конце 1990-х, когда появились первые статистические переводчики. Для обучения их моделям переводов стали использовать параллельные тексты. Документы, в которых одно и то же написано на разных языках, извлекали, например, из дипломатической документации. Большой базой параллельных текстов стали документы ООН. Но на подобной лексике создать общелексический переводчик не получилось, потому что даже неформальные тексты он переводил сухим дипломатическим языком.
Читать дальше →
Всего голосов 65: ↑59 и ↓6+53
Комментарии30

Теги в социальных сетях и синтетические (флективные) языки

Время на прочтение9 мин
Количество просмотров14K

I. В чём проблема


Многие компьютерные технологии, разработанные изначально в мире аналитического языка , при переносе в сообщество с синтетическим языком натыкаются на дополнительные трудности.

Например, поиск с учётом морфологии в английских и русских текстах требует разного уровня сложности. Разветвлённость русского словоизменения уже давно стала предметом расхожих шуток о мучениях иностранцев, изучающих русскую грамматику со всеми нормами и исключениями.

Один из примеров того, как технология натыкается на разницу языков, являют теги в английских и русских блогах и социальных сетях. Пока теги выделяются в отдельный блок (как это реализовано на Хабрахабре или в ЖЖ), проблем нет: в обоих языках используются начальные формы слов, иногда множественное число (и тут даже английский язык являет остатки былого синтетизма). Но как только теги попадают в текст, разница обостряется. И порой кажется, что, например, хештеги Твиттера становятся мощным фактором усиливающегося аналитизма в русском языке. То и дело натыкаешься на фразы вроде:

Мы с #муж в ресторане.

С завтрашнего дня в #Москва.

Вернулись с #море.

Возникает очень странное чувство, некоторое языковое головокружение и раздвоение.
Читать дальше →
Всего голосов 19: ↑13 и ↓6+7
Комментарии32

Ноам Хомский: где искусственный интеллект пошел не туда?

Время на прочтение36 мин
Количество просмотров56K
Комментарий переводчика: Подробное интервью с легендарным лингвистом, вышедшее 6 лет назад, но ничуть не утратившее своей актуальности. Ноам Хомский —  «современный Эйнштейн», как его называют, делится своими соображениями об устройстве человеческого мышления и языка, искусственном интеллекте, состоянии современных наук. На днях ему исполнилось 90 лет, и это кажется достаточным поводом для публикации статьи. Интервью ведет молодой учёный-когнитивист Ярден Кац, он сам прекрасно разбирается в предмете, поэтому беседа очень содержательна, а вопросы столь же интересны, как и ответы.

Читать дальше →
Всего голосов 51: ↑50 и ↓1+49
Комментарии48

Новогодний датасет 2018: открытая семантика русского языка

Время на прочтение12 мин
Количество просмотров8.3K
Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.


Читать дальше →
Всего голосов 32: ↑32 и ↓0+32
Комментарии27

Популярная лингвистика. Часть 1. Маме — пиджин, детям — креол

Время на прочтение4 мин
Количество просмотров8.4K

Brilliant Mironov


Если вам интересно, что такое пиджин и чем он отличается от креола, на каком языке общаются пришельцы и откуда есть пошёл дотракийский язык, то этот небольшой цикл статей для вас.

Читать дальше →
Всего голосов 48: ↑47 и ↓1+46
Комментарии27

Make strands, stay connected

Время на прочтение8 мин
Количество просмотров1.2K

Мой первый пост. Меня зовут Алан и я хочу рассказать Вам, дорогие читатели и слушатели, чем мы занимаемся в образовательном проекте EnglishDreamTeam. Проект призван помочь людям интуитивно и легко учить языки. Буду рад, если Вы послушаете мои мысли, а также с радостью выслушаю Ваши и отвечу на них.

Многие ошибочно полагают, что видеоигры – это чистое зло, которое только и делает, что заставляет молодые и несформировавшиеся умы тратить последние деньги на премиум аккаунты или покупку косметических приблуд на оружие. Смею заверить, дорогие мои, что это неправда. В действительности, есть множество примеров, когда видеоигры помогали людям «вписываться» в общество, находить верных друзей, развивать память, а что ещё примечательнее – обучали нас понимать иностранные языки.

Мой внутренний «nerd» (nerd — ботан, человек заинтересованный умственной активностью) и «geek» (geek* — человек, которого унижают в школе, а потом ты устраиваешься к нему на работу) ликуют, ведь я расскажу вам о личном опыте использования видеоигр в качестве инструмента для изучения английского и французского языков (продолжаю себя обманывать).

*Borrowed from Urban Dictionary. Check that website to find more cool slang phrases.

Читать далее
Всего голосов 10: ↑8 и ↓2+6
Комментарии0

Use your instincts. Be a child

Время на прочтение8 мин
Количество просмотров3.5K

Мне всё чаще задают вопрос, который неуклонно ставит меня в тупик: «Как мне выучить язык?» Вопрошающая прожигает меня взглядом в ответ на минутное молчание, словно я отвечу на это утверждение быстро и чётко — как прилежный ученик, который заучил ответ ещё в школе, но не удосужился понять сути.

Позвольте же мне найти для вас, пытливых и талантливых умов, подобие разгадки, развеять некоторые мифы и, надеюсь, обратить ваши пылающие взгляды на великих мыслителей и linguistic *punduits («перевод»: экспертов в области лингвистики) современности, в частности, Стивена Пинкера (Steven Pinker) и Ноама Чомски (Noam Chomsky).

Меня зовут Алан Ягодин и это моя вторая статья на Хабр. Вместе с моей коллегой Машей Зоткиной мы продвигаем идею доступного и интуитивного образования в нашем маленьком проекте EnglishDreamTeam. Хочу сказать спасибо, что читаете и слушаете. Надеюсь, что мои мысли окажутся полезными для вас.

Читать далее
Всего голосов 7: ↑3 и ↓4-1
Комментарии11