Pull to refresh

CATNIP – еще одна CAT система для переводчиков

Reading time 4 min
Views 4K
Как-то давно мой знакомый T_Moor рекламировал в хабе «Я пиарюсь» мою систему для переводчиков MT2007 (статья). Данная статья — продолжение той истории.

С выпуска в свободное плавание MT2007 прошло много времени. Сам я переводами заниматься перестал, а программа медленно устаревала, в основном технологически (написана она была на WinForms под 32-разрядные системы). И наконец наступил момент, когда все больше и больше стало появляться 64х разрядных систем, где MT2007 просто не запускался.

К тому времени сам я перешел на WPF и душа не лежала развивать тот проект. К тому же писался он на коленке, побыстрее, так как нужен был мне в основном для срочной переводческой работы и код внутри был просто ужасен. Однако интерес к этой кошке у людей продолжал теплиться да и использовали ее многие для работы. И по многочисленным просьбам я решил ее переписать на новых технологиях, добавив кое-какие удобства, а в перспективе расширив функционал.

К сожалению, времени катастрофически не хватало и новый проект развивался в темпе медленного вальса (в течение трех лет), с постоянными остановками, пока один из знакомых переводчиков не пришел к выстраданному решению по мере сил проспонсировать это дело. В результате последние полгода я по сути сидел на «зарплате» и писал и писал и писал… Catnip.

Один из скриншотов:
image
Другие скриншоты можно посмотреть по ссылке, приведенной в конце статьи.

Сейчас финансы закончились и хотя кошка еще не дописана, но уже используется в реальной работе. Скорее всего придется потихоньку сбавлять обороты, брать другие оплачиваемые задачи, но бросать я не собираюсь: слишком много труда вложено. В совокупности все это и подвигло меня написать данную статью. Ну и еще надежда, что возможные положительные отклики эмоционально подбодрят мой несколько угасший внутренний пламень.

На данный момент это ранняя альфа версия. Некоторых функций, наличествующих в MT2007, тут НЕТ, а именно: центрального репозитория, подключаемых словарей, работы с сайтом Multitran, системы EBMT (Example-based mashine translation). Все это в ближайшее время появится. Но есть кое-что новое:

  • Поддержка большого количества файлов переводов в одном проекте.
  • Возможность подключать неограниченное количество внешних терминологических баз из предыдущих проектов с возможностью их динамически/временно отключать и снова подключать одним щелчком мышки.
  • Возможность подключать неограниченное количества баз переводов предыдущих проектов Catnip или файлов TMX и XLIF в качестве коркорданса с возможностью их динамически/временно отключать и снова подключать одним щелчком мышки.
  • Динамическая статистика о количестве файлов в проекте, предложений для перевода, процент выполненного перевода, время работы над проектом. Все это отображается как в дереве подключенных файлов, так и в списке проектов, с которыми работал переводчик.
  • Быстрый поиск слов, похожих предложений из файлов текущего проекта и коркорданса с цветовым выделением найденного.
  • Один термин может иметь несколько переводов, что при подстановке (предварительном переводе текущего предложения) выглядит в редакторе перевода как гиперссылка, нажатие на которую выдает меню с вариантами перевода. Синтаксис множественности переводов одного термина прост — варианты разделяются символом "|" (вертикальная черта).
  • Простой условный вариативный язык определения терминов. Например: ?(the|a) table означает, что данный термин считается совпавшим и для «the table» и для «a table» и для «table».
  • Мощный модуль поиска терминов в подключенных файлах. На самом деле терминами для упрощенного понимания называются любые слова, словосочетания, последовательность символов, которые встречаются в текстах несколько раз. За пару минут движок найдет все непересекающиеся повторы вплоть до предложений и переводчик может заранее задать переводы для некоторых или всех подобных терминов.
  • Возможность резки предложений и их склеивания прямо в редакторе перевода.
  • Настройка редактора перевода. Например, можно задать каким цветом выделять какие символы. К примеру английские символы могут по умолчанию иметь черный цвет, а кириллица — зеленый или любой другой.
  • Значительно улучшена замена любого текста как в оригинале так и в переводе.
  • В настройках можно выбрать варианты сплиттеров предложений, используемых на начальном этапе при анализе текста. Можно использовать сплиттер на основе регулярного выражения, в том числе настроить его на свой вкус, или же на основе NLP — Natural Language Processor. В Catnip встроен файл модели английского языка из WordNet, который в общем-то неплохо справляется и с разбивкой на предложения для других языков, например для русского. Однако, если пользователь может найти модель другого языка, то он может его споскойно подключить к Catnip.


Ну, понятно, что есть проверка орфографии для обоих языков (оригинала и перевода) на основе известного Hunspell и еще кое-какие удобства. В принципе документация для предка Catnip’а – МТ2007 подходит и тут.

Да, Catnip бесплатен для любого использования кем угодно. Честно говоря я просто сомневаюсь, можно ли вообще как-то на этом заработать одному разработчику без службы поддержки, конкурируя с известными брендами подобных систем, при этом не завышая цену продукта до заоблачных вершин. Возможно можно выставить цену для неких сервисов для групповой работы, например для Бюро Переводов, но это пока мысли вслух. Поэтому — бесплатно.

Вот в общем-то и все. Надеюсь я зря отнял ваше время.

Сайт: Catnip
Tags:
Hubs:
+18
Comments 11
Comments Comments 11

Articles