Комментарии 14
Интересно. Можно перед прочтением статьи запускать такую программу и просматривать новые слова, которые после заносятся в базу и больше не показываются. Таким образом через некоторое время большинство слов окажутся в базе и можно будет перед прочтением статьи проверять её на наличие новых слов… Правда нужно ли это? Я, например, использую расширение LinguaLeo для Chrome — выполняет ту же функцию, только слова в изучение отправляются по двойному щелчку + щелчок, а перевод показывается просто по двойному щелчку. Очень удобно. Правда, пока языков не очень много — а расширение, возможно, и вовсе только для английского.
НЛО прилетело и опубликовало эту надпись здесь
А пользователям OS X повезло ещё больше, system-wide.

image

Вообще говоря, полезнее всего узнавать не перевод, а именно толкование иными словами. Заметил огромный бонус к запоминанию слов, значение которых получено именно таким образом.
Для линукса использую горячие клавишы (глобальные) и вот такой скрипт:
#!/bin/bash

selection=$(xsel -o | sed 's/\.$//g' | sed 's/\,$//g' | sed 's/\:$//g')
#notify-send "Process: "$selection;
case $1 in
  g) xdg-open https://www.google.com/?q="$selection";;
  y) xdg-open http://yandex.ru/yandsearch?text="$selection";;
  t) xdg-open http://www.lingvo-online.ru/ru/Translate/en-ru/"$selection";;
  w) xdg-open http://en.wikipedia.org/wiki/"$selection";;
  p) xdg-open http://ru2.php.net/manual-lookup.php?pattern="$selection";;
  u) google-chrome "$selection";;
  o) opera "$selection";;
esac

Соответственно, при нажатии ALT + T открывается онайлн словарь Лингво с переводом выделенного слова.

Все-таки дело не совсем в простом переводе выделенного слова, тренингах и фрикадельках (LinguaLeo знает, о чем речь). Основная идея была в том, чтобы добиться максимального понимания текста за минимальное время. Поэтому был реализован подсчет слов — чтобы запомнить эти слова в первую очередь. И именно поэтому я хотел, чтобы выводился перевод всех слов сразу в том же порядке, что и в тексте, т.к. щелканье по каждому слову потребовало бы некоторого дополнительного времени. К тому же, это удобно и тем, что я могу посмотреть перевод определенного слова/группы слов до того, как я встречу его/их в тексте.

Естественно, если вы владеете языком на неплохом уровне, полезность от этой программы навряд ли выше обычного переводчика. Но поэтому я и не пользуюсь ей для английского. Как я постарался показать в тестах, максимальная предельная полезность именно на начальных этапах изучения языка — когда прочтение 6% слов соответствует пониманию 12-17% текста. Попробуйте, например, скопировать какую-нибудь статью из Mercure de France (если вы не владеете французским) и сравнить, что удобней — плагин или эта программа.

В этом и есть отличие, и поэтому эта программа удобней в некоторых аспектах. Хотя безусловно, разумно использовать все подручные средства — и переводчики, и плагины, и все остальное.
В свое время писала скрипт, который парсит сабы к сериалам/фильмам, очень полезно до просмотра пробежаться по незнакомым словам и по тексту, чтобы посмотреть контекст для новых слов и смотреть уже без сабов, только слушая.
Озвученную ниже идею про словоформы надо бы добавить =)
При подсчете слов в тексте, хорошо бы еще приводить их к начальной форме. Что в списке не было одновременно слов дерево, деревья, деревьев и т.д (если мы парсим русский текст).
Точно! По идее, более менее универсальным решением был бы подсчет количества «основ» (например, слова без последних двух букв, если слово длиннее каких-нибудь 4 знаков). Спасибо, обязательно добавлю эту идею в код. Возможно, есть какое-нибудь готовое решение, но скорее всего оно зависит от языка.
Использую для перевода неизвестных слов/фраз/предложений плагин к firefox Quick Translator. Всё, что нужно — это выделить требуемую фразу.
P.S. Плагин использует переводчик от гугла.
Есть еще бесплатная программа QTranslate, которая позволяет переводить любые выделенные слова и не только в браузере. При чтении pdf очень помогает. Правда она только для Win
Кстати, ваша идея про очистку от ненужных слов в задаче кластеризации имеет свое решение — TF-IDF
Сам занимаюсь компьютерным анализом русскоязычных текстов. Данная мера позволяет легко от подобного мусора избавиться. Вкратце, можно отсеивать слова, которые встречаются реже всего (вероятнее всего являются ошибкой или очень специфичным словом, например, ссылка, адрес почты, число и тд) и слова, которые есть практически везде (the, is, a, be ....).
В моих задачах это нужно, чтобы у кластера в образующих элементах не попадалось этого мусора и не образовывался слишком огромный, обобщенный кластер. У вас я думаю можно проделать то же самое.
А вот это очень круто! Спасибо за подсказку, думаю, это несложно будет сделать, т.к. есть готовые библиотеки на python.
>> Избавиться от них можно, создав специальный список наиболее употребляемых слов, чтобы при формировании словаря исключать все слова, которые находятся в этом списке.

Всё уже написано до нас xgu.ru/wiki/new-words
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.