aruseni Dec 17 2011 at 09:32

Автоматическая подсветка символов из другого языка в тексте

1 min

2.4K

Content-marketing *

+91

Comments 39

nuzni Dec 17 2011 at 09:42

Bы в тeкcте дaже кусочек текста не пpивели, чтoбы cкопировать и провеpить вaш сервиc =)

nuzni Dec 17 2011 at 09:44

Кому лень писать, можете скопировать первый мой комментарий )

+13

aruseni Dec 17 2011 at 09:59

А можете сам заголовок (Layоut Highlight) скопировать. Там ведь буква тоже не просто так выделена. :)

zar0ku1 Dec 17 2011 at 09:50

Замечательный плагин для госзакупок :)

+11

AgentSmith Dec 17 2011 at 11:31

Странно, что это ещё не сделали. А ведь идея была на Хабре аж полтора года тому назад habrahabr.ru/blogs/spam/86303/

zodiak Dec 17 2011 at 11:32

Согласен. Было бы актуально сделать сервис, проверяющий сайты гос. закупок:
1) Проверять все страницы с лотами на предмет наличия «особых» символов, цифр внутри слов, правильности написания слов (синтаксических ошибок) и т.д.
2) Выкладывать исправленные описания на страницах этого сервиса со ссылками на источник (на радость Яндексу и тем, кто хочет поучаствовать в таких лотах)

eyeless_watcher Dec 17 2011 at 10:01

Не очень понятно, зачем выбор языка. Какого больше — тот основной.

zar0ku1 Dec 17 2011 at 11:09

уууу, вы наверно плохо знаете наших чиновников, чтобы скрыться от поиска они вам и букву Ы напишут как bl (B&L)

eyeless_watcher Dec 17 2011 at 11:15

Вы, кажется, немного зациклились на чиновниках.
Тулза-то для людей, а не для них. И тулза предлагает сделать выбор, который могла бы сделать самостоятельно. Очевидно, что при смене языка подсветка букв инвертируется, и, на мой взгляд, очевидно, что лучше подсвечивать ошибочной меньшую часть текста. Сделанный выбор, тем не менее, стоит явно отображать.

zar0ku1 Dec 17 2011 at 11:19

причем тут это? вообще-то не для чиновников — а для людей, потому что они маскируют, а люди — разоблачать могут с помощью таких тулз

выбор языка — здесь правилен я считаю, всегда должен быть мануал, не всегда стоит полагаться на автоматику

DeusModus Dec 17 2011 at 12:37

// всегда должен быть мануал, не всегда стоит полагаться на автоматику
Зачем? И так понятен алгоритм.

jsfiddle.net/gsVbK/

DeusModus Dec 17 2011 at 11:42

А зачем выбор языка? Берете слово, если есть символы из чужого языка — неверно.
А то у меня и Samsung подсвечивается и Hp, хотя русских символов в этих словах нет. И ломай голову.

DeusModus Dec 17 2011 at 12:37

Мну не просто говорит, мну написал:
jsfiddle.net/gsVbK/
После копирования текста ткнуть в произвольное место вне textarea.

spmbt Dec 17 2011 at 12:55

Тогда будут пропущены и предлоги типа «с», «о», и другие слова, написанные исключительно из омографов.

DeusModus Dec 17 2011 at 12:56

Да, вы правы. В этом случае нам нужно указание исходного языка.

ukku Dec 17 2011 at 12:04

Потрясающий способ найти c на англ. языке :) спасибо

spmbt Dec 17 2011 at 12:15

Проще всего это — по Ctrl-F.

artyom_256 Dec 17 2011 at 19:21

Ага, полезно, когда пишешь имя переменной, отвлекаясь на комментарии, и случайно вместо английской c пишешь русскую и потом думаешь, почему нельзя к ней обратится.

spmbt Dec 17 2011 at 12:14

Это можно сделать юзерскриптом или аддоном, так будет удобнее: кликнул кнопочку — выделились все относительно редкие символы другого языка. Правда, выделятся и греческие буквы, например, и латинские сокращения и переменные в формулах. Нужно продумать, для чего это, чтобы исключить лишние выделения.

grcool Dec 17 2011 at 13:28

Я обычно слово пихаю в гугол — есть в урле закодировался символ — значит русский))

denver Dec 17 2011 at 13:49

Это должно быть юзер-скриптом под greasemonkey.

mtp Dec 17 2011 at 13:53

Замечание по юзабилити: выбор языка излишен. Выше в комментах уже упоминали этот аспект. Можно попробовать ориентироваться на то, что язык, букв которого больше — основной.

Serator Dec 17 2011 at 14:14

Лучше брать последовательность буквенных символов. К примеру в тексте на русском языке может встречаться слово на ином языке. В этом случае это слово подсвечивать не нужно (разве что исключение для слов из 1-2 букв, т.к. предлог «с» состоит из 1 буквы, аль даже составить таблицу подобных слов). А вот если в тексте встречается последовательность из букв разных языков, то подчеркнуть каждый язык в этом слове своим, уникальным цветом. Такой вариант видится полезнее.

mtp Dec 17 2011 at 14:25

Иностранные слова надо тоже контролировать на предмет наличия инородных включений. Госзакупщики легко объявят тендер, например, на установку Linuх или Windоws.

Serator Dec 17 2011 at 15:06

Я в комментарии на это и указал, что нужно контролировать не иностранную букву в слове на русском языке, а именно месиво из подряд идущих букв в разных языках. Нет смысла вообще знать то, на каком языке текст, аль слово.

Vladson Dec 17 2011 at 14:08

А можно ещё в блокнот поставить шрифт Inconsolata (где-то на хабре ссылку давали, писали что удобный шрифт) у него русские буквы отличаются от латинских

mtp Dec 17 2011 at 14:25

Нужно массовое решение, для пользователей.

kolpeex Dec 17 2011 at 14:36

Было бы практичнее, если бы был плагин (js-закладка) к браузеру или было поле для ввода URL.

Wott Dec 17 2011 at 17:45

Вообще-то достаточно включить проверку правописания и в форме слово с чужим символом сразу виднo. :)

aruseni Dec 17 2011 at 20:27

Они, к сожалению, не указывают, в чём ошибка в слове «202сb962ac59075b964b07152d234b70». :)

А так да, тоже решение. :)

tushev Dec 17 2011 at 22:40

Очень знакомая тема. Мне как то раз пришлось обрабатывать данные о товарах полученные из 1С. Вводом данных занимались десятки разных операторов. Я был в ужасе! Весьма частое явление в этой базе было перемешивание русских и латинских символов в одном слове. Например русское название бренда могло иногда содержать латинские символы, а английское название бренда могло содержать русские символы. Пришлось писать умную процедуру, которая разбивает весь текст по отдельным словам, дальше оценивать количество русских и латинских символов в каждом слове. Если обнаружена мешанина, то проверяется, имеют ли подозрительные символы схожее начертание в другой раскладке… В общем на выходе получается текст в котором каждое слово, по возможности, написано или только по русски или только по английски.

Конечный алгоритм, правда получился более сложным, и в итоге он даже начал даже преобразовывать тексты типа «Автошина нокия» в «Автомобильная шина Nokian». Но это уже другая история.

А «Операторам ПК» очень часто хочется руки оторвать.

UFO just landed and posted this here

yAnTar_yAnTar Dec 18 2011 at 13:50

Помню раньше, ввели программу проверки дипломов, курсовых, рефератов на плагиат. Но студенты как раз это и делали — заменяли кирилические буквы на латинские аналоги.

Zarohan Dec 19 2011 at 17:40

а когда это спалили — стали в ворде вместо пробелов буквы белым шрифтом писать.

yAnTar_yAnTar Dec 19 2011 at 19:59

Да-да, как раз так и делали у нас. :)

StrangeAttractor Dec 19 2011 at 05:56

Описанная проблема, думаю, практически не встречается в текстах на русском языке (за исключением случаев умышленного внедрения, например как в Фидо по техническим причинам заменяли русскую 'Н' на латинскую 'H', а фанаты ещё и русскую 'р' на латинскую 'p'), но очень напрягает когда пишешь в каком-нибудь «ворде» на чешском. Привыкши к английской раскладке я всегда переключаюсь на неё когда надо вводить знаки препинания или набирать на ноуте (без кипада) много цифр (верхний цифровой ряд в чешской раскладке занят буквами с диакритикой: ě, š, č, ř, ž, ý, í, é) и обратно на чешский когда надо вводить эти самые мягкие/шипящие/долгие буквы. Так вот навороченные редакторы типа того же Ворда различают, к примеру, «английскую» 'a' и «чешскую» 'a' (в то время как это именно один и тот же символ по кодировке) в зависимости от того, какая раскладка стояла когда символ был введён. В результате часто оказывается что половина букв в слове введены как «английские», остальные как «чешские», что убивает проверку орфографии и замусоривает файл.

AndreiYemelianov Dec 19 2011 at 09:49

Да, Вы правы. С аналогичными проблемами я сталкиваюсь, когда работают с польской раскладкой клавиатуры.

philpirj Dec 20 2011 at 22:00

Было бы ещё круто написать скриптлет, чтобы не копипастить текст на ваш сайт. Да, увы, не во всех браузерах скриптлеты умеют делать кроссайтовые запросы, но тем не менее.

aruseni Dec 21 2011 at 01:30

А тут и запросы-то делать не надо, на самом деле. Если посмотрите исходник страницы, то увидите, что это одна страница на HTML5, которая не делает вообще никаких запросов куда-либо (кроме, разве что, подгрузки jQuery). :)