Pull to refresh

Comments 149

5 миллионов слов и словосочетаний? Да у меня словарный запас меньше :(
По-моему у всех меньше. Думаю, это какая-то ошибка, но все источники говорят именно о «чуть более пяти миллионов».
Прошу прощения, конечно же «По-моему,»
В русском ~130k слов, в английском ~1kk слов.
Лексикон начитанного человека примерно 10k слов.
Некоторые источники утверждают, что даже обычный выпускник средней школы знает около 80 000 слов.
Знать то он знает, но это не активный словарный запас.
80к слов знает словарь Ожегова, не думаю, что смогу похвастаться тем же)
«Обычный выпускник средней школы знает пиблизительно 80 000 слов (Miller & Gildea, 1987). В среднем это составляет (после первого года) примерно 5000 слов в год или 13 слов в день! Как вам это удалось — то, во сколько раз изучыенные вами за год 5000 слов численно превосходят приблизительно 200 слов в год, сознательно преподнесенных вам вашими школьными учителями, — является одной из величайших человеческих загадок.»
Девид Майерс, учебник психологии/Psychology by David G. Myers.

Подозреваю, что до «Miller & Gildea, 1987» нам уже не добраться.
я не думаю, что выборка репрезентативна
те из наших выпускников средних школ, которые провели в родных пенатах 16 лет, вряд ли могут осилить по 5к слов в год
Может быть, 80 000 слов — это те, что «знает» («распознает» хоть как то в речи, устной или письменной)?
<10 000 — то, что употребляется худо-бедно, нет-нет да проскочат фразы, для красного словца может или вот даже сейчас «извините за неровный почерк».
<5 000 — бытовое общение (может поэтому есть мнение, что достаточно 4000 — 5000 слов выучить на иностранном языке, чтобы нормально общаться)?

Возможно, конечно.
Чтобы понять значение конкретного слова, его же не обязательно знать, достаточно иметь базис и качественную соображалку :)
может восемьсот? просто 800?
640 разве не хватит?
Так можно дойти и до сути одного несмешного американского анекдота

1. Да Вы что, по-английски всего три фразы знаю! Hi, How are you и thank you
2. Этого более чем достаточно! С таким словарным запасом вы без проблем проедете через всю Америку.
Я уже дошел до сути другого несмешного анекдота, вообще-то )
Про 1кк в английском — притянуто за уши. Они считали и словосочетания вроде «Jai Ho», «N00b» (через два нуля), «cloud computing», «carbon neutral», «zombie banks». Если бы подходящего слова не нашлось, то миллионным словом было бы назначено слово «MillionWordWord».

tambov-wolf.livejournal.com/393750.html
Я тоже удивился. Всегда думал, что русский язык побогаче будет, на нем можно все описать сочно и в красках.
речь идет о сочетаниях, их из 10 тысяч слов можно получить невероятное количество
Источники, как всегда только «услышали звон».
«5 миллионов» это максимальное количество возможных записей базы, верхний лимит заданый при ее проектировании. То есть правильно читать «не более чем 5 миллионов» (ну так, с запасом база проектируется, всегда). Но это ж читать надо уметь.
Можно ссылку на первоисточник? Не могу найти что-то
Словосочетаний!!! а не просто слов. Т.е., допустим, основной используемый словарный запас 10к слов тогда комбинации этих слов в разном порядке и количестве (судорожно вспоминаем комбинаторику) дадут на порядки большие величины нежели 5 миллионов. Скорее всего база набита именно словосочетаниями, т.к. интерес представляют слова в контексте.
Надо базу забивать RegExp'ами =)
И потом искать в каждой статье несколько десятков тысяч регекспов? Не.
А чего её судорожно вспоминать? Тут-то как раз просто. Будет 100m сочетаний. Но в любом случае, 5m — это уж какое-то дикое число. Даже в последнем издании Повареной Книге Анархиста столько нет. Скорее всего, очковтирательство какое-то. Просто почему 5 миллионов, а не 3 или 7? Чиновники, так и не научились считать с более мелким шагом, чем 5 (со времён пятилеток, видимо :).
100m как вы получили это число, позвольте узнать? Простая формула размещения:image, А теперь учтите что m может быть от 1 до «Максимальное количество слов в словосочетании». Даже прикидочная, на глазок, цифра получается новообразимой.
А при чём тут размещение? Размещение — это совсем другая тема. Или, по-вашему, не может быть словосочетаний вроде: зелёный зелёный или путин путин? Хотя, да, я не учёл словосочетания из более, чем двух слов.

Ну. И тут вопрос ещё, разрешать повторения в словосочетаниях, можно ли считать одинаковыми словосочетания без учёта порядка слов и прочие тонкости. Но это всяко будет меньше, чем n в степени m.
Всё правильно, нужно словарики утверждать с заделом на будущее. Мало ли, чем ты там свой словарный запас за месяц успеешь пополнить?
Видимо в этот словарь не заморачиваясь просто бахнули все слова которые смогли найти. И… вуаля, можно закрыть любого.
А вспомните запрещенные домены в зоне ру, я многих слов из этого списка вообще в жизни никогда не слышал. Думаю несколько тысяч словосочетаний запросто можно набрать, используя только то, что в том списке. Вобщем есть у меня подозрение, что в данном списке есть такое, что рядовому гражданину даже в голову никогда не могло прийти.
Во страна. Говорить уже запрещают.
Ну если словосочетаний, то можно хоть 10 млн. навоять! (Путин не любит Россию, Россию не любит Путин, Путин любит не Россию, Любит Россию не Путин и т.д)
Проверка: путин (намерено с маленькой буквы).
Ну ниче, я пока пристреливаюсь.

P.s. ух, вот я суицидник. путин, да еще и рядом с таким словом…
за вами выехали. ждите.
Путин — пpидурoк. Обнаружит ли такое красивое случайное сочетание английских и русских букв? Если обнаружит — значит, понятно, на что потрачено пять миллионов записей.
вас спалят случайно из-за того, что придут ловить комментаторов сверху)
И потребуют у властей денег на расширение базы ))
Тоже об этом подумал. А на самом деле — не пaлите тему ;)
Что-то мне подсказывает, что вся брюква только из за этого словосочетания.
и 5 млн его вариаций? :)
Я думаю что они уже упустили свою возможность взять всё под контроль.
Придумали, не иначе как для того, чтобы накануне выборов этот бред «громко» отменить :D
Не знаю как у Вас, но у нас выборы 4 декабря, а в статье сказано
«Система предположительно заработает в середине декабря этого года» — т.е. уже после выборов.
Наверное имеются ввиду президентские выборы 2012. До 4 марта еще есть время и запустить и отменить.
Возможно Вы правы.
Однако, я не могу с уверенностью сказать, что 4 месяца — это «накануне».
Вы можете?
На самом деле, это я ошибся) В статье прочитал, что в декабре, а комментатор чуть выше фразой «с декабря» сбил с толку.
Впрочем, мне кажется, что половину декабря, января и февраля вполне можно назвать «накануне». Ибо выборы дело такое, к ним заранее готовятся.
Выборы это не только голосование. Выборы делятся на несколько этапов:
— организационные мероприятия;
— выдвижение кандидатов;
— агитационно-пропагандистская кампания;
— голосование и подсчет голосов.
4 марта — это лишь голосование и подсчет голосов — завершающая стадия выборов.
Перекрестился, хорошо что у нас так увлеклись деребаном бизнеса, что им сейчас не до интернета.

Но если бы я жил в России, то хотел бы знать имена всех, кто к этому причастен и добиться, чтоб эти люди никогда больше не занимали должности связанные с умственной работой. По сути они на ваши же деньги строят систему, которую не поддерживает не один здравомыслящий пользователь интернета.
Так у вас же были, вроде, какие-то поползновения в эту сторону, разве нет? Даже Вконтакте и твиттер блокировали, кажется (нет, с Белоруссией не путаю).
Хм, не слышал о таком. Блокируются только ресурсы, внесенные в список экстремистских материалов, причем на уровне магистральных провайдеров.
Ой, прошу прощения, больше не буду отвечать на комментарий переходя ссылкой с письма.
Назло, с 1 декабря буду за компьютером сидеть без трусов!
Анархист! Революционер! :D
Налицо признаки экстремизма, разжигания социальной розни и, возможно, даже национализма.
И порнография в особо жесткой форме.
Не дай бог КОТЭ пройдёт в кадре — точно за порнографию сочтут
А если еще и молодой котэ…
Демократия становится все демократичнее…
Эммм, кэп как бы намекает, что это очередной кляп
Но какое отношение это имеет к слову «демократия», не поясните?
И какое отношение имет демократия к тому строю, что уже несколько лет назад как установился в России?
Демократия в смысле власти народа была только в древней Греции, когда народ во время выборов дрался на улицах полисов за своего кандидата :)
А как же Великий Новгород?
Первое словосочетание для БД будет «партия воров и жуликов»
UFO just landed and posted this here
UFO just landed and posted this here
Классификатор введут еще. Коды присвоят. Новые рабочие места появятся — классификаторы и оценщики.
Глаза боятся, руки делают.
UFO just landed and posted this here
Это скоро и Украину ждет. Спасибо жителям добасса.
Т.е. анекдоты про баскетбольный мячик будут наказываться?
Если хотите улучшить качество телефонной связи, громко скажите в трубку: «Путин, бомба, переворот».
Давайте попробуем аналогичное с трафиком.
Замеряем…
Dowload 19,49 Mb/s
Upload 9,67 Mb/s
Ping 7ms

Путин, бомба, переворот
Странно, где отчет о скорости канала после этих слов?
И вообще, куда вы там так внезапно подевались? :)
А видеоролик с бадминтоном будет определяться как порнуха?
UFO just landed and posted this here
На те вот, отслеживайте, как я разжигаю:
UFO just landed and posted this here
Хе-хе :)
Да я прекрасно знаю, что в выдаче гугла иду первой ссылкой. Я это не скрываю, а наоборот одобряю. После моего поста про Сколково отсюда (хабр) в ВКонтакте мне постучалось человек так сто, и ничего, живой :)

Коммент был о том, что любые слова можно засунуть в картинку, и система провалится.
Насколько я читал статью — про картинки и попытки их распознавания там тоже сказано. Насколько будет работать — тут согласен с вами.
P.S. Про «аудиокапчу» и видеосообщения молчу =)
UFO just landed and posted this here
О да, я уже вижу как каждый день в роснадзор приходит пухленькая папочка, не, набитый чемоданчик или не, скорее грузовичек макулатуры, где мелким шрифтом перечислены все активные ресурсы рунета.
откроют для этих дел специальное Министерство Свободы
На поверхности лежит идея для стартапа — спамилка работников Роскомнадзора. Создавать сайты, регить, хостить, сеошить, чтобы на них напали пак-боты, потом ждать рассмотрения живыми работниками, после прочтения — сжечь. Текст генерить марковским бредогенератором, базу данных пака реинженирить сеошными технологиями (о! хоть какая-то польза от них может возникнуть!).
флудер ешелона № 2 :)
Ну, марковку отследить нетрудно, так что такой стартап не пройдет.
Например, яндексоиды давно это умеют, а недавно видел хороший диплом, описывающий спрособ с довольно высоким (>95%) уровнем определения марковских текстов.
Ну, это ж яндексоиды умеют. А у этих-то деятелей даже национальной поисковой системы ещё нет :)
Можно генетически размножать сети Байеса и выбирать наиболее живучие :) Будет, по крайней мере, весело.
Интересная идея (вроде, так можно и марковку улучшать).
Но есть сходу пара серьезных вопросов.
Критерий живучести? (что их убивать будет)
И каким способом вносить модификации?
Ну, убивает, обычно, среда. Если тупо, то, наверное, выбирать те, которые читает больше всего ботов и пользователей.

А для модификаций есть один интересный метод разветвления наиоблее активных узлов. Мы его применяли для нейронных сетей, так они иероглифы начинали учиться распознавать в 10 раз быстрее обычных, плоских вариантов.

Должно подойти и для сетей Байеса.
помнится Медведев обещал не цензурировать интернет.
Вы понимаете разницу между цензурой, когда например запрещено говорить «едро — партия жуликов и воров» (а у нас между прочим самая свобода в этих отношениях) и обсуждением в какой аптеке купить (а потом и как сварить) составляющие для какого-нибудь винта например на одном из скрытых разделов нульчана?
Как подсказывает опыт, второе плавно и постепенно перетекает в первое
Опыт подсказывает, что после варки винта, кто где вор и жулик человека уже мало интересует.
Проблема-то не в распространении знаний о варке винта… Ну не будет их на нульчане, будут иначе как-то обсуждать. Зашифрованная конференция в XMPP — это как два байта переслать. Мир такой — все знания начинают распространяться шире, запреты вообще ничего не решают. Их можно вводить столько, сколько угодно, но они просто вытеснят передачу данных в ещё более незаметные, чем скрытые каналы нульчана, медиа. Это не то, с чем надо бороться. Бороться имеет смысл за то, чтобы склонный к биохимии человек не винт варил, а, скажем, имел возможность за хорошее вознаграждение удобрения новые изобретать или, пусть даже, зубную пасту.

А всякими запретами такую атмосферу не создать.
Такая уж самая свобода? Что же тогда видеоролик моего знакомого депутата Шеина недавно сняли с эфира за гораздо, гораздо более дипломатичные выражения?
Ну представьте что вы владелец огромного медийного канала, и вот у вас есть ролик где некто режет всю правду-матку в резких тонах… Какова вероятность что где-то он передергивает и преувеличивает, а может и соврет? Да очень велика. А за это могут и в суд вызвать, в защиту чести. И скорее всего дело выйграть. А вам потом другой ролик крутить и извиняться. Вот оно вам нужно? Любой здравый человек тут владей каким-нибудь огромным медийными каналом тоже бы не пускал в эфир подобное и имел бы внутренний отдел «цензуры». Поэтому подобные вещи показывать в новостях — это быть вызванным на ковер у собственного юридического отдела, но зато можно подобное найти в отдельных передачах, у Караулова к примеру, там целая коллекция подобного.

p.s.
Посмотрите даже на договора у наших крупный IT-ых компаний, это здоровая пачка чтива на день где юристы позаботились об каждом моменте в пользу компании. Это точно такая же форма «цензуры» — каждый прикрывает свой зад, как писал Чехов — «как бы чего не вышло».
А вам потом другой ролик крутить и извиняться. Вот оно вам нужно?


А мне не пофиг? Извиняться придётся не мне (медиа-каналу), а кандидату, да и то вряд ли. Эфир я ему предоставил в соответствии с законодательством о выборах. Хорошо, допустим я имею право и резон испугаться даже не окрика, а, как это было подано, рекомендации избиркома. Тогда претензии не к медиа-каналу, а к избиркому.

Но суть-то не в том вообще, к кому претензии, а в том, что со свободой ругать партию власти у нас не так уж хорошо. Может быть, Вы имели в виду эти наши интернеты, но телевидение, как можно наблюдать, охраняется ревниво.
Он много чего обещал, фигле.
кстати, тут есть те, кто за едро голосовать будет? сорри за оффтоп
Ну пока он еще и не обманул. Новость только к зарегестрированным СМИ относится. Не удивлюсь, если и раньше законы ограничивали газеты/радио сильнее, чем надписи на заборах и пьяные выкрики на улицах.

Хотя, конечно, да — пока это только к СМИ относится…
Но ведь список стоп-слов для регистрации в зоне.рф они же создали flisti.ru/stop-list.txt
А если сделать из них словосочетания с добавлением фамилий политиков, то вполне может получиться 5 млн словосочетаний.
Работать с готовой базой быстрее, чем на лету делать анализ предложений.
КАК они придумали 9й пункт?? Нет, ну КАК это могли придумать серьёзные дяди из администрации?
бляди.рф не в стоплисте, хм
Когда по радио новость слушал, мне показалось что говорили не про наличие в базе 5 млн. слов и словосочетаний, а о такой технической возможности, хотя я могу и ошибаться.
Интересно, речь идет о сайтах, получивших статус СМИ или это такой фразеологический оборот и речь идет о всем рунете? Что то слабо верится во втором случае.
Куда они будут слать предупреждения сайтам, находящимся за границей?
Предположение: На мыло. В случае игнорирования — блокировка по домену и/или IP на уровне провайдеров.
Тогда можно сразу заблокировать все торрент-трекеры и варезники, а также тор и прочие «нехорошие» сайты на уровне провайдеров.
Так что вряд ли.
Ну может так и планируется: на всех сайтах, кроме gov.ru находятся нежелательные слова и они блокируются. Правда на данный момент закон распространяется только на СМИ, и, хотя и есть закон, обязывающий ресурсы с посещаемостью более 1000 (по-моему) человек в сутки проходить процедуру регистрации СМИ, по факту вроде бы такого не наблюдается. Так что вроде бы все претензии только к СМИ, а не к трекерам.
речь не о сми, а о том, что если бы была возможность перекрыть трекеры и тор на уровне провайдеров, то давно бы перекрыли
Это нужно как-то обосновать, все же не Беларусь и не КНДР. А перекрыть можно, есть сайты, которые перекрываются на уровне магистральных провайдеров. В России, имею ввиду.
Это нужно как-то обосновать, все же не Беларусь и не КНДР.

Можно обосновать. Если честно, в жизни ВСЁ можно обосновать.
Отключение трекеров распространением материалов, охраняемых авторским правом.
(Юридически, даже чтобы скриншот выложить, нужно согласие автора. Этим и можно воспользоваться, чтобы всё позакрывать.)
А тор заблочить по соображениям нац. безопасности.
Только тор не так-то просто заблочить.
А перекрыть можно, есть сайты, которые перекрываются на уровне магистральных провайдеров.

Эти сайты приносили значительный доход провайдерам?
Если провайдеры и перекроют доступ к какому-либо сайту, то с мизерной аудиторией и распространяющий детское порно и вредоносов.
Хорошие ресурсы вроде рутрекера и бухты они блочить будут неохотно, а если заблочат, то так, чтобы остались огромные дыры, ибо в результате такой блокировки их прибыль резко упадёт: юзеры либо перебегут к конкурентам, либо на дешёвые тарифы, а плохая репутация вообще плохо отмывается.
Да зачем закрывать трекеры? Если и будут что-то перекрывать, то это оппозиционные сайты. Мне так кажется. Если бы на том же рутрекере политические вопросы не блокировались к обсуждению, думаю его бы давно уже закрыли.

Какая там аудитория была не знаю, а сайты блокируют все провайдеры на территории России, потому что они в списке.

+ я думал речь шла о технической возможности подобной блокировки, а не о последствиях.

Tor тоже можно заблокировать, если попотеть. Т.к. в основном там трафик идет через одни и те же ноды (по крайней мере с настройками по умолчанию в Tor Browser Bundle), достаточно заблокировать их и сеть уже будет работать куда хуже. Это сложно, но возможно.

А, ну и такие причины, точнее такое объяснение, касаемо Тор'а, только усугубит имидж РФ на мировой арене, как ни странно, такого стараются избегать, мне так кажется.
Технически заблокировать возможно всё.
Вплоть до разработки и развёртывания своего гебнянета
и перекрывания интернета всей стране, а госучереждения к гебнянету подрубить.

Выходные ноды чтобы заблочить придётся очень сильно попотеть, ибо в других странах расположены. А промежуточные ноды автоматом ретранслируют трафик.
Проще заблокировать центральный сервер, но тор-то научился эту блокировку обходить.
Имхо, когда это кому-то из верхушки понадобится, то легко перекроют, по крайней мере трекеры и любые другие обычные (имеющие фиксированный IP) сайты, посетители которых не будут заморачиваться с установкой софта или ожиданием обновления DNS
А зачем? Можно просто отобрать домен.
А как отобрать домен .com, например?
Интересно, они это действительно сделали, или опять попилили и шуму навели?
На фоне новостей на тему ограничений и контроля в интернете хорошо бы смотрелась статья о способах сохранения анонимности в интернете. Думаю это будет актуально. Я вот только про Tor знаю, да и то, говорят, не безопасно это.
VPN? I2P? Хотя второе уже не Интернет. В Tor вычислить человека можно (в теории), но я не знаю что такого нужно сделать, что бы так заморочились
Translit navernoe budet, a v0t izmеnёnny tr@nslit vrj@d lи
Вы действительно верите, что «специалисты роскомнадзора» (хмм, у нас же по конституции свобода слова, как эта организация уживается с конституцией....) смогут проверить столько сайтов?
Я им не завидую…
Эм, предлагаю показаться таки будущим «специалистам роскомнадзора», благо треды хабра они будут мусолить каждый божий день не по разу.
Господа, вы как соберетесь «мониторить», выйдите из сумрака хоть на минуточку, плиз, хоть анонимно, отпишитесь что да как.
Ну и да, путин краб, он же краб путИн.
UFO just landed and posted this here
Недопустимость злоупотребления свободой массовой информации

За столь дешевые манипуляционные трюки в законодательных актах надо вообще карать. Звучит-то как логично — злоупотребление — это плохо, это зло. Очевидно, что с любыли злоупотреблениями надо бороться.

Вот только свобода — это свобода. Для нее не может существовать злоупотреблений. Если кто-то чертит грань, и кто-то следит, чтобы чья-то свобода была в пределах этой грани — это уже никакая не свобода, а камера-одиночка.
Only those users with full accounts are able to leave comments. Log in, please.

Articles