Это не причина не бороться с тупым копипастом. Тем более, что при нормальном применение схемы, будет нормальная практика перепубликаций, просто обязательно будет ссылка на источник (хоть и мёртвый в некоторых случаях).

Вы же взялись рассматривать крайний случай с неадекватным публикатором, который решил вообще запретить перепубликацию в любом виде, а сам выложил материал на своём домашнем сервере.

Rulez Aug 4 2009 at 15:56

Если есть ссылка на источник то нет санкций? верно я понимаю?

А часто сайты ложатся от чрезмерной нагрузки, погуглите сколько упало сайтов СМИ от запросов «Михайло Джексон»

Inversion Aug 4 2009 at 16:06

Если есть ссылка на источник то нет санкций? верно я понимаю?

Грубо говоря, да.

сайты ложатся от чрезмерной нагрузки

Это на совести публикатора.

Nashev Aug 5 2009 at 10:46

Ни в одном поисковике я не видел, чтоб они нормально определяли дубликаты. Гугл кажется показывает иногда, что упс, результаты кончились, остальное похоже повторы, но при этом несколько копий одного и того же на первой показывает…

Вообще, если они научатся выделять на индексируемых страничках статью, и понимать её идентичность другим статьям — пусть группируют в результатах поиска по статьям: типа, вот есть ещё такой текст по вашему запросу, и вот у него такие зеркала/копии есть. Примерно как они сейчас разделы сайта показывают, под ссылкой на корень сайта.

lazyday Aug 4 2009 at 17:50

копия из кэша поисковика Вас спасёт

ChemAli Aug 3 2009 at 22:18

Механизм, предложенный вами, многие уже реализуют самостоятельно: пингуют поисковики с тем, чтобы те их проиндексировали, а уже потом открывают контент для всех. Но встает вопрос: что сможет сделать поисковик? Побить вора?

А что касается вопроса, какую ссылку ставить выше — авторскую или воровскую, тут тоже не все однозначно. Может у автора дизайн паршивый, а у вора с этим все ок, плюс материал снабжен очень полезной сопутствующей информацией. В таком случае автор обижен, но объективно страница вора лучше. Дилемма?

Inversion Aug 3 2009 at 22:32

Может у автора дизайн паршивый, а у вора с этим все ок, плюс материал снабжен очень полезной сопутствующей информацией.

Думаю стоит такой хороший материал ставить вторым после оригинала. Тогда он и доступен и правомерно дышит автору в затылок. Но оценка качества — это ещё одна задача.

-1

alkhankhel Aug 4 2009 at 09:14

А теперь возьмём пример. Набрал я в поисковике к примеру «flash dragStart», и мне выдалось 10 сайтов, с одной и тойже статьёй? Бред, я предпочитаю текущий вариант, когда в топ 10 разные варианты, статей подходящих под это условие.

Я думаю лучше всего подходит другой вариант. Ввести «рейтинг копипаста», основанный к примеру на проценте краденых статей. И уже на основе рейтинга управлять позицией сайта.

kurokikaze Aug 4 2009 at 16:00

А некоторые уже понижают статью в выдаче при явной копии. Гугл, насколько я знаю, экспериментировал с такими вещами.

Красота дизайна — вещь слишком субъективная чтобы здесь обращать на неё внимание.

Nashev Aug 5 2009 at 10:50

Надо просто все ссылки на оригинал и копии — выводить в результате поиска вместе, единой группой. На первом месте оригинал, ежели поисковиком определится, а сразу дальше, с отступом вправо — список копий.

Nashev Aug 5 2009 at 10:51

и копии после 5-ой или 10-ой — уносить ссылкой на отдельной странице — типа «ещё копии»

SKYnv Aug 3 2009 at 22:20

Поисковики занимаются вещами которые приносят прибыль, тратить мощности на вещи которые этой прибыли не приносят, неразумно по меньшей мере.

Inversion Aug 3 2009 at 22:37

Качественная выдача без массы дубликатов в перспективе как раз может превратится в прибыль.

SKYnv Aug 3 2009 at 22:41

что бы она превратилась в прибыль нужны договоры с производителем контента. А это большие заморочки и опять потеря ресурсов.

Inversion Aug 3 2009 at 22:46

В такой схеме как раз и не нужно договоров, в том то и суть. В такой схеме всё самоорганизуется, так как процессы автоматизированы.

SKYnv Aug 3 2009 at 22:54

это лишнее усложнение алгоритмов и нагрузка на поисковик. Далее как правило новости предоставляются интернет-изданиям от новостных агентств по закрытой подписке. То есть автором является агентство, но оно не публикует эти материалы.

ADeptice Aug 4 2009 at 10:07

Насчет прибыли — рекомендую поближе познакомиться с историей компании Google, у которой изначально не было цели вести финансовую деятельность; также посмотреть их ближайшие планы и методы развития и попытаться понять в чем же их феноменальный успех.

Чем дешевле, качественнее и удобнее продукт — тем более высока аудитория. Чем выше аудитория — (додумывайте сами)

Мысль автора топика — один из весьма рациональных вариантов улучшения качества выдачи искомой информации. Поиск и устранение дубликатов — это одна из важных целей каждой компании, занимающейся хранением и обработкой информации.

SKYnv Aug 4 2009 at 10:37

изначально Google был создан при университете для обучения и был студенческим проектом. А далее — «В один прекрасный день, когда студенческим проектом начали пользоваться до 10 000 человек ежедневно — поиск начал “есть” 50% всего университетского трафика, ребятам мягко намекнули, что пора уже и честь знать и искать новое место обитания.»

Просить оппонента учить историю не зная ее самому глупо.

ADeptice Aug 4 2009 at 11:20

Я не это имел ввиду, прошу прощения за грубость.

Успех Google складывался из многих факторов. Самыми важными из которых были удобство пользования, объем собранной и грамотно структурированной информации, количество обрабатываемых запросов и размер аудитории.

Финансовый доход у компании появился в 1999-2000 году, т.е. аж через 4 года упорного труда без каких либо финансовых перспектив…

P.S.: Я никогда не считал, что проекты изначально жестко привязанные к финансовым требованиям смогут оправдать ожидания. А уж если финансовые требования заставляют компанию отказываться от рациональных способов потенциального увеличения аудитории — так тем более.

alizar Aug 3 2009 at 22:25

«убИть» в заголовке

EKCTPEMICT Aug 3 2009 at 22:31

Потому что уникальный контент это отлично, но порой сгенерировать уникальное описание нереально… придумайте красивую текстовку для патч-корда ))

-1

easyman Aug 3 2009 at 22:34

Патчкордим своими силами с помощью отвертки!

-1

Inversion Aug 3 2009 at 22:35

придумайте красивую текстовку для патч-корда

Не думаю, что это те тексты за которые кто-то будет переживать, чтобы у них не украли… Речь идёт о другого сорта публикациях.

odessky Aug 3 2009 at 22:50

Рассказываю почему

Предположим — у тебя слабенький сайт, с pr1, тиц10
А у меня — раскрученный pr5, тиц100
Ты выкладываешь статью
Я ее передираю и выкладываю у себя
Кому больше будет доверять ПС? Правильно — моему сайту

Понятно теперь чего так ПС не делают?

Inversion Aug 3 2009 at 23:01

Если сайт популярный и порядочный, то сошлётся на сайт автора, и последний будет только рад. Если же не сошлётся, то поисковики не должны, по моему мнению, игнорировать такое поведение (и не игнорируют, так как есть же возможность написать жалобу, но это не очень эффективная схема).

-1

odessky Aug 4 2009 at 08:28

Поисковики верят своему рейтингу а не писульке какого-то человека
Вот в чем их суть

Иначе бы легко было конкурентов давить стуком

LexXL Aug 4 2009 at 11:52

зачастую большинство банов от поисковика — именно «по стуку»

odessky Aug 4 2009 at 19:10

При этом в большинстве случаев — в пользу сайта с большими пузомерками

Niketas Aug 3 2009 at 23:45

Это почему они так не делают сейчас. Но определять таким образом автора не корректно: я мог написать статью в своём блоге на том же Хабре, у которого тИЦ и PR будут нулевыми, а сворует её какой-нибудь говносайт с тИЦ 10. И Яндекс будет думать, что тот сайт — источник. Ну и куда это годится?
Тот сайт будет зарабатывать (например, притворятся СДЛом с уникальным контентом, размещая ссылки) на мне, ничего мне не платя, но я при этом ничего не смогу сделать.
Если написать в саппорт, вам вежливо ответят, что единственный способ стать источником в глазах поисковика — попросить тех, кто ворует мой контент ставить ссылку на меня, то есть на источник. Ага, вор будет ставить на меня ссылку. Аж две.
Автор предлагает правильные вещи. Уверен, Яндекс занимается чем-то подобным, а не только совершенствует свой алгоритм поиска дубликатов.

Arseny_Info Aug 4 2009 at 10:04

Хабр будет трастовее говносайтов, тиц конкретного поддомена (вашего блога) не имеет значения

Niketas Aug 4 2009 at 18:36

Хабр будет трастовее (хотя не 100% факт), а мой личный блог (ЖЖ, Я.ру, standalone) — нет.

egoserg Aug 4 2009 at 11:11

+ Немаловажный момент что раскрученный pr5, тиц100 проиндексится быстрей, и страница уже будет в выдаче а pr1, тиц10 еще и не проиндексили.

Мысли в слух.
Владелец сайта не будет забивать руками, весь свой контент который у него есть поисковикам.
А если так, то тогда можно бороться с конкурентами.
К примеру я на сайт, выкладываю все комменты с этой страници.
Заполняю форму для поисковиков.
И указываю что ты своровал мой контент.
ты ведь не будешь все комменты к статье стравливать поисковику?
И что тогда получится в данном примере?

kurokikaze Aug 4 2009 at 16:01

Дык есть sitemap автоматический, зачем руками то забивать.

UFO just landed and posted this here

Inversion Aug 3 2009 at 23:04

Есть такой же метод внедрения скрытых ключевых слов на странице и поисковики работают над выявлением такого поведения. Но в любом случае серьёзный ресурс такое себе не позволит, а именно такие могут увести трафик.

goliaf Aug 3 2009 at 23:22

Идея неплохая, но недодуманная. Главное, что неверно, вот это:
«И кто этой формой первый воспользуется — тот и автор».
Если вдруг хоть один поисковик начнет так и делать — представьте, что начнется.
В сети отсутствует пока масса информации, которая, к примеру, уже опубликована в печати.
Тут же восторжествует это правило — кто первый встал, того и тапки?
То есть автором будет признан не настоящий автор, а кто первым запихнул в эту форму?
А завтра скриптами туда пихать начнуть, понимаете? И кто первым качественный скрипт напишет — будет автором кучи контента?
Вы не считаете, что это чушь?

Inversion Aug 3 2009 at 23:30

Вот это действительно уязвимость. Спасибо за коммент. Буду думать.

goliaf Aug 3 2009 at 23:45

Согласитесь с тем, что в поисковиках, в том же Яндексе, совсем не глупые люди работают.
И они пока явно не решили эту проблему. А то, что она есть и она серьезная — факт.
Сколько контента в сети воруют — никто никогда не считал, ясно, что очень много.
Просто решение проблемы не лежит на поверхности, поскольку проблема слишком сложная.

ooprizrakoo Aug 4 2009 at 11:11

Проблема ещё и в том, что в этой ситуации поисковики получат определенную власть над пользователями, и станут, по-сути, жизненно необходимым инструментом для абсолютно любого контентного сайта.

Дойдет до того, что скрипты КМС-ки, добавляющие текст на сайт, будут одновременно в автоматическом режиме слать текст на яндекс, и это станет правилом для любого редактора.

Причем автору надо будет добавлять сайт потом во все поисковики — и яндекс, и гугл, и яху, и нигму, и т.д. и т.п. А это, на мой взгляд, неправильно.

Должны быть механизмы правового регулирования копипастинга, иначе «привязав» себя к поисковикам те не преминут этим воспользоваться в собственных корыстных целях — ведь поисковик это в первую очердь коммерческое предприятие, нацеленное на получение максимальной прибыли.

-1

Inversion Aug 4 2009 at 14:37

Должны быть механизмы правового регулирования копипастинга, иначе «привязав» себя к поисковикам те не преминут этим воспользоваться в собственных корыстных целях — ведь поисковик это в первую очердь коммерческое предприятие, нацеленное на получение максимальной прибыли.

Это же просто не в их интересах, они от этого ничего не получат, только репутацию потеряют.

ooprizrakoo Aug 4 2009 at 14:57

Они именно что «получат» — деньги :)
Хочешь завизировать контент у Яндекса? 10 центов за 1000 знаков, будь добр. Не хочешь? Тогда всё будет на «авось», как раньше. Возмущаетесь? Ну так ведь и у нас нагрузка на серверы возрасла, то-сё, надо денег на амортизацию серверов, и тэдэ. Какбэ.

— вот такое поисковики вполне могут сделать.

Inversion Aug 4 2009 at 15:02

Могут, но не сделают, так как всегда найдётся тот, который так нагло делать не будет, и за это его будут больше любить в народе. И соответственно приносить ему больше прибыли.

ooprizrakoo Aug 4 2009 at 15:07

Когда действует монополист, он может делать что хочет. Например, для пользователя всё равно, легальный или нелегальный контент он получает.
Крупным новостным порталам ничего не стоит платить деньги (небольшие для них) поисковикам. А мелкие вебмастера ни коим образом поисковику помешать не смогут — хочешь не хочешь, но с ним придется работать, потому что оттуда идут клиенты.

Inversion Aug 3 2009 at 23:45

Думаю, что это не чушь, так как:

В сети отсутствует пока масса информации, которая, к примеру, уже опубликована в печати.
Тут же восторжествует это правило — кто первый встал, того и тапки?

При наличие такой системы или без нее всегда будет иметь место публикация того, чего не в сети. Вот почему владельцы печатных изданий заинтересованы в параллельной публикации в сеть (иначе они просто упускают честно заслуженный лакомый кусок). Даже если издание держит за правило публиковать материалы в сеть с задержкой, то отправлять «заявки на авторство» они могут одновременно с выходом в печать, так как заявка на публикацию и её контент нигде не светится.

И кто первым качественный скрипт напишет — будет автором кучи контента?

Нет подать заявку на контент, который уже есть в сети, невозможно (проверить наличие не сложно). Если же вы говорите о автоматизированном сканировании печатных материалов и публикацию их в сеть, то общество за такое только поблагодарит, а авторы материалов в любой момент могут оспорить авторство, если им это понадобится (хотя до этого им, как предполагается, было наплевать на публикацию в сети).

goliaf Aug 4 2009 at 00:56

Считать автором не автора — неверно в принципе. За что тут благодарить?
А тех, кому сегодня плевать на сеть, становится все меньше и меньше.
А через некоторое время их и совсем не будет, не так ли?
А оспаривать авторство — ну не у поисковиков же правды в данном случае искать, для этого суд есть.

Inversion Aug 4 2009 at 01:14

Считать автором не автора — неверно в принципе

Это, конечно, да.

За что тут благодарить?

Я имел ввиду за оцифровку и публикацию в сеты нового оригинального контента. Важность же авторства для потребителя — это уже другой вопрос.

А оспаривать авторство — ну не у поисковиков же правды в данном случае искать, для этого суд есть.

Но многие же сейчас пользуются возможностью пожаловаться на спам и на воровство контента именно поисковикам и провайдерам, а аж потом в суд. Потому что так эффективнее на данный момент.

goliaf Aug 4 2009 at 01:19

Вы когда-нибудь пробовали пожаловаться на воровство контента именно поисковикам? :)
Если нет — попробуйте, узнаете для себя много нового.

Inversion Aug 4 2009 at 01:27

Я это написал к тому, что люди кроме судов ещё и им жалуются. Я же не написал, что это эффективный способ борьбы, но сказал, что это дополнительный и часто более продуктивный нежели суд.

Топик вообще выступает против классической схемы жалоб с ручной обработкой.

goliaf Aug 4 2009 at 01:38

Странно. Этот не просто непродуктивный — это никакой способ. Вы читали хоть один ответ службы поддержки Яндекса по этому вопросу?
Сомневаюсь. Иначе бы не написали, что он продуктивный.

Inversion Aug 4 2009 at 11:54

Я посылал абузы в других системах и получал позитивные результаты.

LDEV Aug 4 2009 at 01:15

Тысячи авторов уже трудятся, переписывая статьи и делая их еще более уникальными и неповторимыми — это рерайт.

Думаю такой механизм спасёт только от школьников, а нормальные воротила переписывают новости на свой лад и манеру письма.

Inversion Aug 4 2009 at 01:21

Я же написал, что эта схема направлена против «злобных копипастеров» а не против рерайта.

LDEV Aug 4 2009 at 01:39

Зачем же так горячиться? Есть же не только рерайт, есть и синонимайзеры — хотя их Яндекс уже раскусил.

UFO just landed and posted this here

goliaf Aug 4 2009 at 02:01

А я с Вами согласен. Почти полностью, за исключением самого последнего предложения. Очень нередки стали случаи, когда трется (банится Яндексом или выбрасывается из индекса) уже не хлам, а уникальный авторский текст. А тот же текст на сайте воришки чудно индексируется и показывается в поиске. Именно потому, что Яндекс не умеет определять авторство. И его алгоритмы, совершающие такие ошибки, конечно, не идеальны.
А вот Гугль так не поступает, я, по крайней мере, не замечал.

UFO just landed and posted this here

Arseny_Info Aug 4 2009 at 10:07

Яндекс не воюет с оптимизаторами, запомните.
Яндекс борется против говносайтов в выдаче.

UFO just landed and posted this here

lovermann Aug 4 2009 at 02:53

Это перекладывание ответственности на плечи поисковиков к решению не приведет. Почему поисковики должны заниматься решением проблем, которые им нафиг не нужны? Так можно скатиться и до того, что кто-то напишет, что бутерброды с мышьяком самые вкусные, поисковик это проиндексит, кто-то найдёт, а потом будет философствовать на тему того, как, мол, так — не могли, что ли, из серпа убрать такое?!

-1

TEHEK Aug 4 2009 at 03:02

Идея имеет право на жизнь, но

1) автор слишком сильно полагается на слово «автоматизированный». В реале все намного страшнее. Нет системы, которая могла бы быстро определить, списан текст или нет. Хотя есть алгоритмы, позволяющие сравнить два текста на предмет похожести, для того, чтобы найти две похожие статьи потребуется много времени и ресурсов. А новый контент появляется каждую секунду (взять, к примеру, этот коммент)

2) Заявка на авторство — это что-то типа патента получится. Посмотрите, чем заканчиваются патенты и копирайты (фармацевтические компании, 1-Click, небезызвестные RIAA и РАО вам в пример).

Вы (с) хотите превратить Интернет(тм) в сборище копирейтеров (с). А что будет (с), например, с Википедией(?), контент (patent us #304992) которой создается обществом (с) на базе другого контента (patent us #304992, род. падеж)?

3) Результатом этой идеи будет еще одна индустрия — Продвижение в поисковиках с обходом копирайт-протекта. Она будет основана на синонимайзерах, замене русских «а» на латинские, &нбсп вместо пробелов и прочей фигне, которую на тот момент поисковики еще не осознают.

— Уменьшить количество копипаста можно намного проще. Яндекс правильно поступает, снижая рейтинг сайтов со всякими попандерами и пр. Можно аналогично снижать рейтинг особенно копипастящих сайтов. Вот эта идея, пожалуй, мне по душе.

Поскольку раскрутка сайта — дело не одного дня и немалых денег порой. То такой ручной подход и обеспечит их нерентабельность. Будут, конечно, и побочные эффекты… 4чан, двач и другие анонимусы вполне смогут завалить любой поисковик жалобами на BBC.ru =)

— Сейчас даже публикация статей в журнале не спасает от копирования (я б даже сказал, что во многих случаях, это его гарантирует). Но задумайтесь, зачем вы вообще пишете?

Inversion Aug 4 2009 at 09:44

Нет системы, которая могла бы быстро определить, списан текст или нет. Хотя есть алгоритмы, позволяющие сравнить два текста на предмет похожести, для того, чтобы найти две похожие статьи потребуется много времени и ресурсов.

Если определять только практически одинаковые тексты (злобный копипаст) и делать это с теми ограничениями, которые я описал (важность сайтов и важность инфы), то всё на много реалистичнее. Но техническая сторона остаётся пока самым узким местом.

А новый контент появляется каждую секунду (взять, к примеру, этот коммент)

Комментарии — не тот контент, который нуждается в такой проверке.

RedHead Aug 4 2009 at 08:54

новый контент размещается на рандомно сгенерируемом url,
rpc ping'ом отправляется url поисковым системам,
страниц индексируется быстророботом и если достаточно уникальна то попадает в индекс. Видим страницу в индексе -> делаем публикацию поста. (используя редирект с random url в форматный ЧПУ блога: site.com/articles/2009/08/04/)

Вопрос в том — хватит ли ресурсов ПС чтобы слать роботов на каждый сайт что послал пинг, тянуть контент и на лету проверять ступень уникальности?

RedHead Aug 4 2009 at 09:06

также, если не ошибаюсь, используя .htaccess запретить всем, кроме Я и Г заходить в раздел\статью.

Сделать чтобы поисковик увидел контент быстрее копипейстера не трудно. Проблема в том что ПС «доверяют» прокачанным сайтам сильнее чем нулевикам, что писалось выше.

sir_Jack Aug 4 2009 at 13:18

И частообновляемые ресурсы ПС индексируют быстрее…
Поэтому сейчас делают сайты-RSS-агрегаторы, собирающие RSS ленты разных нерегулярнообновляемых сайтов. В итоге все эти сайты-доноры контента просто не успевают попасть в индекс до сайта-агрегатора…

Лично мне временно удалось решить эту проблему забанив сайт-агрегатор по IP…

Lazarus Aug 4 2009 at 08:57

Кроме всего прочего, подобная схема практически убивает Fair use и 100% будет использоваться для харрасмента небольших сми и блоггеров со стороны мэйнстрим сми.

Inversion Aug 4 2009 at 09:34

Кроме всего прочего, подобная схема практически убивает Fair use

Нет конечно, так как большинство публикаций будут иметь нормальные ограничения использования — текст и обязательная ссылка на источник. Так как и есть сейчас между порядочными ресурсами.

100% будет использоваться для харрасмента небольших сми и блоггеров со стороны мэйнстрим сми.

Нет не будет, так как небольшие сми и блоги — не угроза для мейнстрим сми.

Arseny_Info Aug 4 2009 at 10:16

Lazarus прав. Убивает.
Например, компания А отправляет свой пресс-релиз на 10 отраслевых сайтов и 5 агрегаторов. Один из них получает текст (контент!) и автоматически стучит поисковику, что именно он является первоисточником. Как следствие, еще 14 потенциально хороших сайтов становятся в глазах ПС копипастерами и попадают под санкции без причины.

Inversion Aug 4 2009 at 10:22

Чтобы такого не было, публикатор перед такой рассылкой обязан отослать заявку на авторство — дело 2 минут + можно автоматизировать.

Rulez Aug 4 2009 at 15:26

А нормально ли что санкции поисковиков применяться к статьям на агрегаторах?

Inversion Aug 4 2009 at 15:33

Это зависит от того, нарушает ли агрегатор при публикации ограничения выставленные автором (наличие ссылки, процент контента в перепубликации и тд). Но думаю в результатах поиска копия контента на агрегаторе должна идти после оригинала.

Rulez Aug 4 2009 at 15:57

А как вы планируете определять это копия в агрегаторе? или просто копи-паст?

kex Aug 4 2009 at 10:15

Скажите, а как узнать кто первый разместил? Тот, кого первого проиндексировали? :)

Inversion Aug 4 2009 at 10:25

Прочтите там где о форме «заявки на авторство».

Arseny_Info Aug 4 2009 at 10:18

Еще одна проблема. Если будет схема, позволяющая мгновенно проиндексировать контент по запросу, этим воспользуются дорвейщики, забивая в индекс тонны бредотекстов.

Inversion Aug 4 2009 at 10:24

«Заявка на авторство» ≠ занесения в индекс поисковика.

Arseny_Info Aug 4 2009 at 10:26

Присвоение авторства без индексации имеет смысл?

Inversion Aug 4 2009 at 10:28

Здесь речь о разной индексации для сайта и для авторского контента.

Arseny_Info Aug 4 2009 at 10:38

Тогда ПС нужно держать параллельный индекс только для определения авторства. Вопрос: зачем создавать инфраструктуру, требующую немалых затрат, не приносящую прибыли, а только тешащую эго авторов свободно доступной информации?

Inversion Aug 4 2009 at 10:41

Чтобы очистить выдачу от копипаста. Топик об этом. Решение такой задачи вообще без каких либо затрат — иллюзия.

Arseny_Info Aug 4 2009 at 10:53

Цель ПС — не выдача без копипаста, а релевантная выдача, отвечающая на вопрос пользователя.

Кроме того, в выдаче довольно мало неуникального контента по ВЧ и СЧ запросам. Существующие фильтры («ты последний» в Яндексе и Supplemental Index в Google) в целом справляются с задачей без громоздких решений вроде нового индекса авторства.

Inversion Aug 4 2009 at 10:59

Цель ПС — не выдача без копипаста, а релевантная выдача, отвечающая на вопрос пользователя.

Я не написал, что цель ПС именно «выдача без копипаста». Я думаю, что их цель — релевантная выдача без копипаста.

Arseny_Info Aug 4 2009 at 11:31

То есть ваши умозаключения базируются на том, что

Arseny_Info Aug 4 2009 at 11:32

Сорри, глюк.

Вы думаете? То есть ваши умозаключения базируются исключительно на том, как вы видите бизнес-процессы и цели сторонней компании, особенно не вдаваясь в их суть?

Inversion Aug 4 2009 at 11:37

Я же тоже активный пользователь этих систем, и могу же по себе сказать, как я делаю выбор в пользу того или другого поисковика: релевантность выдачи и процент мусора.

egoserg Aug 4 2009 at 11:19

А мне вообще непонятна эта борьба.
Пример: ты идешь и видишь на стене стих написан (прикольный такой стих) тебе он понравился.
Ты пришел домой и запостил его на блог. А твой блог читаю сотни людей.
А в доль забора проходишь только 3 человека в день.
Соответственно этот стих никто не прочитает если сделать такой запрет на копипаст.

Inversion Aug 4 2009 at 11:28

Ссылки на оригинал никто не отменяет же.

glebreutov Aug 4 2009 at 11:26

Идея классная, но слишком радикальная. Лучше так: в результатах поиска показывать оригинал, а под ним ссылка «показать дубликаты»

Inversion Aug 4 2009 at 11:29

Да, возможны разные варианты. Это и есть то, что я назвал «стратегия поисковиков» в этом вопросе.

sir_Jack Aug 4 2009 at 13:21

Для автора контента очень обидно быть среди «дубликатов». А автора на 100% поисковики определять не смогут :(

glebreutov Aug 4 2009 at 13:27

Вы внимательно читали статью? Для этого предполагается механизм «патентования» контента у поисковиков

Omni Aug 4 2009 at 11:32

Знаете, отсюда опять недалеко до идеи деанонимизации сети.

Так как поскольку именно это, ИМХО, является первопричиной (я не говорю — «корнем зла») многих бед интернета. А уже потом для преодоления последствий бед пишутся гиперсистемы, придумываются сверхидеи и мегапроекты…

Но это так, лирика.

По теме:

Скажите, не проще ли легализовать/упорядочить уже ставший стандартом де-факто значок "(с) не моё"? Ну и "(с) моё", конечно :-)

Например, тег такой предложить в Wc3?

(с) моё

Inversion Aug 4 2009 at 11:45

отсюда опять недалеко до идеи деанонимизации сети

В чём же вы увидели деанонимизацию?

Omni Aug 4 2009 at 12:17

Слушайте, я, видать, зарапортовался :-)

Я ведь не только саму статью прочитал, но и все предыдущие комментарии. И моё замечание относилось, скорее, не к самой статье, а к дискуссии в целом.

Но основная идея осталась: для реального соблюдения авторских прав необходима идентификация каждого публикатора.

То, что мне это не нравится — другой вопрос, но против фактов не попрёшь.

Floks Aug 4 2009 at 11:35

Чтобы эта идея ожила поисковик должен быть магом и волшебником. Представьте, какой колоссальный объем информации придется обрабатывать этим бедняжкам при ранжировании страниц!
Вы предложили организовать данный сервис анологично яндесовской аддурилке, да только страниц ежедневно появляется на порядок больше, чем сайтов, а аппаратно реализовать данную систему в наши дни с необходимым быстродействием нет возможности.

msalomatin Aug 4 2009 at 11:37

Предложенный вами подход – это попытка перенести/поддержать устаревшие бизнес-модели медиа. Он ошибочен принципиально, а значит, нежизнеспособен в долгосрочной перспективе. Я работаю в отрасли с 1999 года, с проблемой воровства контента сталкивался всё это время. Надо переходить на новые модели, а не цепляться за старые. Посмотрите вот эти материалы, если интересно.

Кроме того, в вашем предложении есть ряд слабых мест, которые делают вашу схему абсолютно нерабочей.
Первое – определение аутентичности по времени публикации. Один из моих конкурентов брал мои новости и указывал время публикации на 10 минут раньше. Доказать своё первенство невозможно – всегда можно сослаться на политику выдачи контента с намеренной задержкой, сбои в каналах передачи и т.п.
Второе – алгоритмы поисковых систем сами по себе стоят на низком уровне развития, в силу разницы форматов новостного контента поисковик зачастую не может корректно определить, что контент из разных источников это всё одна новость, об одном и том же. Десятки раз сталкивался с этим на Яндексе и Гугле.
Третье – проблема «Драматургии из „Собачьего зала“

Ещё раз вернусь к тому, с чего начал. С чего вы взяли, что копипаст плох? Нет-нет, я не об этике. Задумайтесь над самой постановкой вопроса. Почему СМИ, которое призвано массово распространять информацию, борется с тем, что кто-то помогает ему это делать? Смените бизнес-модель, и проблема решится сама собой.

Inversion Aug 4 2009 at 11:51

Первое – определение аутентичности по времени публикации. Один из моих конкурентов брал мои новости и указывал время публикации на 10 минут раньше.

Вы не так поняли схему с зявкой на авторство.

поисковик зачастую не может корректно определить, что контент из разных источников это всё одна новость

Тупого копипаста это не касается.

Почему СМИ, которое призвано массово распространять информацию, борется с тем, что кто-то помогает ему это делать?

Потому что есть такие, которые тупо публикуют твой текст и не делают ссылку на источник — вот основная проблема копипастинга, и то, чем он так бесит.

msalomatin Aug 4 2009 at 12:00

> Потому что есть такие, которые тупо публикуют твой текст и не делают ссылку на источник — вот основная проблема копипастинга, и то, чем он так бесит.

Правильно ли я понимаю, что для вас это проблема больше эмоциональная, этическая, чем материальная? Если да, то извините, я характеризовал её как бизнес.

Inversion Aug 4 2009 at 12:08

Правильно ли я понимаю, что для вас это проблема больше эмоциональная, этическая, чем материальная?

Не совсем так.

Goodkat Aug 4 2009 at 12:17

в суд подать не пробовали?

Rulez Aug 4 2009 at 15:33

на всех копипастеров нужно много денег для судовых исков :(

Goodkat Aug 4 2009 at 15:43

всю рыбу из реки не выловишь

выбрал ближайшего, который находится в том же государстве, а лучше — в том же городе, подал в суд, выиграл дело, окупил расходы за счёт ответчика, вывесил на сайте сканы решения суда, потом принимайся за следующего

коль вы так чтите копирайты, берите пример с RIAA и компании — они не могут засудить всех и каждого, но они выигрывают одно дело за другим, на устрашение оставшимся

Rulez Aug 4 2009 at 16:00

И успешно завоевали себе имидж пидоразов

Goodkat Aug 4 2009 at 16:09

ну у тебя всегда есть выбор, или ты за свободу информации, или за "пидоразов"

Rulez Aug 4 2009 at 16:56

Я за свободу информации

tgm Aug 4 2009 at 16:00

Эмоциональность поста действительно зашкаливает.
Это скорее крик души чем продуманная идея

The_end Aug 4 2009 at 12:15

В меру возможного-разумного идея давно уже реализована, хоть и без примитивной формочки «заявку на авторство». Называется Яндекс-новости. Кроме как модераторский отбор доверенных источников других вариантов не видно.

Если распространить на весь индекс — что изменится? Придется точно так же бороться с дублями, но не в собранном, а в присланном индексе.

PS идею сделать спецательную формочку «дарили миру» на серчах не один раз.

tgm Aug 4 2009 at 13:31

Вижу много минусов в вашей статье:

— заявка на сайт и оригинальный контент… Простите, а если оригинальный контент обновляется каждые 10-15 минут? А если на форуме оригинальный контент, куда пишут сотни?

— определение оригинальности контента — проверка 100% совпадения? Ерунда. Легко можно сделать не 100% и тогда будет оригинальный в соседнем блоге. А если не 100% — через неделю любую запись в блоге, форуме или новостях поисковик будет считать копипастом. Очень скоро поисковик начнет понижать рейтинг даже у самих новостных агенств — из-за не 100%-ого совпадения контента…

— не совсем правомерные действия на копипаст, который не очень-то и считается преступлением.

Так что, дорабатывайте идею :)

Inversion Aug 4 2009 at 13:39

Простите, а если оригинальный контент обновляется каждые 10-15 минут? А если на форуме оригинальный контент, куда пишут сотни?

Давайте рассматривать отдельные публикацию научных трудов, исследований, аналитики, где авторство важно, а не опускаться до форумов.

-1

Rulez Aug 4 2009 at 15:35

разве форум это опускаться, есть очень много примеров когда на форумах, есть такой контент и он настолько ценен, что его нет нигде больше и главное он решает проблему того кто искал ее решение

Inversion Aug 4 2009 at 15:43

Ну я имел в виду не форумы, которые служат платформой для публикаций (тогда объектом становится отдельная страничка с материалом, не комменты), а те, на которых только обсуждают.

Rulez Aug 4 2009 at 15:59

А не важно какой размер публикации, и не важно где был найдет онтвет, обычно ТС(топик стартер) пишет вопрос, а не ответ

Inversion Aug 4 2009 at 13:42

определение оригинальности контента…

Тупой копипаст определить не сложно, а рерайтинг уже не так страшен.

tgm Aug 4 2009 at 16:13

Ну если вы ратуете за поиск скопированного материала вручную со страницы, тогда ладно. Этим вы избавитесь от нескольких неудачников.

Достаточно будет переписать скрипты, которые забирают материал с сайтов, таким образом, чтобы они слегка правили его (например вставляли пару не значащих абзацев, меняли несколько слов на аналогичные либо переставляли предложения).

Вот и добъетесь вы каких-то результатов, только вот каких — непонятно.
Программы пауки продолжат сбор контента и даже никак не отреагируют на глобальные изменения в поисковиках.

Inversion Aug 4 2009 at 13:44

не совсем правомерные действия на копипаст, который не очень-то и считается преступлением

Речь едёт об тупом копипасте без ссылки на оригинал. Не считаю такую практику нормальной.

tgm Aug 4 2009 at 16:07

Вы знаете, а мне обычно плевать, где я найду ответ на свой вопрос — в оригинале или копии.
Главное, чтобы найти его быстро. И чем больше копий — тем быстрее найду.

Копирование материала, конечно-же плохо, но не подсудно. Это как борьба с зайцами в транспорте… И пока объективных решений нет.

rg_software Aug 4 2009 at 13:59

А вот я выскажу непопулярное мнение, что проблема должна решаться в юридической плоскости, и нарушители наказываться рублём.

Если я спёр чужую статью и подписал своим именем (или не привёл имени настоящего автора, что есть почти то же самое, или хотя бы не написал явно, что автор мне неизвестен — и такое бывает) — надо подавать в суд и получать компенсацию, а не надеяться на «интеллект» поисковика. Они и так уже слишком умные стали (поисковики) — норовят выдавать то, что им хочется, а не то, что мне нужно

Например (сорри за оффтопик) попробуйте набрать «download free mp3 beatles» в гугле — релевантность будет нулевой, ибо ни один из сайтов первой десятки реально не даст вам ничего скачать нахаляву. Я понимаю, пиратство, всё такое, но поисковик должен искать то, что я от него требую, а не становиться верховным судьёй и гнуть свою политику.

sir_Jack Aug 4 2009 at 14:10

А мне кажется это не будет работать. Это занимает немало времени и бабла много не срубишь (хотя про бабло я не знаю).
Плюс необходимо доказывать что контент именно твой…

rg_software Aug 4 2009 at 14:11

Ну вот вы думаете, что проще грамотно переделать поисковики.
А я надеюсь, что с тем же успехом можно подредактировать законы — чтобы доказательства занимали меньше времени, а бабла можно было получить больше…

-1

Inversion Aug 4 2009 at 14:31

с тем же успехом можно подредактировать законы

Ага, во всех странах?

rg_software Aug 4 2009 at 14:55

Мило. А вас не смущает, что хозяева поисковика и будут, фактически, вместо закона во всех странах? Просто дикий запад какой-то…

Inversion Aug 4 2009 at 14:59

Ранжирование в поисковой выдаче — это не то же самое, что регулирование на юридическом уровне.

rg_software Aug 4 2009 at 15:27

Эх, иногда это даже хуже. Одно дело штраф заплатить, а другое — когда твоя фирма в выдаче гугла уходит на третью страницу. И гудбай, бизнес :(

texnikru Aug 4 2009 at 14:25

Возможно схема, когда искомая информация представляется в виде ссылки на сайт автора(?) является устаревшей.

Это я все к тому, что зачем человеку искать информацию, да по сайтам серфить. Есть портальные яндекс/майл.ру/рамблер, которые предоставляют доходчивый сервис вида все-в-одном т.е. почту, магазины, библиотеки, игры, объявления, адреса, карты и т.п. С развитием интегрированных сервисов поиск по чужим сайтам уже не очень-то и нужен будет…

Inversion Aug 4 2009 at 14:33

поиск по чужим сайтам уже не очень-то и нужен будет…

Ничего себе портальчик должен быть :)

Troppus Aug 4 2009 at 17:14

Как быть с публикациями, допустим, классической литературы или какого-нибудь народного фольклора?
Получается, кто раньше его опубликовал, того и права? :-)

victor_lavrenko Aug 4 2009 at 18:44

Меня тут автор топика попросил высказаться — и я могу так сказать. Крупные поисковики, с их прибылями, могут встать на защиту кого угодно. У гугла, например, на счету без дела лежат 20 млрд. долларов.

На эти деньги гугл может встать на защиту, например, больных российских детей, информация о болезнях которых распространяется из блога в блог и купить им всем лекарства — ведь гугл так любит блоггеров. А у яндекса так вообще яндекс-блоги есть — тем более яндексу стоит купить лекарств, а не копить сотни миллионов долларов прибылей на своих счетах. Но они этого не делают (по крайней мере в заметных масштабах) и, честно говоря, я не очень понимаю почему. Ну т.е. я не понимаю — если они не тратят деньги на развитие технологий, ну пусть акционерам дивиденды заплатят, чтобы акционеры могли их потратить на развитие технологий или на благотворительность, или сами на благотворительность потратят — покупали же российские банки до кризиса для российских детских домов оборудование, делали ремонты.

Так что мне кажется, тут все упирается не в технологические проблемы, а в некую социальную ответственность. У нашей компании пока таких прибылей нет, но и до защиты прав авторов контента мы обязательно когда-то доберемся, спасибо за идеи!

-1

Inversion Aug 4 2009 at 19:18

Спасибо, за внимание.

Show the best of all time