Pull to refresh

Comments 22

Обещал «Другие (в комментариях)»: WikiMedia.
Тут как раз зарыта интересная собака в виде различных интересов науки и государства. Наука заинтересована в сборе и обработки информации из всех источников, и в регуляции всех со всеми. Государству же нужны только доверенные и разрешённые. Выбирая различные стороны мы будем получать различные решения.

Блокчейн, очевидно, не нужен, если вся система идёт в опенсурс и Open Science (про это тоже есть в документации). В этой концепции не нужна система, гарантирующая доверие сторон друг к другу. WikiMedia в качестве примера.

Многие факторы в выборе сами по себе спорные. Например, про небольшое количество данных на транзакцию. Когда речь идёт о государственной юридической системы, единственный ответ, который можно дать: «Мы не знаем». Систему нужно проектировать с расчётом на 25 лет существования минимум. Как за это время поменяются государственные требования и вообще государственные технологии — мы не знаем.
Государству же нужны только доверенные и разрешённые.


Государству нужны полностью подконтрольные. Такие, которые можно когда угодно добавить, изменить, заменить, удалить.

Блокчейн в данном случае «слышал звон...», модное словечко. Затрудняюсь представить себе этот оксюморон — «государственный блокчейн».
Как-то глупо всё слепили в кучу… (у гос заказчиков это хроническая болезнь)
… ИМХО главный смысл блокщейна, удостоверять что-либо, применительно к авторскому праву можно удостоверять приоритет и при поддержке государства, это был-бы не плохой инструмент…
Старые изобретатели не дадут соврать, был такой хороший механизм, отправлять самому себе документацию по почте (физической), и хранить её в закрытых конвертах, что-бы иметь возможность в случае чего доказать свой приоритет, и вроде бы даже были судебные прецеденты.

Однако авторское право не сводится только к установлению и охране приоритета, это лишь аргумент, один из… Так что на самом деле всё сложно.
Да это же очередное рассовывание бабла по карманам
Это как раз очевидно. Но я всё-таки думал, что техническая интеллигенция должна из всего извлекать рациональное зерно. А здесь оно есть. Глупо это игнорировать.
Рациональное зерно здесь есть, сорт называется «Нетратьтеденьгиналогоплательщиков».
Так как это система управления правами:
1. Создается сайт государственный.
2. Любой человек может разместить там данные на публичное/приватное хранение безотзывные данные по госключу (что получаем для работы с госорганами) Оплачиается хранение 1 раз и навсегда.
3. Занесенные данные обладают приоритетом и юридической значимостью в суде.
Вставлю пять копеек от науки, ибо универсальны для любой области знаний.

1. Платформ сугубо для обмена знаний хватает (ResearchGate, например). А вот если бы такая платформа еще защищала авторство (т.е., что идею и данный текст предложил именно Вася) — такое было бы весьма интересно. В идеале, это должно работать с полным текстом, а не в виде обычного идентификатора, то есть интегрировать функцию антиплагиата.

2. Выложить статью в серьезный журнал в открытый доступ — около 2 000 USD, в ответ журнал дает определенную гарантию, что такая статья имеет некую научную ценность. Можно выложить и бесплатно (платить будут покупатели), но остается ключевая функция журнала — оценка научной ценности статей. Предлагаемая система этого не делает, соответственно, предложенный функционал — очередной вариант библиотеки.

2.1 Вопрос о качестве научных знаний — вообще достаточно больная тема. Современная (сложившаяся в 1970-е) система фильтров представляет собой следующее: отсев научным руководителем, отсев внешним рецензентом, отсев экспертом журнала, отсев сообществом (aka актуальность и востребованность). Так вот, медианное значение доли не востребованных сообществом публикаций от всех опубликованных — 53% (данные доклада А. Немцова, Е. Кузнецовой-Моревой на примере исследований в медицине, сентябрь 2017, МЦНТИ). На предыдущих этапах отсеивается не меньше, но тут могу опираться только на субъективные данные. Кстати, упомянутая "Необразованная молодежь" имеет к этому определенное отношение.

3. К мысли о приоритете государства и приоритете науки. В предложенной форме приоритеты совпадают (если не брать технологии двойного и оборонного назначения, тут — отдельная песня). Я бы формулировал этот вопрос таким образом: если проект взлетит, то в какую сторону пойдет его развитие? Вот тут действительно возможно расхождение интересов.

3.1 Есть не только национальные, но и международные инициативы на эту тему, желающие могут глянуть, например п. 70 Повестки дня 2030 ООН, вторая точка. Несмотря на всю критику Организации грамотно позиционированная международная платформа серьезно снижает вероятность конфликта интересов.

Завершая мысль. Извиняюсь за некоторый отход от темы, но продиктовано это тем, что все те проекты, которые направлены на решение сложившегося в науке застоя не решают проблемы комплексно (по крайней мере те, которые довелось просмотреть, включая настоящий). Мне кажется, что было бы интересно обсудить, как могла бы такая система выглядеть.

Мы тут на мозговом штурме где-то описывали прототип комплексного решения. Интересно то, что госзаказы, ссылки на которые я давал, словно дёргают оттуда отдельные части. Правда, наша работа скорее образование, чем наука.


Интересно то, что заказчики, в том числе, государственные, готовы платить за разработку отдельных частей, но не системы целиком. Отчасти потому, что система целиком может нарушать государственные интересы. Например, если некий профессор Попов напишет учебник по философии, такой учебник может в режиме честной социальной конкуренции обойти государственные учебники. Но это будет марксистский учебник с марксистской философией, ибо профессор Попов — марксист. А государство капиталистическое.


По другим вопросам альтернативные решения давно уже есть. Для антиплагиата есть ContentID. Научную ценность можно подтверждать по концепции WikiTribune. А вот с международностью есть определённые плохо разрешимые проблемы. Ибо, во-первых, практически все государства вознамерились решать, какую информацию граждане получать могут, а какую — нет. Во-вторых, государства напрямую заинтересованы в необразованности и антинаучности вероятного противника, а таких пар вероятных противников в мире наберётся с десяток.

Я так понял, под «мозговым штурмом» подразумевалась эта статья с комментариями?

Например, если некий профессор Попов напишет учебник по философии, такой учебник может в режиме честной социальной конкуренции обойти государственные учебники. Но это будет марксистский учебник с марксистской философией, ибо профессор Попов — марксист. А государство капиталистическое.

Встречал я такие вещи, хотя и не в отношении пары «марксизм-капитализм». Но мне кажется, что тут суть немного в другом: учебник должен быть априори аполитичен (например — технические специальности), а если такое невозможно из-за самой сути предмета (история, международка), то представлять на своих страницах аргументы 2-4 наиболее крупных школ в данном вопросе, чтобы заставить учащегося включить собственные мозги. Либо это должна быть пара учитель+учебник, но вот хороших учителей, в отличие от учебника, не размножишь.

А вот с международностью есть определённые плохо разрешимые проблемы.

Проблемы, конечно, есть. Только вот в отличие от национального уровня с его хотелками по контролю и укладыванию проекта в русло национальных и государственных интересов, на международном уровне эти проблемы имеют как минимум теоретическое решение. Кстати, практическое решение (одна из ключевых частей) — финансовая независимость проекта.

Пара примеров от образования
Довелось мне поучаствовать в проекте создания и сопровождения совместных международных программ по политологии и международным отношениям, то есть априори политизированным дисциплинам. Господдержки там, естественно, не было, противодействия, правда, тоже. А вот после окончания обучения студенты были нарасхват в бизнесе, было даже два случая когда одна немаленькая немецкая компания оплачивала обучение.

Второй пример — европейские программы Эразмус. Ориентированы они больше на язык, но стандартной полугодичной программы более чем хватает, чтобы избавить ребят от подавляющего большинства стереотипов.

Ибо, во-первых, практически все государства вознамерились решать, какую информацию граждане получать могут, а какую — нет.

Лет 8 или 9 назад задав вопрос о российской позиции одному весьма умному и сведующему специалисту, получил ответ: «Выработать общие правила поведения в информационном пространстве и их придерживаться». Сегодня же эта позиция как-то забылась и мы имеем две крайности: штатовский free for all с его чуть более умеренным европейским вариантом и китайский концепт разграничения зон влияния, сильно напоминающий феодальную схему, и его довольно лайтовый (на сегодняшний момент) российский вариант.

По другим вопросам альтернативные решения давно уже есть. Для антиплагиата есть ContentID. Научную ценность можно подтверждать по концепции WikiTribune.

Действительно, но это опять отдельные инструменты или концепции, которые весьма полезны, но пока не способны как-то системно изменить ситуацию в науке и образовании. А вот спрос на повышение качества науки и управления ею есть. Я уж не говорю о снижении паразитных временных затрат типа «проведи 2 недели в бегах, чтобы оформить командировку на однодневный научный симпозиум».
Несколько проблем, причем общих, а не только описываемой системы:
1. «Ветви»: допустим, в 80е была написана статья, ставшая классической, и от неё потянулась цепочка цитирований. В 00е на новом уровне инструментации метод классической статьи был проверен и была показана его ошибочность, и от этой публикации потянулась новая цепочка, при этом старая не прервалась. Очевидно, что точки противоречивы, и верной может быть только одна (описанный случай лично я видел дважды: «точный и быстрый» кальциевый сенсор Fura-2/3 и «потенциал чувствительный» Rhodamine123). Сходные проблемы могут быть внутри одного исследователя: когда в следующей (или текущей, если препринт публиковался) работе он себя опроверг, или если объект изучения менялся с течением времени (например, Страуструп про С++).

2. Аудитория. В том же Researchgate есть полностью виртуальные исследователи, которые от действительных участников внешне отличаются только отсутствием ответ на вопросы. Данные грамотно скрейпятся: у автора проверена почта по Google Scholar — активируется кнопочка «message» в профиле, появились в пабмеде/скопусе статьи — публикуется статья в списке, статья стала открытой — подтягивается файлик, вроде бы даже новости проверяются, что «recent projects» обновить. Дергаются теги и соавторы, и на странице появляется предложение подписаться на такого фантома, подписавшимся приходят нотификации по описанным выше пунктам.
— я не в курсе, как относиться в данном случае к авторскому праву и приватности
— это удобно, потому что не требует лишних действий от участника и популяризует людей и исследования, которые даже не слышали про ResearchGate

3. Полнота данных. Для воспроизведения требуются исходники; сейчас их требует журнал, а если не теребить, все ли приложат? В старых статьях, в первую очередь доинтернетовских, исходники по определению недоступны

4. Описательные науки. Про научность истории вообще много споров, в том числе потому, что если взять дневники/отчеты нескольких очевидцев, они могут не совпасть, в том числе полностью. Плюс историю регулярно переписывают.

5. Вес авторитетов. Что можно считать фактом? Были ученые с великолепными работами, которые, тем не менее, сделали ряд закрытий, например, Ньютон, Аристотель и лорд Релей. Если сделать голосование, то их (ошибочное или недоказуемое) мнение по определенным вопросам перевесит мнение противников.

6. Тематичность. Что есть тема? Про многие вещи, особенно философские, математические и теоретические, очень сложно сказать, про что они вообще. Или. например, если метод применим к такому-то объекту, его примение (с иными выводами) к другому объекту — это новая тема, или та же? Не хотелось бы писать статьи в Owl, но как-то семантику надо размечать. Тут ещё описание может не соответствовать графикам или картинкам, что ещё интереснее, тогда совсем весело.
1. По проблеме ветвления, я странным делом технический консультант в диссертации по сущностному анализу научных статей (да, всё в жизни связано). Проблема в целом решаемая за счёт алгоритма поиска комплектов «тезис-антитезис-синтезис», проявляющихся в одном и том же контексте. При наличии определённой базы онтологических (не совсем онтологических, но это долгая история) данных задача решается без участия человека. Но это пока тема исследований, а не созданная на практике система.

2. Проблема аудитории на уровне, например, РФ, решается привязкой через госуслуги. Не знаю, где как, но в нашем региональном захолустье жить без госуслуг нереально.

3. Проблема исходников государством упущена напрочь. Хотя, например, АФК Система некоторое время работала над отечественным автотранскрибтером, чтобы переводить аудиозаписи в текстовую форму. По инсайду, проект мёртв. А вот распознавание и хранение сканов вполне себе работает посредством технологий ABBYY. Лучший способ заставить прицеплять исходные материалы — внедрить соответствующую культуру и сделать процесс достаточно удобным за счёт современных технологий. С автотранскрибтером можно было бы хоть диктофонные записи цеплять.

4. У «описательных» наук есть отличный научный аппарат. «История не наука» и «Историю переписывают» — обычные мифы, послушать про которые можно, например, на мероприятии «Учёные против мифов». Пользователей научного аппарата учёный-историк за два предложения способен отличить от шарлатана так же, как математик — формулу от произвольных каракуль. Отличие в том, что историк на месте сложносочинённых формул видит не очень красивый, но безобидный узор, а математик на полном серьёзе может видеть исторические данные у Фоменко.

5. Наука не про мнения. И в целом даже не про факты. Наука про закономерности и предсказания. Ваша закономерность работает в положенных для неё рамках — вы авторитет в этих рамках. Другая ваша же закономерность в другом месте не работает — в этом месте вы не авторитет. Наука вообще не про демократию, она изначально была иерархической, сейчас иерархическая, и, скорее всего, такой и будет. Иначе действительно будем выбирать учёных «авторитетным голосованием».

6. Снова тема работы моего технического консультирования. Раньше всё было понятно, там у нас математика, здесь история, а тут астрономия. Сейчас же человек не в состоянии это дело кластеризовать. Однако, оказалось, что машина-то в состоянии. И из машинно-определённого контекста статьи вполне можно сделать вывод: к какому направлению и дисциплине, и в какой мере статья относится. Присутствующий на хабре Александр Болдачёв этим напрямую занимается.

P.S. Сам я, каюсь, не очень скромный инженегр, но чуть ближе большинства инженегров к научной деятельности. Что вижу — то вещаю.
1. Великолепно! Я потыкался в проблему, но так и не понял, как её решать. Попросите, пожалуйста, своего курируемого скинуть мне диссер после предзащиты, глядишь, и напитоню чего (конечно, если он сам не планирует монетизировать идею). Вообще, можно ли создать онтологию, одновременно достаточно полную и при этом проще описываемого объекта?

2. Вопрос был не про то, откуда система узнает меня, а как я узнаю о системе и почему буду ей пользоваться. ResearchGate хорош тем, что им можно пользоваться, не зная, что он вообще существует. И вы же сами предлагали делать не связанную с государством структуру, какие госуслуги?

3. Культура — это хорошо, но ненадежно. К тому же эти данные надо где-то хранить, если использовать торренты, то это может как минимум поначалу лечь на автора. Для моего диплома исходники — это полтора терабайта (нежатых) фотографий. Объём данных статей, сделанных на LHC, мне страшно даже представить.

4. Верю, иного не остаётся, поскольку я в этом не разбираюсь аж совсем. Проблема в том, что в учебниках по истории каждые лет 10-20 многое меняется, например, ответ на вопрос «Кто такой Л.Д.Троцкий?» в 1917 и 1937 звучит оочень по-разному. Надо будет провести черту между наукой и не наукой, что особенно сложно, когда свидетельств просто не сохранилось.

5. К предыдущему пункту: кто и как будет отделять науку от ненауки, а истинное от ложного? Или этот вопрос не затрагивается, в центре только авторство идеи\работы? Чтобы каждый знал, кто на чьих плечах стоял? Меня очень насторожили геймификация и лайки в теле пубикации, с ними можно построить соцсеть, но сложнее систему коллективного принятия решения.

6. Тут вам всяко виднее. Я с большим интересом читаю статьи на тему, но ничего, чем можно гордиться, не написал.
1. Онтологию — нельзя. Но онтология исключает из рассмотрения динамику, рассматривает только статическую картину. Что порождает целый каскад проблем, основная из которых — эффект послезнания. То есть, онтология видит те понятия, которые были созданы уже после рассматриваемой работы, и анализ работы проводится в контексте зафиксированного в онтологии времени. В итоге мы при контекстном анализе с помощью онтологии получаем совсем не то. что видел и хотел выразить автор. Чем больше разница во времени — тем больше искажение. Ключевой момент в решении — создать диалектическое представление понятий, в котором будет учтена динамика контекстов и вывод понятий друг из друга. Это можно рассматривать либо как своеобразные онтологические слои, либо как дерево развития понятий. Древовидное представление как раз позволяет отслеживать ветви развития. А по поводу сложности при таком подходе в полной мере проявляется эффект «сложное есть сложенное из простых»: сложность зачастую декомпозируется в пересечение нескольких достаточно простых «ветвей».

2. Государство это всегда принудиловка, но для эффекта это должна быть удобная принудиловка. А без государства и подход ResearchGate вполне хорош, зачем переизобретать? Разве что, приучить всех подписывать всё приватным ключом. С авторским правом в нашем капиталистическом мире в любом случае будут возникать вполне конкретные коллизии, я их описал в статье. Единственный способ таких коллизий избежать — жить в мире, в котором кооперация и открытые данные выгоднее конкуренции и секретов производства.

3. Вопросы хранения может решить отлаженная IPFS. Институт разворачивает ноду, которая будет автоматически сгребать в себя всё, что сделано сотрудниками, на основе подписей сотрудников. Что-то похожее вроде даже было в ЦЕРНе. Поскольку IPFS это гибрид торрента и CDN, с постоянно активной нодой и хорошим каналом доставлять данные до нужной точки даже при больших объёмах не должно быть проблемой.

4. Учебники истории во все времена не имели отношения к науке, это чистой воды политподготовка. И такой подход имеет под собой научное обоснование (смотреть в «Тысячеликом герое» Кэмпбелла). У исторической науки первый критерий это грамотная опора на источники. Точнее, на комплексы источников. Яркий пример это недавняя книга «Война на уничтожение» Яковлева. Всем рекомендую любой претендующий на научный исторический подход труд сравнивать с ней. Ибо, с одной стороны, написано достаточно популярно, чтобы понять мог рядовой читатель. А, с другой, различия научного подхода и голой публицистики будут налицо. (Особенно всех забавляет Mein Kampf в качестве нарративного источника)

5. В статье есть выдержки от государственного заказчика, и мои мысли по поводу того, как эти посылы стоит преобразовать. Про защиту системы от атаки лженаучников госзаказчик не задумывался. Хотя такая атака в некоторых отраслях вполне возможна. Собственно, я предлагаю заменить геймификацию на лайки просто потому, что на, скажем, гитхабе аналоги лайков замечательно работают и стимулируют к деятельности. Геймификация здесь — очевидный оверинженеринг. Но лайки это чисто стимулирующий момент. А вот реальную авторитетность нужно определять по классической академической иерархии. Не даром этот способ организации учёных сообществ оказался столь живучим.

P.S. Это я по полученному высшему инженегр. А по заброшенному — гуманитарий. Оттого порой несу гуманитарно-технический фарш.
1. А всегда ли послезнание — это плохо? Во многих первых статьях описывалось явление (теория и т.п.), которое получало ставший впоследствии общепринятым название/термин потом, у последователей. Если послезнание есть, то базовая статья ложится в ветвь, иначе из неё нельзя извлечь тег. С другой стороны, термин меняет общеринятое значение со временем, как «либерал», «патриот» или «интеллигент», тогда послезнание, наоборот, должно порвать цепочку, что не факт, что хорошо. Не хочу скатываться в спор о словах, так что прервусь.

5. Должен быть механизм отзыва/порицания работы, в идеале — с потомками, форками и зависимостями. Сейчас это делается журналом под давлением сообщества, но если исключить журнал, то в принципе любую статью можно затоптать. Та же проблема, что с войной правок в вики: или туда-сюда, или придёт ветеран и заморозит в понравившемся ему виде.
Классическая иерархия может консервироваться отдельными людьми с помощью 3 простых приёмов: статья-паровоз (много авторов, и один из них всегда, например, завлаб), эстафетное цитирование (группа договаривается цитировать друг друга) и давление авторитета (патриарх включается в соавторы). Консервирование очень сложно сломать в одиночку, а спор между группами идёт часто не из-за правоты, а из-за личностей, aka холивар

Кстати, такой вопрос: есть много авторов, как определить чья идея, а если общая, то в какой пропорции, если contribution не указан?
5. Предположу, что если делать такую оценку, то неплохо было бы сначала обкатывать параллельные схемы — экспертный анализ и машинный. Понадобится это для взаимной верификации оценок и обкатки/доводки машинного анализа. Недостаток — упомянутая уже субъективность экспертного анализа и его ресурсоемкость во времени и деньгах.

По приемам. Из того, как их пытаются преодолеть в тех же WoS/Scopus — установка граничных значений на количество авторов и цитирований группы с последующим отсевом всех неугодных. Схема весьма примитивная и холиварная, но единственная, массово реализованная на практике, насколько я в курсе. Кстати, это же является самым простым ответом на вопрос «если есть много авторов...». Следующий в цепочке вопрос — а нужен ли более сложный метод вообще? И смежный — а каков алгоритм появления идеи хотя бы в самом общем виде.
механизм отзыва/порицания работы, в идеале — с потомками, форками и зависимостями

Помимо оценки это еще и хороший механизм поиска и структурирования информации, особенно по междисциплинарке. Был у меня один пример написания статьи на стыке четырех дисциплин, который просто потонул в куче ненужной информации, которую надо было проработать, даже консультанты не помогли.

SBKarr, так сложилось, что тоже работаю по сущностному анализу статей, но в другой плоскости — экспертная оценка и принятие управленческих решений. Посему присоединяюсь к просьбе Gryphon88 «почитать диссер», если это возможно.

PS: не знаю, были ли мысли о монетизации и если были, то какие, но в чистом виде описанное монетизировать не стоит, система попадет на проблему «разницы между одной копейкой и халявой».
5. Это да, но понадобится специалист (ы), разбирающиеся в методологии науки

Про накрутки и отзыв: способ действительно холиварный, но как-то работает. Мне кажется, другой способ нужен, но я не очень понимаю, как различить семейственность от просто узкой темы, где цитировать некого, кроме друг друга.

Про монетизацию: имхо, потенциал есть. В первую очередь в голову приходит метаанализ типа «метод-объект-результат», или хотя бы «метод-объект», если не получается вычленить результат. Недавно искал статьи по онкомаркерам и противораковой терапии, ушло очень много времени, но я не уверен, что нашел все мнения.
5. Да, и именно специалистЫ. Предложил бы первым этапом делать просто дерево статей, чтобы можно было прослеживать логику не только в направлении последователи=>первоисточник, но и обратно. А уже на построенное дерево накладывать аналитику.

Еще предположу, что если делать проект, то строго на открытых и полнотекстовых данных, тенденция со сканированием и выкладыванием ПДФ, кажется, тут не пройдет. По сразу возникающему вопросу с авторским правом — право на идею не нарушается (проектом по крайней мере), а с имущественным правом в науке легче всего — на статьях зарабатывают не столько ученые, сколько журналы, а это не нарушение права, а конкуренция.

Про монетизацию. Согласен с тем, что потенциал есть, более того, он весьма приличен. В чем я не очень уверен, так это в том, что именно такой метаанализ будет самым простым из востребованных, надо прикинуть, какие данные уже есть в доступе помимо статей.

А так, предложил бы сделать немного хитрее: базовый анализ, достаточный для отдельных пользователей, бесплатно и расширенная версия для юрлиц и коллективов платно. Только вот тут надо подумать над репутацией и как этих юрлиц заинтересовать, тут пока идеи очень черновые.
Решения с построением деревьев цитирования и их визулизации уже существуют, они пока тяжеловесные. Отдельная тонкость, что временами цитируют, чтобы покритиковать или опровергнуть.
В журналах определеный смысл есть: они выступают как реклама, координирую рецензирование и сбор отклика от сообщества, влияют на формирование рейтинга авторов и обеспечивают доступ к текстам и supplementary data. Правда, с их ценовой политикой я совсем не согласен, но это несколько другой вопрос
как различить семейственность от просто узкой темы, где цитировать некого, кроме друг друга.

Самое простое, что приходит в голову. Сначала отсекаются априори узкие темы, где существует не более N авторов за время Т. Время нужно для определения границы в темах, которые сначала были узкие, а потом внезапно обрели популярность или наоборот.

В крупных темах проверка такая. Строится социальный граф всех авторов в теме. Сила связи — количество цитирований. В логике, при нормальном распределении должно получиться несколько «корифеев», которых цитируют все и вокруг них формируются несколько слоев остальных авторов по мере уменьшения цитирования. Для слоя распределение цитирования будет довольно однородным. А вот выявленные аномалии могут быть искомым.

Из недостатков: очень грубо, нет проверки по другим методикам, обозначенные аномалии могут быть вызваны другими причинами (языковой принадлежностью, например). И еще проблемы с выборкой: если слишком мало людей — низкая достоверность. Если слишком много — начнут появляться под-темы.
Sign up to leave a comment.

Articles