Pull to refresh

Comments 50

Абсолютных гарантий безопасности никто не даст (привет РЖД), но мы прикладываем значительные усилия в этом направлении.

Похоже, тут переизобретают The Brain


Основная проблема с тегами — что после некоторого порога ты перестаешь помнить весь список и у одного документа получается тег 'лекция' а у другого 'учебные материалы'. Плюс сами по себе теги — должны быть иерархическими 'учебные материалы/лекция' и 'учебные материалы/задачник'


итд итп. Интерес представляет не красиво нарисованный граф (пользы от него довольно мало), а как решается проблема генерации и расстановки тегов.

Мы знакомы с The Brain с года 2015 (может еще раньше). Единственное сходство — сама задача, которую мы пытаемся решить, но совершенно разными способами.

Фишка нашей системы в том, что иерархию строит алгоритм и не нужно с ней запариваться.

А красивый граф (у нас он еще не допилен) позволяет найти «забытые» теги. Это возможно, т.к. после вычисления меры сходства «понятийно» связанные теги находятся ближе друг к другу. Т.е. рядом с тегом программирование на графе будут располагаться «С++», «php» и «java». А «UX» будет чуть вдалеке и тяготеть еще и к тегу «Дизайн».

Если залить много документов (как у меня), прослеживается четкая кластеризация графа по областям интереса и навигацию можно производить уже по нему.

Ага. 'трансформер' — это про игрушки-роботы или те, что в машинном обучении?


Фишка нашей системы в том, что иерархию строит алгоритм и не нужно с ней запариваться.

Вот это и надо было подробно описывать, а не то что в статье есть.

Похоже, тут переизобретают The Brain


Не думал, что они еще живы. Когда-то пробовал этим пользоваться, но вау-эффект связей и анимации был сильнее, чем реальная польза и удобство. Чем-то похоже на интерфейсы компьютерах в околофанатстических фильмах.
Тут кстати круто бы было взять что-то типа Word2Vec и получить при наборе тега предложение, что может ты имел ввиду вот этот тег?
Лицо проекта — веб-сайт — уже оставляет негативные впечатления. Анимации неуместны и делают «фактическое время загрузки» страниц секундами десятью. Плюс крупная вёрстка одной полосой во всю ширину годится разве что на телефонах (или совсем старых мониторах), а у Вас продукт вроде для ПК сделан.
И мне чёт не удалось найти сведения о лицензии на клиентское ПО…
А идея замечательная, и неплохо, что довели до какого-то релиза.
Вот только совершенно не понимаю решение о переходе от десктопного приложения к веб-расширению. Лично я не раз думал о том, чтобы наворотить себе подобную систему под собственные хотелки, и, думая о фичах и сложностях реализации, представлял её с нативной программой в основе.
1. Сайт делался как промо-страница, поэтому так выглядит. Спасибо за комент. Обязательно учтем.
2.
И мне чёт не удалось найти сведения о лицензии на клиентское ПО…
Что вы хотите увидеть? Напишите, plz.
3. Если тема окажентся интересной, будем доводить до ума нативные приложение.
где вы раньше были, мне 2 года назад пришлось писать собственную программу для организации документов с тегами. Я так и смог найти адекватную программу, именно под свои нужды image
Для любителей держать базу знаний локально и в markdown-файлах, Obsidian умеет что-то подобное.

Но по моему личному опыту, подход с тегами как-то не особо сработал. Возможно, надо попробовать еще разок.
Obsidian

Спасибо за наводку. Добавим в список похожих продуктов.
Большинство людей, которые приходят к необходимости такой системы для себя, одним из критериев считают self-hosted. То есть нужна коробочная версия, а не сервис. В этом направлении думали?
Да. Основное направление развития — нативные приложения с возможнотью работы offline. Сервис будет использоваться для синхронизации и быстрого доступа без необходимости установки полноценного приложения.
Ну, это все же не то. Сервис канет в лету, и все накопленное останется в разрозненных местах, которые никогда уже не объединятся. И это еще если оставить за рамками прохождение контента через сторонний сервис.
Если продолжать идею нативных приложений с возможностью работы offline — то тогда еще и серверную компоненту, которую можно поставить к себе, и соответственно возможность везде указать свой адрес синхронизации. А для монетизации — вечную лицензию на серверную компоненту, или подписку на услугу синхронизации через родной сервис.
Единственное правильное направление — децентрализованная сеть, в которой происходит непрерывный обмен как документами (книги, статьи, разумеется только то что пользователь расшарил) так и метаинформацией о них. В этом случае метаинформация никогда не пропадет — она будет храниться оффлайн у тысяч, а то и миллионов пользователей, и силами этих пользователей постоянно обновляться и совершенствоваться.
Задачи бывают разными. Облака — это ваши данные на чужих серверах. В ряде случаев чужие сервера — неприемлемое условие.
А я разве писал про облака?
Я имел в виду оффлайн хранение данных и обмен метаинформацией в p2p сети.
Согласен с идеей осуществления синхронизации между устройствами клиента напрямую. Для тех кто не захочет париться с настройкой и хочет независимое хранилище может использовать сервис.

Сервисов синхронизации файлов — уже целая пачка. Разумным предположением будет, что папку с данными пользователь как-нибудь при помощи их синхронизирует. И писать приложение, которое этот процесс понимает и не ломатется при использовании такой внешней синхронизации.

Сейчас на сайте представлены расширения для браузера. Не проверял где они хранят данные физически, но полагаю в где то каталоге пользователя в браузере. Синхронизировать сторонними решениями его целиком, особенно для разных браузеров — вряд ли возможно.

Ближайший схожий пример — сервис-заметочник Leanote. Тоже куча нативных приложений, включая расширения, а сервис синхронизации можно как встроенный использовать, так и свой установить.
Сейчас на сайте представлены расширения для браузера. Не проверял где они хранят данные физически, но полагаю в где то каталоге пользователя в браузере. Синхронизировать сторонними решениями его целиком, особенно для разных браузеров — вряд ли возможно.

Вот это расширение и должно хранить данные не где-то, а использовать популярные API для файлов. Смотри, например, draw.io. При необходимости открывает файл прямо с Google Drive. One Drive, локальный файл.

важный вопрос: сможет ли ваша система потянуть тысячи тэгов и десятки тысяч файлов, без заметных тормозов, и с резервным копированием, потому что без этого на полном серьёзе хранить какие то важные файлы и наработки в такой структуре мало обоснованно
Сервис как раз проектировался для работы с «тысячами тегов и десятками тысяч файлов». Так, например, в качестве id у нас используется UUID, а система заточена под горизонтальное масштабирование.

Сейчас обкатываем саму концепцию и технические решения на web-закладках, т.к. с ними проще. Вопрос надежности частично решается наличием у нас импорта/экспорта. Даже, если не взлетит, разошлем письма и пользователи смогут перетащить свои закладки в другие приложения.
Ок, а как она будет работать с тем, что на каждый файл будет, допустим, несколько десятков тегов, можно ли группировать теги и строить их иерархические связи? (например, теги «год издания» — включает все года выпуска, тэги «номер в году», группа тэгов «животные»)
И да, десятки тысяч файлов в этом случае будут давать под сотню тысяч тегов…

Так, ну хорошо, вы переизбрели semantic web. Отлично.
И даже хватило терпения протолкнуть среди живых людей. Вообще красота (это правда).
То, что только через веб — это тоже понятно, виндовс эксплорер не умеет в многомерные критерии отбора (проект Microsoft WinFS так и не взлетел).
Внимание — вопрос: как из (например) GrandSmeta открыть файл сметы прямо из этого мегахранилища?
Так, чтобы потом нажал ^S (или дискетку) — и ушел домой спокойный.
Берем такие: Файл — Открыть (или, в большинстве случаев, "Открыть недавние") — и?..


И да — повторить эксперимент с Linux и macOS.
В графическом и текстовом режиме (командную строку для тотальной обработки файлов никто не отменял).

Отличная тема! Я об этом много думал и сейчас иногда думаю.
В общем, если брать пример с книгами, то наверное базовая иерархия все-же нужна, но и теги нужны тоже. Например, «Программирование» и «Qt» это не равноправные теги: «программирование» однозначно тег верхнего уровня, «Qt» — вложенный тег (причем между ними еще должен быть тег «C++»). Однако часто бывают ситуации когда теги действительно равноправны. Наиболее очевидный пример — статьи со сравнением двух технологий. Также — некая взаимосвязь технологий (когда одна используется для другой). Книги по программированию микроконтроллеров относятся одинаково и к программированию на конкретном языке (скажем Си), и к микроконтроллерам конкретного типа. Книги по программированию под некую ОС (Windows, Linux) — одинаково к программированию на языке (скажем С++) и программированию под ОС.

Проблема еще в современных файловых системах. Они совсем не базы данных. Хотя где-то там, внутри, у них есть какие-то дополнительные возможности типа хардлинков, симлинков и файловых потоков, этого все равно недостаточно. Но некоторые задачи можно решить с их помощью. От иерархической файловой системы все равно никуда не деться, и поддерживать на диске порядок в виде документов, сгруппированных в иерархической системе папок — это правильно. В Либгене например имена книг — это просто md5 хеши, все файлы лежат в куче, и найти что-то без софта просто невозможно. ИМХО, это не есть хорошо, это просто снижает надежность системы — если софт или база сломается, то найти что-либо не удастся в принципе (и вот кстати отличный пример применения файловых потоков или расширенных атрибутов — все хеши должны храниться именно там, а не в имени файла; также как и вся метаинформация типа автора, года издания и языка).

Ну и есть еще множество аспектов, тут надо целую статью писать, в комментарий не влезет. Сейчас, вспоминая свои заметки по этому вопросу, я отмечу лишь мысль о необходимости объединения подходов с иерархией и с тегами.
Базовая иерархия нужна — у каждого документа есть базовое место в ФС («главный тег»);
Если у документа два равноправных места в ФС, то применяется хардлинк;
Также у документа есть теги, позволяющие более точно описать документ, построить граф связей, определить место документа в поисковой выдаче и т.д.
Для себя написал десктопное приложение FAQ Net (только под Windows) — офлайн заметки с поиском по всей базе (операцией LIKE)
Иерархический список документов, быстрый поиск, создание таблиц и картинок, функция резервного копирования, всплывающие подсказки трех типов (это уникальная функция приложения, чтобы переходить по документам внутри приложения, без создания ссылок). Имеется журнал (последние 50 измененных документов).
Выложил проект на github.
Документы хранятся в одном файле (база SQLite)
Пользуюсь несколько лет. Тестировал на больших базах (около 2Гб), поиск работает шустро.

Было пожелание добавить офлайн браузер, чтобы пользователь указал ссылку и в документе сохранялся скриншот.
А как в вашем случае работает поиск: только по тэгам, по словам или по части слова по всем документам?
Есть тестовый аккаунт?
На данный момент реализован поиск только по тегам. В планах сделать гибридный поиск по тегам и контекстный поиск в одной строке. Сейчас прорабатываем UI.

Вы можете без проблем зарегистрироваться. Это займет не более 20 секунд (подтверждение e-mail не требуется).

Будем признательны за дельную критику и советы.

Ребят, если не секрет, а зачем вам OpenStack для ТРЁХ серверов и одного "проекта"?
Это для инвесторов вкусные слова или действительно есть технологический профит?

Если честно, вот три основных причины:
1. саморазвитие;
2. используем в других проектах;
3. есть возможность горизонтального масштабирования «стрельнувших» проектов;
А еще нам «очень нравится» Аmazon с поддержкой через форум и забавными письмами. Кто не покупал поддержку поймет.
Очень интересно и, похоже, то, что нужно. Жаль только, что вы закроетесь через пару лет.
Сходил на сайт, долистал до конца. Возник вопрос: почему у вас в команде нет ни одной темнокожей женщины?
делали что-то подобное — связь всего со всеми.
Самое сложное оказалось не сделать, а:
1 Первоначально разложить все что накоплено по полочкам.
2 Правильно все декомпозировать
3 Создать набор тегов
Но из всего задуманного реально используется 10% так как пользователи просто не могут все делать правильно и либо должна быть отдельная команада которая за этим будет следить или использвать только важный минимум.

Какую проблему решает сервис? Документ и закладка это разные слова и смыслы.

На наш взгляд это то документы, только разного типа.
Уже несколько раз на Хабре подобные были статьи, обсуждения.
Итак, первое:
У тэгов должна быть своя иерархия, для группировки, то есть берём «издание», сразу подтягиваться должны поля: год, автор на русском, автор на английском, автор на родном языке, название книги (те же несколько полей по языкам).
И хорошо, если это роман. А если сборник? Ага, добавляем кучу связанных произведений с их авторами, названиями (и хорошо если только на русском).
И теги, собственно по стилям и формам
— рассказы, романы, повести
— фантастика, драма, мистика.

Ок, а теперь добавляем, что теги должны быть персональные и общие, то есть если хотим поделиться куском базы — личные тэги не уходили бы всем.

Но главное, что без старых добрых диаграмма Эйлера — Венна вы во всём этом толком поискать и не сможете)
Joplin прекрасная штука, огромное спасибо за наводку. Для тех, кто не знает — приложения под все платформы, веб-клипперы, мобильные приложения, шифрование, 7 вариантов синхронизации, каждый из которых можно поднять локально.
Единственное — индексации приложенных файлов нету вроде, и непонятно как оно с большим количество данных работает
А если покетовский файл экспорта импортировать, сервис теги (они там в атрибуте к ссылке перечислены) подхватит?
Я просто оставлю это тут (чем сам пользуюсь):
— иерархические записные книжки:
— Mars Notebook (https://mars-soft.net/mars-notebook/)
— MyNotesKeeper (http://www.mynoteskeeper.com), аналогично предыдущему, + в базе может быть несколько деревьев документов
— база книг:
— Calibre (https://calibre-ebook.com), ну его уж все наверно знают, аналогов просто нет
Добавлю еще Zotero. Пользуюсь им уже больше 12 лет.

Сначала пытался пользоваться тэгами, но быстро пришел к выводу, что это неудобно. Во первых, тэг от книги Достоевского и тэг от техдокументации суть разные вещи. Бесполезно связывать их в одном облаке или графе.

Зато возможность создания коллекций, когда один документ может входить в несколько папок и полноценный текстовый поиск, почти полностью перекрывают необходимый функционал.

Ну и, для файлов типа даташитов, совершенно нет необходимости какого либо тегирования — достаточно раскидывать их по папкам производителей, с последующим натравливанием чего-то типа Архивариуса или Recoll.

Что касается облачных сервисов, то без локального кэширующего клиента не обойтись, т.к. должна работать функция «открыть последний документ», «открыть в другом окне» и прочее. Кроме того, некоторые документы связаны между собой и должны храниться в одном каталоге, а с этим у облачных сервисов совсем плохо.
На самом деле тоже прихожу к такому же выводу, что лишние теги сильно захламляют структуру, в которой легко потеряться. А вот выборочное запихивание одного файла в несколько папок (ссылки на файл) — другое дело.
>> поддержка технологии drug and drop,
Хорошие технологии, где накопали? На главной в разделе «что это»
Еще сделал запрос на восстановление пароля, пока не пришло. Вручную отправляете?
p.s. по ссылке из расширения которая сверху стрелочка переходит на версию "/en/profile" хотя мой язык русский.
p.p.s. Поиск по документам в Расширении — где? Или оно только для «создать документ»?
Я открыл чистую вкладку в браузере, хочу найти документ(ссылку) по тэгам, куда его вписывать? Нужно поле Поиск, мне кажется.
p.p.p.s. Нашел ограничение отображаемых документов в списке в «default/storage», там где тэги не выбраны. Сортировка справа «по имени обратная» с буквы Я до буквы С только вижу. «по имени прямая» с буквы A до буквы C. Непорядочек, как искать?

Так же при импорте закладок из Хрома не прописались тэги по имени сайта, есть множество закладок с сайта E1.ru допустим, почему бы не сделать такой тэг?
Добрый день.
1.
Еще сделал запрос на восстановление пароля, пока не пришло. Вручную отправляете?
Посмотрите, может, в спам попало? Должно прийти.

2.
по ссылке из расширения которая сверху стрелочка переходит на версию "/en/profile" хотя мой язык русский.

Спасибо, за bagreport. Добавили задачу. Исправим.

3.
Поиск по документам в Расширении — где?

В текущем плагине строка с тегами, используется и для сохранения и для поиска. Да, возможно, не самое изящное решение. Нашли нормальных UХ-дизайнеров будем переделывать.

4.
Нашел ограничение отображаемых документов в списке в «default/storage», там где тэги не выбраны
Идея была в том, что почти никто не крутит в самый низ. Как пример, сделайте в гугле поиск по слову C++. Он выдаст, что нашел несколько миллионов страниц. Попробуйте, найти последнюю. Мне это тоже не нравится.
У нас сделаем ленивую загрузку, но задача не высокоприоритетная.

5.
Так же при импорте закладок из Хрома не прописались тэги по имени сайта, есть множество закладок с сайта E1.ru допустим, почему бы не сделать такой тэг?

Спасибо. Добавили задачу. Исправим.
Хорошие технологии, где накопали? На главной в разделе «что это»

Изначально сайт делался для offline приложения, потом сосредоточились на web версии. В процессе забыли выпилить этот текст. Спасибо.
Only those users with full accounts are able to leave comments. Log in, please.

Information

Founded
Location
Россия
Website
thesynaps.com
Employees
2–10 employees
Registered
Representative
Ilya Sharkov