Спасибо за интересный разбор! Я тот самый человек, готовивший эту фильтрацию и учивший модель. Замечание про зависимость от длины совершенно верное, но нам облегчили тут жизнь несколько факторов:
1. мы сжимали документы целиком, а не предложения, так что медианная длина сэмпла была довольно большой
2. были отфильтрованы документы ниже порога длины, чуть больше 100 символов. И выбросы с аномально высокой длиной тоже.
3. для каждого поддатасета эмпирические пороги подбирались отдельно, как раз по этой причине, в силу очень разной медианной длины документа.
Конечно, зависимость коэф. сжатия по-прежнему присутствует, но становится сильно менее выраженной на длинных документах. Сейчас продолжаем работу надо улучшением фильтров подготовки датасетов, обязательно учтем это в новых итерациях.
Генерируем ключи на обоих концах канала. Шифруем известную обоим тестовую фразу на одном из концов, передаем шифровку по обычной связи на другой конец. Там её дешифруют своим ключом. Если в результате расшифровки получилась верная тестовая фраза, то всё в порядке.
Так нужен монокулярный визор, вам стерео для чтения не нужно особо. И даже не закрывающий всё поле зрения, а только площадь примерно эквивалентную большому монитору на расстоянии полметра.
Можно, конечно. Но тогда там либо киберпанк, либо постапокалипсис. По каким еще причинам человечество от космоса откажется?
Гибсона, например, почитайте.
Затем же, зачем люди ставят счетчики на сайты. Чтобы знать своих посетителей, их количество, поведение, что им больше нравится, с какими ошибками они сталкиваются.
Все эти данные — ценная информация о здоровье проекта и средство обратной связи при внесении доработок и улучшений.
Каждые 15 секунд спутник отправлял сигнал радиомаяка. Одновременно данные дописывались в файл beacon.csv. Неумолимо приближался момент, когда файл занял всё доступное пространство памяти в 32 мегабайта и полетное ПО упало.
Вы себе плохо представляете размеры и стоимость Intel. Один их фаб стоит в среднем от 2 до 5 млрд. долларов. А их у Intel 16. Т.е. совокупно только фабы стоят порядка 50 млрд. А у нас на 2015 весь бюджет Федерального агентства научных организаций РФ (ФАНО) только 93 млрд руб. Т.е. даже на один завод с не очень новым техпроцессом не хватит.
Если они встроят туда Code Intelligence уровня Visual Studio для хотя бы пары-тройки самых распространенных языков, то Atom останется не у дел. Как и Sublime.
1. мы сжимали документы целиком, а не предложения, так что медианная длина сэмпла была довольно большой
2. были отфильтрованы документы ниже порога длины, чуть больше 100 символов. И выбросы с аномально высокой длиной тоже.
3. для каждого поддатасета эмпирические пороги подбирались отдельно, как раз по этой причине, в силу очень разной медианной длины документа.
Конечно, зависимость коэф. сжатия по-прежнему присутствует, но становится сильно менее выраженной на длинных документах. Сейчас продолжаем работу надо улучшением фильтров подготовки датасетов, обязательно учтем это в новых итерациях.
Гибсона, например, почитайте.
Подключайте своих ботов, задавайте вопросы, присылайте пулл реквесты =)
Все эти данные — ценная информация о здоровье проекта и средство обратной связи при внесении доработок и улучшений.
Простите, не удержался.