Comments / Profile of Alter

Олег Шляжко @Alter_Ego

ML Research Engineer

Profile Publications 5Comments 150Bookmarks 2

Адаптация подхода с применением сжатия zlib для отсеивания некачественных текстов разной длины

Alter_Ego Apr 19 2021 at 16:09

В основной статье, кажется, не упомянуто, но zlib тут выполняет роль механизма приближенной оценки энтропии документа.

Look

Адаптация подхода с применением сжатия zlib для отсеивания некачественных текстов разной длины

Alter_Ego Apr 19 2021 at 16:07

Спасибо за интересный разбор! Я тот самый человек, готовивший эту фильтрацию и учивший модель. Замечание про зависимость от длины совершенно верное, но нам облегчили тут жизнь несколько факторов:
1. мы сжимали документы целиком, а не предложения, так что медианная длина сэмпла была довольно большой
2. были отфильтрованы документы ниже порога длины, чуть больше 100 символов. И выбросы с аномально высокой длиной тоже.
3. для каждого поддатасета эмпирические пороги подбирались отдельно, как раз по этой причине, в силу очень разной медианной длины документа.
Конечно, зависимость коэф. сжатия по-прежнему присутствует, но становится сильно менее выраженной на длинных документах. Сейчас продолжаем работу надо улучшением фильтров подготовки датасетов, обязательно учтем это в новых итерациях.

Look

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

Alter_Ego Mar 14 2018 at 23:46

Спасибо за полезный проект! А нормализацию времени скоро прикрутите?

Look

Китайцы впервые в мире телепортировали фотоны с Земли на орбиту (1400 км)

Alter_Ego Jul 12 2017 at 15:21

Генерируем ключи на обоих концах канала. Шифруем известную обоим тестовую фразу на одном из концов, передаем шифровку по обычной связи на другой конец. Там её дешифруют своим ключом. Если в результате расшифровки получилась верная тестовая фраза, то всё в порядке.

Look

Потому, потому что мы пилоты! Презентация третьего поколения видеоочков Epson Moverio BT-300

Alter_Ego Apr 6 2017 at 17:32

Так нужен монокулярный визор, вам стерео для чтения не нужно особо. И даже не закрывающий всё поле зрения, а только площадь примерно эквивалентную большому монитору на расстоянии полметра.

Look

Компактный монитор домашнего воздуха (CO2, температура, влажность, давление) с Wi-Fi и мобильным интерфейсом

Alter_Ego Jan 31 2017 at 14:47

А про датчики CO и мелких частиц в воздухе не думали? Вроде такого https://www.sparkfun.com/products/9689. Они, правда, крупные по размеру.

Look

Сколько десятичных знаков числа пи использует НАСА

Alter_Ego Mar 22 2016 at 15:25

Угу, как же, небольшая. Почитайте про советскую систему Игла. Наведение и сближение для стыковки начинается на дистанциях 20-30 километров.

Look

Как квадратные автомобили 80-х стали обтекаемыми к 90-м

Alter_Ego Jan 14 2016 at 13:09

Porsche скорее образец популярного дизайна 60-х, а не характерное только для Европы исключение. Ford Mustang 1965-го тоже был совсем не квадратный:

Look

Подальше от обыденной реальности: фантастические романы, которые стоит прочитать

Alter_Ego Sep 13 2015 at 20:25

Можно, конечно. Но тогда там либо киберпанк, либо постапокалипсис. По каким еще причинам человечество от космоса откажется?
Гибсона, например, почитайте.

Look

Botan.io — экспериментальный инструмент аналитики ботов Telegram от Яндекса

Alter_Ego Aug 13 2015 at 18:11

Мы знаем об этой проблеме, готовим переход на длинные случайные токены в ближайшие дни.

Look

Botan.io — экспериментальный инструмент аналитики ботов Telegram от Яндекса

Alter_Ego Aug 7 2015 at 23:11

Мы открылись! github.com/botanio/sdk
Подключайте своих ботов, задавайте вопросы, присылайте пулл реквесты =)

Look

Botan.io — экспериментальный инструмент аналитики ботов Telegram от Яндекса

Alter_Ego Aug 6 2015 at 13:32

Собираемся рассылать первые приглашения подписавшимся на этой неделе.

Look

Botan.io — экспериментальный инструмент аналитики ботов Telegram от Яндекса

Alter_Ego Aug 5 2015 at 11:45

Не то чтобы rest, но простое http API для отправки событий — будет.

Look

Botan.io — экспериментальный инструмент аналитики ботов Telegram от Яндекса

Alter_Ego Aug 4 2015 at 13:57

Затем же, зачем люди ставят счетчики на сайты. Чтобы знать своих посетителей, их количество, поведение, что им больше нравится, с какими ошибками они сталкиваются.
Все эти данные — ценная информация о здоровье проекта и средство обратной связи при внесении доработок и улучшений.

Look

Botan.io — экспериментальный инструмент аналитики ботов Telegram от Яндекса

Alter_Ego Aug 4 2015 at 13:32

В конце статьи есть ссылка на каталог ботов storebot.me, можете воспользоваться им.

Look

Samsung работает над 5,1-дюймовым 11K-дисплеем

Alter_Ego Jul 15 2015 at 13:13

Автор, ну не на квадратный дюйм же, а на просто дюйм, линейный! На квадратный дюйм даже айфон 4 имел больше 300х300=90000 точек

Look

Космический спутник LightSail на солнечном парусе завис из-за программной ошибки

Alter_Ego May 27 2015 at 15:52

Каждые 15 секунд спутник отправлял сигнал радиомаяка. Одновременно данные дописывались в файл beacon.csv. Неумолимо приближался момент, когда файл занял всё доступное пространство памяти в 32 мегабайта и полетное ПО упало.

Простите, не удержался.

+31

Look

Компьютеры на базе процессоров Эльбрус-4С стали доступны для покупки юридическими лицами

Alter_Ego May 2 2015 at 21:27

Вы себе плохо представляете размеры и стоимость Intel. Один их фаб стоит в среднем от 2 до 5 млрд. долларов. А их у Intel 16. Т.е. совокупно только фабы стоят порядка 50 млрд. А у нас на 2015 весь бюджет Федерального агентства научных организаций РФ (ФАНО) только 93 млрд руб. Т.е. даже на один завод с не очень новым техпроцессом не хватит.

Look

Build 2015: Visual Studio для OS X и Linux, Windows 10, облачные сервисы и другие новинки от Microsoft

Alter_Ego Apr 30 2015 at 11:54

Попробовал его вчера вечером и сегодня. По ощущениям — он раза в два быстрее и отзывчивее атома. Скорость как у нативных редакторов, вроде Sublime.

Look

Microsoft анонсировала кроссплатформенный редактор для Windows, OS X и Linux

Alter_Ego Apr 30 2015 at 00:39

Если они встроят туда Code Intelligence уровня Visual Studio для хотя бы пары-тройки самых распространенных языков, то Atom останется не у дел. Как и Sublime.

Look

2 3 ...

7 8