Как стать автором
Обновить
25
0
gasyoun @gasyoun

Пользователь

Отправить сообщение

Майнинг бизнес-процессов и визуализация данных с помощью Neo4j, Plotly и GPT

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3.7K

Этот материал может быть полезен для COO, бизнес-аналитиков и топ-менеджеров компаний. Хотя в тексте присутствуют некоторые технические детали, надеюсь, они не будут слишком сложными. Цель материала: показать общую логику, которую мы использовали для извлечения и анализа данных.

Читать далее
Всего голосов 6: ↑7.5 и ↓-1.5+9
Комментарии13

Ультимативное сравнение систем распознавания речи: Ashmanov, Google, Sber, Silero, Tinkoff, Yandex

Время на прочтение8 мин
Количество просмотров20K

sandwich_fake


Какое-то время назад мы писали цикл статей про то, как правильно измерять качество систем распознавания речи, и собственно снимали метрики с доступных решений (цикл статей — 1, 2, 3) (на тот момент и коммерческих и некоммерческих решений). На Хабре была выжимка из этого цикла в рамках этой статьи, но до масштабного обновления исследования, достойного публикации на Хабре, руки никак не доходили (это требует как минимум большого количества усилий и подготовки).


Прошло некоторое время и пора обновить наше исследование, сделав его по-настоящему ультимативным. По сравнению с прошлыми исследованиями изменилось или добавилось следующее:


  • Добавилось много валидационных сетов из разных реальных доменов;
  • На рынок вышел Сбер, в первую очередь интересно протестировать именно его;
  • Для чистоты эксперимента, мы не предупреждали разработчиков систем о доменах и факте проведения тестов;
  • Мы также попробовали немного протестировать пропускную способность сервисов (понятно, что мы не знаем какое железо и ограничения стоят в облаке);
  • Мы рассматриваем только коммерческие системы, к которым у нас получилось получить доступ и которые показали хоть какой-то намек на "всеядность", работу с холодного старта и "энтерпрайзность";
Читать дальше →
Всего голосов 26: ↑23 и ↓3+20
Комментарии34

Lingtrain. Приложение для создания мультиязычных книг и параллельных корпусов

Время на прочтение13 мин
Количество просмотров8K

Хочу показать, как создать мультиязычный параллельный корпус и книги при помощи моего пет-проекта.

Для примера возьмем 10 редакций "Мастера и Маргариты" Михаила Булгакова (ru, uk, by, en, fr, it, es, de, hu, zh). Сначала выровняем девять переводов с оригиналом, а затем выровняем все вместе. Получим параллельный корпус на 10 языках и много красивых книг. Приступим.

Код я оформил в виде веб-приложения, основная логика которого выполняется при помощи библиотеки lingtrain-aligner. Выравнивать можно прямиком из кода на python, либо через UI. В приложении будет удобней разрешать конфликты и там есть редактор, позволяющий корректировать получающийся корпус плюс дополнительные опции по верстке. Код у проекта открытый, можно посмотреть как все работает внутри. Приступим.

Читать далее
Всего голосов 56: ↑56 и ↓0+56
Комментарии25

DIY. Книги для всех, даром

Время на прочтение7 мин
Количество просмотров34K

Lingtrain cover


⚡ Градиент обреченный


Upd. 11.06.2022 Многие заинтересовались генерацией изображений нейросетями. Вот Colab (интерактивная среда для запуска кода) для рисования картинок в стиле pixel art по текстовому описанию. Просто запускайте, ближе к концу увидете ячейку для ввода текста. Примеры картинок из Colab'а в комментариях.


Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов.


Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста.


Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему.

Сделать книжку
Всего голосов 76: ↑76 и ↓0+76
Комментарии50

Краткая история животных на обложках книг O’Reilly

Время на прочтение4 мин
Количество просмотров134K
Думаю, никому из пользователей Хабрахабра не нужно представлять издательство O'Reilly и его книги, привлекающие взгляд графичными изображениями самых разных и, как правило, весьма странно выглядящих животных на своих обложках.image Эди Фридман, креативный директор O'Reilly Media, опубликовала на сайте animals.oreilly.com небольшой пост, в котором рассказала, как эти животные попали на обложки книг издательства.
Читать дальше →
Всего голосов 138: ↑134 и ↓4+130
Комментарии34

Многоязыковая проверка орфографии для программ, использующих Hunspell

Время на прочтение4 мин
Количество просмотров30K
Многие часто сталкиваются с необходимостью проверки орфографии на нескольких языках одновременно, однако далеко не все существующие программы позволяют производить такую проверку, предлагая пользователю переключаться с одного языка на другой, что довольно неудобно и отнимает массу времени.

Не желая мириться с подобным неудобством для программ, использующих Hunspell словари (FireFox, Seamonkey, Miranda и др.) было принято решение создать автоматическую графическую утилиту для склейки нескольких языков, с возможностью дальнейшего использования полученных словарей.
Интересующихся вопросом приглашаю под кат
Всего голосов 30: ↑28 и ↓2+26
Комментарии36

Как я использовал BitTorrent Sync между офисами в РФ и Китае

Время на прочтение6 мин
Количество просмотров54K
Давно не видел статей о BitTorrentSync, и очень удивляюсь: ведь это такой полезный инструмент. Буквально на днях вышла новая версия*, и я решил рассказать, как применил это решение на работе.



Начало

Однажды в нашей компании наступил момент, когда встала необходимость обмениваться довольно тяжёлыми файлами — макетами продукции и упаковки (100-500 мегабайт) между офисами в Москве, Екатеринбурге и офисом в провинции Чжэцзян, КНР. Сложность была в катастрофически низкой скорости и надёжности связи РФ — Китай.

Когда я обратил внимание на проблему, царил полный разброд и шатание:
Читать дальше →
Всего голосов 80: ↑75 и ↓5+70
Комментарии80

Подключение Multipath LUN СХД к Windows Server 2008 и Windows Server 2012

Время на прочтение2 мин
Количество просмотров15K
В предыдущей статье мы рассматривали «Подключение Multipath LUN СХД к VMware ESXi и Debian GNU/Linux». В данной статье продолжаем. Напомню, что используется конфигурация с двумя SAN-свитчами, к каждому из которых, СХД подключена двумя линками.

Подключение Multipath LUN СХД к Windows Server 2012

Multipath Input Output — это система многопутевого подключения блочных устройств. Требуется она для дублирования каналов подключения в целях повышения отказоустойчивости и производительности за счет того, что сервер может обращаться к устройству по нескольким каналам.

Вот так система видит LUN'ы без поддержки MPIO:



Если MPIO по какой-либо причине отключен, требуется включить. Для этого в «панели мониторинга» выбираем меню «управление» и пункт «добавить роли и компоненты».



В «мастере добавления ролей и компонентов» переходим к пункту «компоненты» и выбираем в списке «Multipath I/O», после чего нажимаем виртуальную кнопку «установить».
Читать дальше →
Всего голосов 24: ↑21 и ↓3+18
Комментарии7

Бесплатный интернет для планшета от Билайн и МТС

Время на прочтение3 мин
Количество просмотров163K
Пару дней назад у Билайн и МТС появились тарифы, в которых бесплатно и без абонентской платы пользователю доступно небольшое количество интернет-трафика.

Тариф Билайн «Интернет навсегда» даёт каждый месяц 200 мегабайт по всей России бесплатно и без абонентской платы.



Опция «МТС Планшет Mini» даёт бесплатно и без абонентской платы 17 мегабайт в день по всей России.


Читать дальше →
Всего голосов 51: ↑41 и ↓10+31
Комментарии110

Защита подъезда методом организации разумного видеонаблюдения без консьержа

Время на прочтение13 мин
Количество просмотров258K
Так получилось, что какой бы ни был аккуратный микрорайон, он всегда с чем-нибудь соседствует, плюс всегда есть праздношатающиеся, непраздношатающиеся и «этождети». Это если забыть про наркоманов, целенаправленных воров и разбойников. Твой дом — твоя крепость. Подъезд твоего дома — тоже твой дом. (Да, этот пункт многие не понимают, но учиться никогда не поздно). Классические методы защиты подъезда — установка укреплённых дверей; установка домофона; инсталляция консьержки; организация видеонаблюдения над входами.

Вот только двери легко открываются при малейшей ошибке их производства, многие домофоны подвержены ключам-«вездеходам», консьержки часто спят и ничего не делают, а видеонаблюдение за которым никто не наблюдает превращается в бесполезную трату денег. В результате, почти все попытки улучшить общественную ситуацию зарезаются соседями методом слонёнка: «а нафига они нам нужны».

Однако, если включить мозги и подумать, на самом деле можно весьма небольшими вложениями получить очень эффективный результат.
Читать дальше →
Всего голосов 298: ↑294 и ↓4+290
Комментарии314

Исконно русский вопрос, или «сервер для себя»

Время на прочтение9 мин
Количество просмотров9.2K


Или сравнение панелей управления хостингом, Вступление


В этой статье преследуется цель представить результаты объективного тестирования и анализа возможностей новой версии панели управления хостингом ISPmanager 5 Lite, о которой был объявлено 19 ноября 2013 года и сравнить ее возможности и удобство с двумя конкурентами (cPanel 11.44 и Plesk 12). Анализ панелей выполнен с точки зрения пользователя хостинга и удобства управления отдельным аккаунтом веб-хостинга. Я не считаю официальный релиз ISPmanager 5 Business ответом на мои насушные потребоности и решил собрать известные факты воедино. Я работаю с хостинговами компаниями (именно не как пользователь) с 2008 г. и у меня есть с чем сравнить.

Прочитать про ISPmanager 5 Lite, конкурентов и мои выводы
Всего голосов 24: ↑6 и ↓18-12
Комментарии44

Закат эры иконок от FatCow (выборка по цветам, топ 30 и прочая арифметика)

Время на прочтение8 мин
Количество просмотров35K

Итоговый выпуск иконок




Пять лет тому назад мы начали рисовать набор пиксельных иконок. Мода была на Vista. К концу 2013 года набор FatCow дорос до 3926 иконок. Это на 356 иконок больше, чем у Fugue, который весной того же года остановился на цифре 3570 (размер: 16х16). 352 иконки из бонуса Fugue (32х32 и 24х24) не в счет (как повторы). Но дальнейшее развитие иконок FatCow заморожено. Увы, мы не увидим круглой цифры из 4000 иконок (работы осталось на месяц), не увидим выпуска для ретины дополнительных размеров уже существующих иконок, разработки прекращены из-за отсутствия бюджета. Успели сделать пробу для retina и только.

Да, это не мега-фото-реалистичные-3D еще-одни-никому-не-нужные-иконки, это старая пиксельная школа. Где в почете был маленький размер и ограничение цветовой гаммы. Пройдут еще 10 лет… и, мы искренне верим, пиксельные иконки так и останутся в ходу. И если Вы ценитель древних видов искусства, дней зарождения компьютерной графики, пожалуйста за ширмой!
Подробности
Всего голосов 66: ↑63 и ↓3+60
Комментарии52

Построение кроссвордов с помощью языка Wolfram Language (Mathematica)

Время на прочтение8 мин
Количество просмотров11K

Перевод поста Майкла Тротта (Michael Trott), «Constructing Crossword Arrays Faster».
Скачать перевод в виде документа Mathematica, который содержит весь код использованный в статье, можно здесь.


В главе 6 моей книги Mathematica GuideBook for Programming, в качестве примера работы со списками я обсудил то, как построить массив, представляющий собой кроссворд. Хотя этот пример был хорош для демонстрации продвинутой работы со списками, тем не менее, использование списков не является оптимальным путем построения массива кроссворда. Сложность добавления нового слова в массив с уже размещенными n-1 словами составляла для этого алгоритма ConstructingCrosswordArrays_1.png, таким образом общая сложность составления массива кроссворда из n слов становилась равной ConstructingCrosswordArrays_2.png.

На протяжении последних нескольких лет, некоторые пользователи Mathematica спрашивали меня о том, можно ли построить более быстрый алгоритм. Ответ — да, можно. Если мы будем применять методы хеширования, то мы сможем быстро и за одно и тоже время проверять, можно ли использовать некоторый элемент массива и, следовательно, мы сможем снизить общую сложность алгоритма с ConstructingCrosswordArrays_3.png до ConstructingCrosswordArrays_4.png, что для кроссвордов из тысяч слов даст большую разницу во времени, затрачиваемом на вычисления. Этот алгоритм реализован в данной статье. Когда мы размещаем отдельные буквы слова в некоторой прямоугольной таблице необходимо рассматривать множество различных ситуаций. В результате в статье содержится большее, чем обычно, количество процедурного кода. Хотя некоторые определения функций несколько длинные, благодаря комментариям между шагами вычислений и ветками решений код должен быть довольно простым для чтения и понимания.
Читать дальше →
Всего голосов 32: ↑28 и ↓4+24
Комментарии7

Как я покупал 3D-принтер

Время на прочтение16 мин
Количество просмотров873K

Данный пост является своеобразным предостережением тем, кто задумал купить 3D-принтер. Этот, казалось бы, простой процесс для цивилизованных стран, может вдребезги разлететься о суровые Российские реалии. Я, сам того не ожидая, сумел пройтись по всем возможным граблям, и на собственной шкуре убедился, как же в действительности обстоят дела по «ту сторону экрана». Итак, приглашаю Вас поучиться на чужих ошибках.
Читать дальше →
Всего голосов 350: ↑342 и ↓8+334
Комментарии487

Запуск облачной печати

Время на прочтение1 мин
Количество просмотров3.8K


Еще в апреле 2010 года мы анонсировали бета версию службы Google Cloud Print, которая позволяет печатать из любого приложения, на любом устройстве, операционной системе или браузере. Сегодня мы очень рады объявить о запуске бета-версии службы Google Cloud Print для мобильных устройств, которую мы будем постепенно развертывать в течение нескольких дней.
Читать дальше →
Всего голосов 50: ↑41 и ↓9+32
Комментарии25

Исследование факторов ранжирования в Яндексе

Время на прочтение1 мин
Количество просмотров3.6K
Несколько десятков специалистов по поисковой оптимизации поучаствовали (своими ответами) в исследовании факторов ранжирования в Яндексе. Результаты вы можете лицезреть ниже на скриншотах или же на сайте топэксперт.рф вместе с комментариями и пояснениями. Думаю, что шпаргалка пригодится не только оптимизаторам, но и всем вебмастерам.

Начнем с внешних факторов. Критерии выбора внешних ссылок:



Читать дальше →
Всего голосов 167: ↑137 и ↓30+107
Комментарии67

Джентльменский набор интернет шоппера: Shipito + ProfitBid + TrackChecker

Время на прочтение9 мин
Количество просмотров43K
На волне постов ненависти к Почте России легко прослеживается тот факт, что все большее количество людей покупают товар из заграниц. Тем самым не желая переплачивать Российским барыгам-ритейлерам подрывая политику государства в области импортозамещения. И я один из них.
Однако много препятствий чинит православным Россиянам виртуальный шоппинг, самое трудное из которых — страна проживания. К сожалению наша отчизна классифицируется большинством онлайн магазинов как страна третьего мира, не иначе, а поэтому и прямой доставки туда нам не видать.
Выходом из этого казуса, очевидно, является mail forwarding сервис.
Итак в данной статье речь пойдет о
  • нововведениях в сервисе-посреднике — Shipito
  • Сервисе, который возвращает процент с покупок на ebay.com/ca/uk, Amazon, Skype, GoDaddy — Profitbid
  • Наконец-то созданном юзером MetalFan отличном софте (полностью бесплатном) для отслеживания почтовых отправлений всех почтовый сервисов TrackChecker
  • Небольшом списке интересных магазинов


PS. В топике присутствуют мои реферральные ссылки.
PS2. Трафик.
Читать дальше
Всего голосов 114: ↑93 и ↓21+72
Комментарии68

Скорость имеет значение. Теперь официально

Время на прочтение1 мин
Количество просмотров1.1K
С наступлением эры безлимитного интернета и аджаксовых красивостей, вебмастера перестали заботиться о скорости загрузки страниц. Например морда хабра весит 750 кб. Мало?!
image
Читать дальше →
Всего голосов 60: ↑41 и ↓19+22
Комментарии111

Битва за трудочасы. Как надо считать зарплату?

Время на прочтение6 мин
Количество просмотров11K
История «успеха».

Не столь давно я работал в одной крупной компании, где было принято расчитывать заработную плату сотрудников, исходя из отработанных ими трудочасов. Данная схема применялась ко всем без исключения: к программистам, инженерам, аналитикам, менеджерам по рекламе, техническим писателям, юристам и т.п. Для учета трудочасов даже применялся специальный (и довольно-таки неудобный) проджект-сервер.

Казалось бы — простая и хорошая схема: рассчитать примерный фонд зарплаты (а это расходная статья) можно на год вперёд.
Но, как и следовало ожидать, в отчетах все сотрудники исправно отрабатывали 40 часов в неделю. Всегда. Все.
Было несколько «партизан», которые иногда забывали там отмечаться, но, в целом, в отчетах царила райская идиллия.

Наконец кому-то из руководства пришла в голову долгожданная мысль, что так быть не может…
Читать дальше →
Всего голосов 126: ↑121 и ↓5+116
Комментарии164

С днем рождения, Джулиан Ассанж

Время на прочтение9 мин
Количество просмотров30K
image3 июля 2014 года Ассанжу исполнилось 43 года.

В детстве он сменил 37 школ, а первый компьютер ему подарила мама в 16 лет.

Он вел несколько передач на канале Russia Today.

А еще он вдохновил Сергея Мавроди на старт МММ-2011

Некоторый малоизвестные выходки/достижения/события из жизни Ассанжа:

1) Джулиан изучал математику, физику и программирование в Central Queensland University, в 1994 и в Университете Мельбурна (2003-2006), но степень так и не получил.

2) Ассанжу не нравилось, то что студентов привлекают к работе над компьютерными проектами для военных и выступал против этого.

3) В 1987 году Джулиан начал «хакать» под ником Mendax, что означает «благородно неправдивый».

4) Он организовал хакерскую группу «International Subversives», вместе с двумя хакерами под псевдонимами «Trax» и «Prime Suspect».

5) Он и его группа взламывали Пентагон, ВМС США, правительственные организации, такие как NASA, MILNET и Australia’s Overseas Telecommunications Commission; частные компании Citibank, Lockheed Martin, Motorola, Panasonic и Xerox; и учебные заведения, такие как Australian National University, La Trobe University и Stanford Research Institute.
Читать дальше →
Всего голосов 96: ↑80 и ↓16+64
Комментарии13

Информация

В рейтинге
Не участвует
Откуда
Новосибирск, Новосибирская обл., Россия
Дата рождения
Зарегистрирован
Активность