Комментарии / Профиль StepLg / Хабр

Пользователь

Профиль Публикации Комментарии 21Закладки 23

А вы уже читаете блог о рациональности lesswrong.com?

StepLg 4 мар 2013 в 15:12

Есть перевод фанфика про поттера: hpmor.ru. И о нём на хабре уже даже писали: Гарри Поттер и методы рационального мышления

Посмотреть

Что нам стоит Google построить

StepLg 13 ноя 2010 в 09:46

нет, это о Sawzall [ code.google.com/p/szl/wiki/Overview ]

Посмотреть

Краткое введение в Теорию Хаоса

StepLg 19 ноя 2009 в 11:33

Bach to Chaos: Chaotic Variations on a Classical Theme — а есть ссылка, где можно скачать или послушать? что-то нигде не могу найти :(

Посмотреть

Trollim: битвы программистов 1 на 1

StepLg 17 сен 2009 в 20:55

под файрфоксом 3.5 плывёт верстка в сообщениях в баттле. читать невозможно ((

а так — классная штука, только пока там народу мало. сидит 4 человека, три на шарпе, один на джаве

Посмотреть

Структуры данных: бинарные деревья. Часть 2: обзор сбалансированных деревьев

StepLg 13 авг 2009 в 14:12

распечатал статью про Splay деревья. я о них никогда даже не слышал, а штука оказывается интересная. можно было бы по-больше расписать )

B, B+ деревьев нет (( Очень хотелось бы увидеть сводную таблицу по деревьям со сложностями основных операций и рекомендациям по тому, в каких областях применять.

Кстати, если уж рассматривать именно в плане практического применения, а не реализации — есть возможность сделать подборку открытых библиотек, в которых те или иные деревья реализованы? получилась бы просто отменная подборка по тематике.

Посмотреть

Ищу преподавателя информатики!

StepLg 13 авг 2009 в 13:28

эх… я бы с удовольствием (( но уж слишком далекова-то… может быть найду себе что-нибудь по-ближе )

а по сабжу: преподавать — это здорово и интересно) главное, чтобы палки в колёса при этом не ставили в виде «сдачи нормативов по знанию M$ Paint»

Посмотреть

Бизнес кейсы использования Data Mining. Часть 1

StepLg 29 июл 2009 в 16:06

а вот интересно, присудствуют ли у вас какие-либо отличия при подсчёте убытков от нереализованного товара от подсчёта убытков от пиратсва в софте, например? потому что схемы подсчёта убытков от пиратства я просто в принципе не понимаю: если я поставил пиратскую копию фотошопа — совсем не факт, что я готов купить лицензию. может я вместо этого поставлю бесплатный гимп, и мне его вполне хватит.

или же расчет убытков идет больше на интуитивном уровне?

Посмотреть

Бизнес кейсы использования Data Mining. Часть 1

StepLg 29 июл 2009 в 13:39

1. а вот это уточнение уже довольно интересно. так как я не вращаюсь в этой сфере на несимметричность графика я не обратил никакого внимания. а можно тогда подробнее объяснить, с чем она связана?

2. спасибо, буду ждать

Посмотреть

Бизнес кейсы использования Data Mining. Часть 1

StepLg 29 июл 2009 в 11:41

По сабжу — график, конечно, интересный. но, по-моему, это довольно очевидно. Было бы интересно послушать непосредственно про алгоритмы и методики вычисления этих матриц и прогнозов.

и еще, если есть возможность — не могли бы Вы рассказать про алгоритмы, на основе которых выбранные товары располагаются рядом.

На сколько я себе представляю этот вопрос, это должен быть некий алгоритм, балансирующий между двумя гранями:
* расположение рядом в первую очередь родственных товаров (все сорта печенья в одном месте)
* с другой стороны — как можно более близкое расположение товаров, которые наиболее часто вместе покупаются.

Применяются ли алгоритмы кластеризации типа CLOPE ( www.basegroup.ru/library/analysis/clusterization/clope/ ), или же это какие-то специфические алгоритмы?

Посмотреть

Про что рассказать?

StepLg 27 мая 2009 в 19:55

как вариант — переиндексировать на другой машине. или можно делать на той же машине (если ресурсов хватает), но в другой файл индекса. потом копировать индекс в нужное место/перезапускать демона.

у меня вроде бы такая схема работает. не уверен, на сколько это грамотно с точки зрения философии сфинкса.

shodan?

Посмотреть

Про что рассказать?

StepLg 27 мая 2009 в 19:16

спасибо. буду смотреть )

Посмотреть

Про что рассказать?

StepLg 27 мая 2009 в 18:58

+1. было бы здорово услышать ответы на них :)

Посмотреть

Про что рассказать?

StepLg 27 мая 2009 в 18:57

интересует возможность задания списка синонимов? хотя бы однословных.

например, хочется, чтобы starcraft, старкрафт, старик — воспринимались как одно и то же. то есть на запрос со словом старкрафт находились документы со starcraft

на сколько я понял, в конфиге можно указать файл т.н. исключений, но вроде бы это не совсем то.

есть ли существующие средства для подобных вкусностей или нет? предвидятся? в какое место кода смотреть, чтобы (возможно) написать патч?

Посмотреть

Nigma отвечает на вопросы с полуслова

StepLg 13 мая 2009 в 17:23

к сожалению, не могу раскрыть всех карт :)

Посмотреть

Nigma отвечает на вопросы с полуслова

StepLg 13 мая 2009 в 17:22

я думаю, это уже следующий этап. мы думаем над такими запросами, но пока простого и работающего решения, увы, нет :(

Посмотреть

Nigma отвечает на вопросы с полуслова

StepLg 13 мая 2009 в 17:18

это гораздо более сложная задача, относящаяся к аналитике и логическому выводу. Мне кажется, в ближайшие лет пять-десять сделать подобную систему вряд ли удастся.

А вот давать точные ответы, а не ссылки, на факты, типа «когда родился текущий президент россии», «какие фильмы сняты режиссерами, родившимися с 1950 по 1060 года» или же «где купить раскладушки нокиа с блютусом, камерой до 10000» — вполне реально. именно в этом направлении мы и стараемся двигаться, разрабатывая систему ответов на фактографические запросы

Посмотреть

Апрельский фуршет

StepLg 10 мая 2009 в 00:20

хранить статистику в memcache, на мой взгляд, не очень правильно. перезагрузка сервера — и все теряется.

у нас примерно по такому же принципу работает система логирования/статистики. раз в промежуток времени запускается скрипт полного обсчета статистики или же просто обновления новыми данными. Статистика записывается в отдельные таблицы: по дням/месяцам/годам. то есть у вас есть огромная таблица с полными данными (я думаю, что лучше одна — легче будет обрабатывать и добавлять новые котировки. а от объема 20 миллонов записей в год с мускулем ничего не случится). и есть ее проекции на нужные вам периоды интервалы времени.

мемкэш в этой схеме имеет смысл использовать между таблицами конечной статистики и пользователем, исключительно для кэширования запросов на выборку больших массивов данных (например, все данные по какой-либо котировке за год). вот их стоит помещать в мемкэш, чтобы лишний раз базу не дергать.

кстати, здесь имеет смысл подумать над тем, какую СУБД выбрать. Учитывая специфику ваших запросов, возможно стоит подумать над тем, чтобы для базы с полной статистикой по котировкам использовать постгрес, а для сокращенной статистики — мускуль. это позволит избежать лишних блокировок, которые могут возникнуть во время того, как с одной стороны будет запущен скрипт обновления статистики, а с другой стороны, будут добавляться новые данные. Если постгрес не вариант — то по крайней мере потестировать Ваши запросы и нагрузки на InnoDB и MyISAM в мускуле.

Посмотреть

Апрельский фуршет

StepLg 10 мая 2009 в 00:09

1) меня необходимость заставила пересесть на постгрес. вот список причин, по которым меня мускуль не смог удовлетворить в принципе, так что как альтернатива он даже не рассматривался:
* работа с varchar. Объем таблиц — миллионы строк, join по текстовому ключу от varchar(500) вешает базу напрочь. Связано это с тем, что при всяких join, order by и т.п. происходит создание временной таблицы в памяти, а она не работает с варчарами — только с char фиксированной длины. Поэтому память улетает очень быстро. Оперативки не хватает — он выгружает все данные в файл, причем не сразу, а порциями. И эти порции сортирует. Время выполнения одного тестового запроса — около 8 часов. Оптимизировать больше не удалось. С другой стороны постгрес абсолютно на тех же самых данных отработал запрос за пол часа. Плюс к этому:
** в постгресе не надо задавать длину варчара и длину ключа — он сам это все автоматически определяет и подстраивается
** гораздо легче выполняются все операции над текстовыми столбцами
** есть возможность задавать индексы по функциям. поначалу это непривычно, однако может существенно упростить жизнь в некоторых случаях

* второй момент связан с таким понятием, как схема, которого в мускуле просто нет. Очень удобная штука

* ну и последнее (что отмечали) — большие объемы данных. По моему опыту работы, в постгресе с этим как-то проще обстоит.

2) сложности при переходе для меня были всего две. это установка/настройка пользователей и путаница понятий в схеме/базе, так как в мускуле и постгресе они немного различаются (например, в мускуле можно делать запросы между несколькими базами, в постгресе — нельзя, для этого есть более удобная вещь — схемы)

Посмотреть

Апрельский фуршет

StepLg 9 мая 2009 в 23:56

как уже сказали — для синтаксиса достаточно мануала

Для философии советую почитать паттерны проектирования:
* agiledev
* Вики: Паттерны проектирования

После первичного ознакомления лучше всего, если попробуете написать более-менее объемный проект (хотя бы в несколько тысяч строк), придерживаясь объектной реализации. Не обязательно сайт, это может быть консолькое приложение

Или же можно взять какой-нибудь фреймворк, типа Symphony, Zend, CakePHP, и разобраться в его структуре. Они все объектные, так что будете учиться на реальных примерах. Из перечисленных трех мне больше нравится Zend, но конкретно Вам лучше взять то, что знает наиболее досягаемый для Вас гуру.

Посмотреть

Космическая стрелка

StepLg 13 апр 2009 в 21:52

спасибо за интересную фичу :)
одна поправка — при смене темы линейка с выбором темы всегда сбрасывается на начало, что есть не очень удобно.

Посмотреть