Интересно просто было, так как я так понимаю что вы все считаете в Python, а родным для Spark'а языком вроде как есть Scala, соотв любопытно просто насколько оно хорошо работает в месте или под python вы подразумеваете просто на одной машине sklearn?
Скажите, а вы не думали попробовать ElasticSearch за вместо того что бы руками использовать Lucene? Я к чему спрашиваю, ES из коробки в кластере и смог бы по телу документа найти похожие используя всякие tfidf и каждому выдать score, и уже затем дальше это дело спускать к другим моделям
Если мигратор общий на все комманды, то возможна ситуация когда изменения в миграторе обоих комманд уже приехали на прод, но еще не приехали сами приложеньки эти изменения использующие, интересно как вы решили подобную штуку, просто коммуникацией между командами, или быть может приложения выкатывают вообще в переди мигратора или быть може еще какой вариант, интересно как в целом вы построили процесс деплоя
Вероятно вы держите некий слепок «мини» базы, повторяющий продуктовую но имеющий ограниченный набор данных? Подскажите как вы его строите — забираете бекап и урезаете данные или у вас изначально была пустая база и скрипты для ее наполнения?
Подскажите, а как вы решили, и решали ли следующую ситуацию: имеем команды А и Б пилящие соотв продукты, мигратор то общий — как им быть с деплоем своих фич? В нашем случае мы пришли к выводу что проще каждой команде развернуть свой тестовый сервер
Буквально пару дней назад ковырялся с интеграцией excel, так как очень частенько бывают ситуации когда слышно вот такое: «ну ты конечно клевую админку сделал, но можно мы в экселе все вобьем, вышлем тебе, а ты импортнеш», думаю многие с таким сталкивались.
Вот такая штука получилась, это addin позволяющий слать выбранную в экселе табличку на указанный URL в виде post запроса, с json представлением таблички
Безусловно, но с другой стороны, насколько я понимаю, приложение не требует ни каких хитрых вещей которых нет в html, js — соотв. зачем дублировать код между ios и android, если можно было бы использовать одну и ту же версию.
Или оно настолько тормознутым получается что лучьше не связываться?
зы: код из тини убивает разметку внутри списков
ззы: первый десяток строк кода-зачистки можно сделать прям в dom, не перегоняя в строку — будет быстрее
Самые простые в использовании/установке/настройке очереди, как по мне, это gearman и rabbitmq, причем последняя имеет плюшки вроде persistent queue, message ttl etc.
Забавно, вначале смутило не желание использовать полнотекстовый поиск, но почитав документацию и отзывы в сети пришел к выводу что в mysql с этим пока еще слабо, чему я честно говоря удивлен, тот же mssql умеет вот такое:
SELECT TOP 5 Name FROM Vacancy WHERE FREETEXT(Name, 'киева', LANGUAGE 1049) AND NOT CONTAINS(Name, 'киева')
А вообще, если есть возможность, стоит ставить\пробовать инструменты вроде Sphinx, Apache Solr etc
Интересно, а coloborative filtering не даёт желаемых результатов? И ещё очень интересно смотрите ли вы в сторону spark за вместо hadoop
Интересно, можно ли технически, реализовать это с помощью layer 7 в микротике? dns у меня так бегают в офис, а вот с vpn как то совсем не ясно
Попытался по аналоии воспроизвести следующую последовательность: Enter Data Manually -> Execute Python Script -> Feature Hashing
Сам скрипт:
на выходе из скрипта текст действительно прогнался через stemmer, а вот на выходе feature hashing сплошные нули
github.com/mac2000/ExcelPostJsonAddIn
Вот такая штука получилась, это addin позволяющий слать выбранную в экселе табличку на указанный URL в виде post запроса, с json представлением таблички
Возможно кому нибудь пригодиться
Или оно настолько тормознутым получается что лучьше не связываться?
Плюс очень удобно в плане масштабирования — так как они могут наращивать отдельно web, sql, tags сервера не зависимо друг от друга.
Правильно ли я понимаю что в IIS лог за день попало 36 млн. записей?
Но что тогда означает первая цифра и почему она настолько больше?
зы: код из тини убивает разметку внутри списков
ззы: первый десяток строк кода-зачистки можно сделать прям в dom, не перегоняя в строку — будет быстрее
if has("win32") source $HOME\vimfiles\langmap.cp1251.vim else source $HOME/.vim/langmap.utf8.vim endif
SELECT TOP 5 Name FROM Vacancy WHERE FREETEXT(Name, 'киева', LANGUAGE 1049) AND NOT CONTAINS(Name, 'киева')
А вообще, если есть возможность, стоит ставить\пробовать инструменты вроде Sphinx, Apache Solr etc