Как стать автором
Обновить
1
0
Александр Марченко @mac2000

Пользователь

Отправить сообщение
Интересно просто было, так как я так понимаю что вы все считаете в Python, а родным для Spark'а языком вроде как есть Scala, соотв любопытно просто насколько оно хорошо работает в месте или под python вы подразумеваете просто на одной машине sklearn?

Интересно, а coloborative filtering не даёт желаемых результатов? И ещё очень интересно смотрите ли вы в сторону spark за вместо hadoop

Скажите, а вы не думали попробовать ElasticSearch за вместо того что бы руками использовать Lucene? Я к чему спрашиваю, ES из коробки в кластере и смог бы по телу документа найти похожие используя всякие tfidf и каждому выдать score, и уже затем дальше это дело спускать к другим моделям
Если мигратор общий на все комманды, то возможна ситуация когда изменения в миграторе обоих комманд уже приехали на прод, но еще не приехали сами приложеньки эти изменения использующие, интересно как вы решили подобную штуку, просто коммуникацией между командами, или быть может приложения выкатывают вообще в переди мигратора или быть може еще какой вариант, интересно как в целом вы построили процесс деплоя
Если не серкерт, каков объем тестовой базы и как долго строиться ее образ?
Вероятно вы держите некий слепок «мини» базы, повторяющий продуктовую но имеющий ограниченный набор данных? Подскажите как вы его строите — забираете бекап и урезаете данные или у вас изначально была пустая база и скрипты для ее наполнения?
Подскажите, а как вы решили, и решали ли следующую ситуацию: имеем команды А и Б пилящие соотв продукты, мигратор то общий — как им быть с деплоем своих фич? В нашем случае мы пришли к выводу что проще каждой команде развернуть свой тестовый сервер

Интересно, можно ли технически, реализовать это с помощью layer 7 в микротике? dns у меня так бегают в офис, а вот с vpn как то совсем не ясно

К сожалению ни в этой заметке, ни в заметке про хакатон не расскрыта тайна работы с русским языком, так как нет полного примера.

Попытался по аналоии воспроизвести следующую последовательность: Enter Data Manually -> Execute Python Script -> Feature Hashing

Сам скрипт:

# -*- coding: utf-8 -*-
from nltk.stem.snowball import RussianStemmer
import pandas as pd

stemmer = RussianStemmer(False)

def azureml_main(dataframe1 = None, dataframe2 = None):
    out_list = []
    for index, row in dataframe1.iterrows():
        stemmed = stemmer.stem(row['text'].decode('utf-8'))
        out_list.append(stemmed.encode('utf-8'))

    return pd.DataFrame(out_list)


на выходе из скрипта текст действительно прогнался через stemmer, а вот на выходе feature hashing сплошные нули
Буквально пару дней назад ковырялся с интеграцией excel, так как очень частенько бывают ситуации когда слышно вот такое: «ну ты конечно клевую админку сделал, но можно мы в экселе все вобьем, вышлем тебе, а ты импортнеш», думаю многие с таким сталкивались.

github.com/mac2000/ExcelPostJsonAddIn

Вот такая штука получилась, это addin позволяющий слать выбранную в экселе табличку на указанный URL в виде post запроса, с json представлением таблички

Возможно кому нибудь пригодиться
Безусловно, но с другой стороны, насколько я понимаю, приложение не требует ни каких хитрых вещей которых нет в html, js — соотв. зачем дублировать код между ios и android, если можно было бы использовать одну и ту же версию.

Или оно настолько тормознутым получается что лучьше не связываться?
Скажите, а реализация приложения на html + js не рассматривалась и если рассматривалась — почему отказались?
А GitHub pages вы не рассматривали как вариант?
В Windows есть встроенная утилита robocopy
Тут смотря с какой стороны посмотреть, 3 сервера из 25 — это не такие уж и большие ресурсы.

Плюс очень удобно в плане масштабирования — так как они могут наращивать отдельно web, sql, tags сервера не зависимо друг от друга.
Растолкуйте пожалуйста — как правильно понять первые две цифры:

148,084,883 HTTP запросов к нашему балансировщику нагрузки
36,095,312 из них — настоящие загрузки страниц


Правильно ли я понимаю что в IIS лог за день попало 36 млн. записей?

Но что тогда означает первая цифра и почему она настолько больше?
Получилось побороть «скачущий» курсор?

зы: код из тини убивает разметку внутри списков
ззы: первый десяток строк кода-зачистки можно сделать прям в dom, не перегоняя в строку — будет быстрее

Если есть желание иметь поддержку русской раскладки в нормальном режиме, то вот так правильнее и работает в виде и в консоли и в окнах:

if has("win32") source $HOME\vimfiles\langmap.cp1251.vim else source $HOME/.vim/langmap.utf8.vim endif
Самые простые в использовании/установке/настройке очереди, как по мне, это gearman и rabbitmq, причем последняя имеет плюшки вроде persistent queue, message ttl etc.
Забавно, вначале смутило не желание использовать полнотекстовый поиск, но почитав документацию и отзывы в сети пришел к выводу что в mysql с этим пока еще слабо, чему я честно говоря удивлен, тот же mssql умеет вот такое:

SELECT TOP 5 Name FROM Vacancy WHERE FREETEXT(Name, 'киева', LANGUAGE 1049) AND NOT CONTAINS(Name, 'киева')

А вообще, если есть возможность, стоит ставить\пробовать инструменты вроде Sphinx, Apache Solr etc
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Киев, Киевская обл., Украина
Дата рождения
Зарегистрирован
Активность