Комментарии / Профиль mac2000 / Хабр

Как стать автором

Александр Марченко @mac2000

Пользователь

Профиль Публикации Комментарии 140Закладки

Умный поиск: как искусственный интеллект hh.ru подбирает вакансии к резюме

mac2000 24 янв 2018 в 17:54

Интересно просто было, так как я так понимаю что вы все считаете в Python, а родным для Spark'а языком вроде как есть Scala, соотв любопытно просто насколько оно хорошо работает в месте или под python вы подразумеваете просто на одной машине sklearn?

0

Посмотреть

Умный поиск: как искусственный интеллект hh.ru подбирает вакансии к резюме

mac2000 23 янв 2018 в 22:40

Интересно, а coloborative filtering не даёт желаемых результатов? И ещё очень интересно смотрите ли вы в сторону spark за вместо hadoop

0

Посмотреть

Умный поиск: как искусственный интеллект hh.ru подбирает вакансии к резюме

mac2000 23 янв 2018 в 16:21

Скажите, а вы не думали попробовать ElasticSearch за вместо того что бы руками использовать Lucene? Я к чему спрашиваю, ES из коробки в кластере и смог бы по телу документа найти похожие используя всякие tfidf и каждому выдать score, и уже затем дальше это дело спускать к другим моделям

0

Посмотреть

Версионирование и деплой кода PostgreSQL

mac2000 29 ноя 2017 в 14:23

Если мигратор общий на все комманды, то возможна ситуация когда изменения в миграторе обоих комманд уже приехали на прод, но еще не приехали сами приложеньки эти изменения использующие, интересно как вы решили подобную штуку, просто коммуникацией между командами, или быть может приложения выкатывают вообще в переди мигратора или быть може еще какой вариант, интересно как в целом вы построили процесс деплоя

0

Посмотреть

Версионирование и деплой кода PostgreSQL

mac2000 29 ноя 2017 в 12:42

Если не серкерт, каков объем тестовой базы и как долго строиться ее образ?

0

Посмотреть

Версионирование и деплой кода PostgreSQL

mac2000 29 ноя 2017 в 11:06

Вероятно вы держите некий слепок «мини» базы, повторяющий продуктовую но имеющий ограниченный набор данных? Подскажите как вы его строите — забираете бекап и урезаете данные или у вас изначально была пустая база и скрипты для ее наполнения?

0

Посмотреть

Версионирование и деплой кода PostgreSQL

mac2000 28 ноя 2017 в 14:51

Подскажите, а как вы решили, и решали ли следующую ситуацию: имеем команды А и Б пилящие соотв продукты, мигратор то общий — как им быть с деплоем своих фич? В нашем случае мы пришли к выводу что проще каждой команде развернуть свой тестовый сервер

0

Посмотреть

Как обойти блокировки сайтов, не направляя весь трафик через VPN

mac2000 29 мая 2017 в 20:18

Интересно, можно ли технически, реализовать это с помощью layer 7 в микротике? dns у меня так бегают в офис, а вот с vpn как то совсем не ясно

0

Посмотреть

Обработка русских текстовых данных в Azure Machine Learning

mac2000 13 дек 2016 в 13:42

К сожалению ни в этой заметке, ни в заметке про хакатон не расскрыта тайна работы с русским языком, так как нет полного примера.

Попытался по аналоии воспроизвести следующую последовательность: Enter Data Manually -> Execute Python Script -> Feature Hashing

Сам скрипт:

# -*- coding: utf-8 -*-
from nltk.stem.snowball import RussianStemmer
import pandas as pd

stemmer = RussianStemmer(False)

def azureml_main(dataframe1 = None, dataframe2 = None):
    out_list = []
    for index, row in dataframe1.iterrows():
        stemmed = stemmer.stem(row['text'].decode('utf-8'))
        out_list.append(stemmed.encode('utf-8'))

    return pd.DataFrame(out_list)

на выходе из скрипта текст действительно прогнался через stemmer, а вот на выходе feature hashing сплошные нули

0

Посмотреть

Интеграция MS Excel и Python

mac2000 14 авг 2014 в 09:39

Буквально пару дней назад ковырялся с интеграцией excel, так как очень частенько бывают ситуации когда слышно вот такое: «ну ты конечно клевую админку сделал, но можно мы в экселе все вобьем, вышлем тебе, а ты импортнеш», думаю многие с таким сталкивались.

github.com/mac2000/ExcelPostJsonAddIn

Вот такая штука получилась, это addin позволяющий слать выбранную в экселе табличку на указанный URL в виде post запроса, с json представлением таблички

Возможно кому нибудь пригодиться

+1

Посмотреть

Эволюция HeadHunter на iOS

mac2000 4 фев 2014 в 12:41

Безусловно, но с другой стороны, насколько я понимаю, приложение не требует ни каких хитрых вещей которых нет в html, js — соотв. зачем дублировать код между ios и android, если можно было бы использовать одну и ту же версию.

Или оно настолько тормознутым получается что лучьше не связываться?

-3

Посмотреть

Эволюция HeadHunter на iOS

mac2000 4 фев 2014 в 12:35

Скажите, а реализация приложения на html + js не рассматривалась и если рассматривалась — почему отказались?

-3

Посмотреть

Простейший способ бесплатно захостить статику на Heroku

mac2000 8 дек 2013 в 16:37

А GitHub pages вы не рассматривали как вариант?

+1

Посмотреть

Резервное копирование на хардлинках под Windows

mac2000 7 дек 2013 в 23:46

В Windows есть встроенная утилита robocopy

0

Посмотреть

Как работает Stack Overflow — железо

mac2000 26 ноя 2013 в 11:50

Тут смотря с какой стороны посмотреть, 3 сервера из 25 — это не такие уж и большие ресурсы.

Плюс очень удобно в плане масштабирования — так как они могут наращивать отдельно web, sql, tags сервера не зависимо друг от друга.

+1

Посмотреть

Как работает Stack Overflow — железо

mac2000 25 ноя 2013 в 02:34

Растолкуйте пожалуйста — как правильно понять первые две цифры:

148,084,883 HTTP запросов к нашему балансировщику нагрузки
36,095,312 из них — настоящие загрузки страниц

Правильно ли я понимаю что в IIS лог за день попало 36 млн. записей?

Но что тогда означает первая цифра и почему она настолько больше?

0

Посмотреть

Чистим HTML-код при вставке текста из MS Word в HTML5 WYSIWYG редактор (contenteditable)

mac2000 24 сен 2013 в 02:15

Получилось побороть «скачущий» курсор?

зы: код из тини убивает разметку внутри списков
ззы: первый десяток строк кода-зачистки можно сделать прям в dom, не перегоняя в строку — будет быстрее

0

Посмотреть

Консольный VIM в Windows

mac2000 25 фев 2013 в 10:55

Если есть желание иметь поддержку русской раскладки в нормальном режиме, то вот так правильнее и работает в виде и в консоли и в окнах:

if has("win32")

    source $HOME\vimfiles\langmap.cp1251.vim

else

    source $HOME/.vim/langmap.utf8.vim

endif

0

Посмотреть

Очередь сообщений (Message Queue)

mac2000 17 янв 2013 в 10:26

Самые простые в использовании/установке/настройке очереди, как по мне, это gearman и rabbitmq, причем последняя имеет плюшки вроде persistent queue, message ttl etc.

+2

Посмотреть

Реализация морфологического поиска на Kohana (библиотека phpMorphy)

mac2000 16 янв 2013 в 11:11

Забавно, вначале смутило не желание использовать полнотекстовый поиск, но почитав документацию и отзывы в сети пришел к выводу что в mysql с этим пока еще слабо, чему я честно говоря удивлен, тот же mssql умеет вот такое:

SELECT TOP 5 Name FROM Vacancy WHERE FREETEXT(Name, 'киева', LANGUAGE 1049) AND NOT CONTAINS(Name, 'киева')

А вообще, если есть возможность, стоит ставить\пробовать инструменты вроде Sphinx, Apache Solr etc

0

Посмотреть

1

2 3 ...