Как стать автором
Обновить

Очень грубый подход к определению языка человека (или как понять язык человека по обычной корпоративной базе)

Время на прочтение5 мин
Количество просмотров4K
Всего голосов 7: ↑6 и ↓1+5
Комментарии6

Комментарии 6

как раз байеса я в вашей работе и не увидел. ни критериев, ни весов. ни обучения, ни проверки.
Так написано же — применяем последовательно эвристики, которые предполагают к примеру, что вероятность, что человек китаец, если у него домен почтовый — qqq, стремится к 99%.

Чтобы сделать такую же работу 100% научно — нужно собрать очень основательную статистику, что я не смог сделать за 2 часа, которые у меня были на эту задачу.

Поэтому статья и называется «Очень грубый подход».

Про проверку — это можно сделать, если бы у компании в базе было на порядок-два больше адресов почты, но это в принципе нецелесообразно в данных условиях.
если «применяем последовательно эвристики», то зачем пол-статьи про байеса?
Кто не знает про него заинтересуется и мир станет чуточку светлее

Такое ощущение, что раньше эту статью я видел на хабр. Ну, да ладно. Вопрос задам.


Даже в Вашем примере, мне не совсем понятно, как Вы расставляет веса? Берете их с неба? поясните пожалуйста

Я был в бане на Хабре. Мб все что было до этого, стало непублично, а как я вышел из бана — вернулось, а рассылка это edge кейс и там timestamp не из той таблицы берется.

> Даже в Вашем примере, мне не совсем понятно, как Вы расставляет веса? Берете их с неба? поясните пожалуйста

Еще тупее — если X, то Y. Условно набор правил, которые применяются со 100% вероятностью
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории