Comments
выбрать популярные домены второго уровня из списка Alexa

— как то не очевидно, что от этого есть польза. Думаю большинство пользователей применяет ящики небольшого количества бесплатных почтовых систем (типа mail.ru или gmail.com) и ящики на доменах которых нет в топе Alexa (знаю много случае когда у пользователя есть домен на котором висят ящики, но на этом домене не висит сайта или каких то других сервисов). Я бы использовал другую логику: известные почтовики + корпоративные домены

Безусловно, больше всего ящиков у бесплатных провайдеров, поэтому Дадата предлагает их в первую очередь:
image

а почему прямо lucene, а не elasticsearch, например? :)

его не было, когда начинали, а теперь неудобно переходить, или какие-то более другие причины?
Я не автор, поэтому могу лишь предположить, что так объем данных относительно невелик:
Индекс и данные по адресам в сумме занимают 20 гигабайт. По компаниям примерно столько же, а остальные весят меньше.

а Elasticsearch это продукт который нуждается в некотором администрировании, в отличии от Lucene, который используется как встроенное решение без администрирования, то выбрали более компактное и простое решение.

Люсин легче и гибче. Эластик хорош, когда нужно готовое решение для распределённых серверов с API. А нам скорее нужен мощный движок, который можно тюнить под специализированные задачи. Поэтому Люсин.

заведомо невозможных объектов вида «дом 21/2, стр 21/2».

Не хотите ли вы сказать, что в ФИАС такие есть?

Хм. Окей, тогда второй вопрос — а как узнать, что адрес невозможен? Ну допустим, стр 21/2 не бывает, потому что это не дом по двум улицам. И это вся магия? Потому что по номеру строения/корпуса я бы отбирать не стал, ибо есть такие явления, как бывшие заводы, а ныне торговые центры, и где номер дома один а строения десятками. Савеловский рынок в Москве, или скажем ул. Орджоникидзе 11. Так что строением номер 50 нас не удивить.

Это без улицы, сразу в населённом пункте? А то в Нижнем есть «улица Дьяконова, 2/3», но после дроби не корпус и не номер по другой улице.
Only those users with full accounts are able to leave comments. Log in, please.