Pull to refresh
Comments 4
На гите есть тетрадка, там можно подробнее ознакомиться.
Если коротко: в одном решении брали вектора пересечений названий, полученных с помощью CountVectorizer'а и вектора разности названий. Из одного вектора вычитали другой и по полученной фиче предсказывали таргет с помощью SVM.
В другом использовались сиамские нейронные сети.

Что-то я задания не понял.
Как из названий можно понять, что, к примеру, Запсибнефтехим и Сибур Диджитал это один холдинг?

Выдержка из условия: «Аффилированными компаниями считаются компании, принадлежащие одному холдингу или группе компаний. Например, все компании из списка: Сибур Нефтехим, ООО Сибур, Sibur Digital, СИБУР ИТ, Sibur international GMBH являются вариациями названий аффилированных компаний, а компания “Сибирь International GMBH” не является». Конечно в тренировочной выборке были и примеры компаний из одного холдинга, которые, вероятно, невозможно определить лишь по названию.
Only those users with full accounts are able to leave comments. Log in, please.