Pull to refresh

Comments 4

UFO just landed and posted this here
Надо, кстати, будет поиграться с такой фичей признаком в ранжировании упорядочивании ленты.

Мой вывод: надо знать матчасть, даже если она выглядит просто.


Это я насчет pandas и огромного расхода памяти. Дело в том, что насколько я это разбирался, pandas в основном для численных данных и под капотом он использует массивы numpy.


А для строк обычные списки и словари работают гораздо эффективнее. Если нужна еще какая-то хитрая работа со строками, то лучше писать свое расширение, как это например сделали авторы SpaCy.

Ну pandas это стандарт для «типичного датасаентиста», поэтому в бэйзлайн брали его а не Dask, PyTables и т.д. Да даже сам arrow можно было использовать на прямую. В целом по памяти колоночный формат пандаса неплох и хорошо интегрирован со скайкитом. Проблемы создаются в первую очередь когда вместо передачи колонки целиком в нативный код приходится делать итерацию по элементам в питоне.
Sign up to leave a comment.