Комментарии 9
Да, приходится свежеполученные данные принудительно превращать в unicode, нередко при этом пользуясь тормозным chardet. Увы, пока лучше вариантов не нашел.
0
Вам просили передать, что по RFC 2616 (HTTP 1.1) кодировка контента по умолчанию — ISO8859-1 a.k.a. Latin1. Так что библиотечка всё делает правильно, и питон всё делает правильно, а виноваты вебмастеры, не объявляющие кодировку своих страниц. И частично писатели стандарта, выбравшие «плохую» кодировку.
+8
Или вы Александр Кошелев или я ничего не понимаю.
Вот та же самая статья, датированная аж 2009 годом: webnewage.org/2009/11/04/be-ware-lxml-html/
Вот та же самая статья, датированная аж 2009 годом: webnewage.org/2009/11/04/be-ware-lxml-html/
+13
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
LXML — проблемы с кодировкой при парсинге HTML