likid_ri 21 дек 2016 в 13:27

Генерация фиктивных данных с Mimesis: Часть I

7 мин

36K

Python*Django*

Из песочницы

+44

Комментарии 40

kivsiak 21 дек 2016 в 14:46

Полезная штука. Хочу такую же как плагин для sketch3. Ну или самому попереть справочники и портировать на праздниках

kmz161 21 дек 2016 в 15:21

Возникла ошибка при установке библиотеки
SyntaxError: Non-ASCII character '\xe2' in file elizabeth\core\interdata.py on line 720, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

likid_ri 21 дек 2016 в 15:23

Скажите, пожалуйста, какая у вас ОС и какой Python использовали?

kmz161 21 дек 2016 в 15:32

Проблема идентичная как на windows 10, так и на Ubuntu 16.04. На обоих ОС python 2.7.12

likid_ri 21 дек 2016 в 15:34

Все верно. Возможно вы не обратили внимания на бейджики в ридми. Библиотека работает только на Python 3.

kmz161 21 дек 2016 в 15:35

Спасибо. Действительно не увидел этого. Жаль, что на 2.7 не поддерживается

likid_ri 21 дек 2016 в 16:01

Версия 2.7 обошлась бы загрязнением кода, из-за необходимости поддерживать обратную совместимость, и возникновением зависимостей, потому пришлось пойти на такую жертву.

dimmount 21 дек 2016 в 18:54

на 2.7 есть faker

likid_ri 21 дек 2016 в 18:54

Да, верно.

kmz161 21 дек 2016 в 15:31

Проблема идентичная как на windows 10, так и на Ubuntu 16.04. На обоих ОС python 2.7.12.
Извиняюсь, ошибся веткой

tytar 21 дек 2016 в 15:34

Скажите, а в чем профит вашей реализации от того же faker?

likid_ri 21 дек 2016 в 15:56

Какого-то глубокого сравнения я не производил, но могу сказать, что данных больше, провайдеров больше. Данные для русского языка достаточно точны и валидны. Скорость работы выше. Я, конечно, не производил сравнения скорости генерации в в боевых условиях (т.е с бд), но даже в обычной генерации данных `elizabeth` работает в разы быстрее, чем `faker`.

Небольшой пример:
Ниже приведен скрины работы кода, который генерирует 250к имен (Ф.И).

saluev 21 дек 2016 в 16:46

По ссылке старый пакет. Вот актуальный.

likid_ri 21 дек 2016 в 16:48

Да, именно с ним я и сравнивал.

polarnik 21 дек 2016 в 15:39

Привет, спасибо. Как-то создал синтетический мир из нескольких тысяч организаций и сотрудников для тестирования сервиса электронного документооборота. Нужны были ИНН, КПП, ОГРН, СНИЛС, ФИО, наименования, города, улицы, индексы, ...

Подборку исходных данных по ФИО и наименованиям, частично, вот тут отразил:

http://qapositive.blogspot.ru/2015/01/dictionaries.html
Взял из Википедии. Потом была реализация, где источником были базы данных переписи населения.

likid_ri 21 дек 2016 в 15:58

Пожалуйста! Мы по возможности стараемся добавлять только данные, которые годятся для всех языков. А ИНН и все такое можно генерировать другими классами-провайдерами, которые с легкостью с этим справляются.

saluev 21 дек 2016 в 16:44

А разные группы крови появляются с теми же вероятностями, что и в реальном мире? :)

likid_ri 21 дек 2016 в 16:46

:D Нет, к сожаление нет, но такую особенность прикрутить можно. Хорошая идея!

JeStoneDev 22 дек 2016 в 02:07

Win10

Python 3.5.2 (v3.5.2:4def2a2901a5, Jun 25 2016, 22:01:18) [MSC v.1900 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> from elizabeth import Personal
>>> user = Personal('is')
>>> for _ in range(0, 9):
...     print(user.full_name(gender='male'))
...
Traceback (most recent call last):
  File "<stdin>", line 2, in <module>
  File "C:\Users\mainj\AppData\Local\Programs\Python\Python35-32\lib\encodings\cp437.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_map)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\xf0' in position 5: character maps to <undefined>

Нетекстовые данные (и текстовые на английском) нормально генерируются.

likid_ri 22 дек 2016 в 08:32

Я подозревал, что на Windows проблемы могут возникнуть. Откройте, пожалуйста, issue, чтобы контрибьюторы, у которых Windows могли это исправить.

На Linux:

Скрин

likid_ri 22 дек 2016 в 08:37

Все, я открыл: #70

likid_ri 23 дек 2016 в 00:05

Посмотрите, пожалуйста. Нашлось решение вашей проблемы: #70

JeStoneDev 23 дек 2016 в 03:16

Да, это помогло. Спасибо

ebt 22 дек 2016 в 02:50

Игнорируя второй питон вы оставляете за бортом заметную часть разработчиков.
You know it.

likid_ri 22 дек 2016 в 08:25

Да, вы правы, но ради чистоты и отсутствия зависимостей приходится идти на такую жертву.

PTM 22 дек 2016 в 08:47

Интересно…
как насчет того, чтобы в текст добавить универсальный генератор речей?
_https://dezinfo.net/images2/image/09.2009/ukot/1001.jpg

likid_ri 22 дек 2016 в 09:05

Да, думали над этим. Пока будет только текст, но когда иностранных контрибьюторов наберется — откажемся от текста в файлах и напишем генераторы.

likid_ri 30 янв 2017 в 19:42

Добавил универсальный генератор речей. Спасибо вам за идею.

>>> from elizabeth.builtins import RussiaSpecProvider

>>> rus = RussiaSpecProvider()
>>> rus.generate_sentence()

"Равным образом рамки, задачи и место обучения кадров требуют определения и уточнения направлений прогрессивного развития и перспектив отрасли."

НЛО прилетело и опубликовало эту надпись здесь

likid_ri 27 дек 2016 в 13:34

Библиотека не подразумевает, что имена и фамилии будут использоваться в одном контексте. Ф.И для одних задач, Текст — для других. Обеспечить такого рода тонкости для одного языка — это одно, а для 16 — другое. Каждый язык имеет свои тонкости. Потому проще генерировать текст из готовых Предложений.

НЛО прилетело и опубликовало эту надпись здесь

likid_ri 27 дек 2016 в 14:22

Вы сможете сплитить строку и, в зависимости от окончания (метод endswith()), добавлять то чего, требуют правила русского языка. Другими словами, подобного рода вещи делегированы на пользователя. Задача же библиотеки — это дать вам «Ивана Петровича», а уж как его склонять — это уже дело ваше.

НЛО прилетело и опубликовало эту надпись здесь

likid_ri 27 дек 2016 в 15:16

Спасибо за интерес!

pcdesign 3 янв 2017 в 13:27

Спасибо за статью.
А если в файле models.py находится 100500 классов, и внутри каждого 100500 полей. Есть вариант скормить как-то весь models.py и получит готовую базу данных с фиктивными данными без написания staticmethod в каждом классе?