Как стать автором
Обновить

Импорт данных из MySQL в SPSS 15

Время на прочтение3 мин
Количество просмотров1.1K
Так случилось, что мне для анализа понадобились данные, собираемые движком сайта. Данные хранятся в MySQL, а анализировать мне их удобнее было в SPSS. Найти инструкцию, как осуществить этот специфичный импорт, мне не удалось, поэтому привожу здесь инструкцию для тех, кто столкнётся с подобной проблемой.


1. Коннектор базы данных


Основная проблема, с которой сталкиваешься при попытке импорта данных из MySQL в SPSS — это отсутствие необходимого драйвера данных. Как выяснилось, подобный драйвер (MySQL Connector/ODBC) не идёт в комплекте с самим сервером, поэтому нам нужно будет взять его с сайта MySQL (ссылка).

Установив его, перезапускаем SPSS (если он был запущен), и идём в меню File ► Open Database ► New Query…

image

Если до этого не создавалось никаких других подключений к базам данных, то вам будет предложено создать новое. Жмём «Да».

image

В противном случае в окне «Database Wizard» (см. ниже) нужно будет нажать кнопку «Add ODBC Data Source...».

Итак, перед нами открыт диалог настройки подключений. В зависимости от того, хотим мы предоставлять доступ к нашему подключению только для себя или для всех пользователей машины, выбираем вкладки «Пользовательский DSN» или «Системный DSN», соответственно. Их содержимое абсолютно идентично. Допустим, база располагается на той же машине, где и сам SPSS.

image

Жмём кнопку «Добавить». Перед нами — список доступных драйверов, в котором есть куча всего. Нам нужен MySQL ODBC Driver. Жмём «Готово».

image

Перед нами открывается окошко настройки подключения MySQL. Нам необходимо заполнить стандартные параметры подключения:
  • Data Source Name — имя подключения. Постарайтесь не использовать спецсимволы, потому что в этом случае подключение может быть не создано;
  • Description — комментарий к имени подключения;
  • Server — имя или ip-адрес сервера, на котором размещается MySQL;
  • Port — порт, через который осуществляется общение с сервером. Обычно 3306;
  • User — имя пользователя, которое будет использоваться при регистрации на сервере. Если предполагается регулярное обращение к данным базы, то имеет смысл создать отдельного пользователя для SPSS;
  • Password — ну понятно, пароль учётной записи MySQL;
  • Database — имя базы данных, из которой будут браться данные. Если введены правильные параметры подключения, то при нажатии на стрелку в выпадающем списке будут названия всех баз, видимых для пользователя;


image

Нажимаем «ОК». В окошке «Администратора источников данных ODBC» появилось наше подключение. Жмём «ОК».

2. Создание нового запроса


Теперь, когда у нас есть созданное подключение, снова идём в File ► Open Database ► New Query… Перед нами открывается окно мастера запросов.

image

Выбираем нужное нам и жмём «Далее >». Перед нами — окно выбора данных. В списке слева отображаются все имеющиеся в базе таблицы, а если раскрыть их, то увидим столбцы (переменные в терминологии SPSS). Допустим, нам нужны данные всех столбцов таблицы store_items. Для этого мышкой хватаем store_items из левого списка и перетаскиваем в правый. При этом отдельные столбцы будут представлены в виде <имя_таблицы>:<имя столбца>.

image

Следующие два окна мастера нужны, если требуется задать определённые условия выборки и перекодировать переменные. На них мы здесь останавливаться не будем. Нажимаем «Далее >» два раза. Теперь открыто окно «Results».

image

В этом окне можно сделать следующее:
  1. Проверить сформированный SQL-запрос. По идее, никаких проблем быть не должно, но всё же стоит удостовериться;
  2. Выбрать, стоит ли выполнить запрос сейчас или перевести его в формат языка Syntax для дальнейшего редактирования (полезно при построении комплексных выборок);
  3. Сохранить запрос в текстовый файл.


Допустим, мы решили открыть редактор Syntax'а вместо того, чтобы выполнить запрос сразу. В таком случае мы получим вот такое окно:

image

В данном случае мы ничего менять не будем, поэтому просто идём в меню Run ► All. Voila! — и данные из таблицы у нас в SPSS.

3. Теперь о грустном


Есть несколько моментов, о которых следует помнить, импортируя данные из MySQL:
  1. SPSS чрезвычайно криво работает с импортом строковых данных, поэтому если есть возможность перекодировать их в числовые, то это лучше это сделать в предпоследнем окне мастера. Если же эти данные крайне важны, то, возможно, лучше их экспортировать из MySQL в csv, подготовить структуру данных в SPSS и осуществить импорт;
  2. SPSS не предназначен для работы с двоичными данными, это инструмент для статистического анализа читабельных для человека данных, и он будет вылетать при первой же попытке импортировать в него такие данные. Видимо, это недоработка тестеров SPSS a.g.;
  3. Механизм импорта в SPSS не слишком хорошо отлажен, поэтому программа может вылетать. Не забывайте сохраняться перед импортом новых данных.
Теги:
Хабы:
+3
Комментарии0

Публикации