Как стать автором
Обновить

Новая библиотека для анализа данных Pandas AI: стоит ли пробовать?

Время на прочтение3 мин
Количество просмотров3.3K

Появилась новая библиотека Pandas AI - надстройка над популярной библиотекой для анализа данных Pandas.

Для тех, кто не знает, Pandas - программная библиотека, написанная для языка программирования Python для обработки и анализа данных. В частности, Pandas предлагает структуры данных и операции для работы с числовыми таблицами и временными рядами. Сама Pandas бесплатна для использования.

Как уверяют разработчики, Pandas AI в свою очередь расширяет возможности Pandas за счет искусственного интеллекта.

Ниже краткий обзор.

Принцип работы Pandas AI

В редакторе кода задаете любой вопрос про данные на естественном языке и без написания кода получаете готовый ответ по вашим данным.

Какие вопросы можно задать? Любые вопросы, связанные с подготовкой, очисткой данных, визуализацией, исследовательским анализом данных, машинным обучением и т.д.

Простой пример, если спросить про данные о зарплате: "Кто в компании зарабатывает больше?". Pandas AI ответит: "Оливия зарабатывает больше".

import pandas as pd
from pandasai import PandasAI

employees_data = {
    'EmployeeID': [1, 2, 3, 4, 5],
    'Name': ['John', 'Emma', 'Liam', 'Olivia', 'William'],
    'Department': ['HR', 'Sales', 'IT', 'Marketing', 'Finance']
}

salaries_data = {
    'EmployeeID': [1, 2, 3, 4, 5],
    'Salary': [5000, 6000, 4500, 7000, 5500]
}

employees_df = pd.DataFrame(employees_data)
salaries_df = pd.DataFrame(salaries_data)


llm = OpenAI()
pandas_ai = PandasAI(llm)
pandas_ai([employees_df, salaries_df], "Who gets paid the most?")

Приведенный выше код вернет следующее:

Oh, Olivia gets paid the most.

А вот пример с визуализацией. Просим построить гистограмму стран, показывающую ВВП для каждой страны, используя разные цвета для каждого столбца.

pandas_ai(
    df,
    "Plot the histogram of countries showing for each the gdp, using different colors for each bar",
)

Получаем:

Если примеров мало, то вот еще один Пример использования библиотеки Pandas AI в Google Colab.

Как установить?

Как и любую другую библиотеку, инструкции есть на github. Отличие в том, что вам понадобится ключ API OpenAI. API платное, но есть бесплатный период на 1 месяц без привязки карты.

Если возникает вопрос по поводу безопасности данных - в случае подключения API Open AI клянется не использовать ваши данные для обучения.

Когда я услышала про Pandas AI, идея подобной библиотеки меня заинтересовала. Однако после изучения различных статей, я пришла к выводу, что пока не буду ее использовать.

Почему я не спешу устанавливать Pandas AI?

  • Сами разработчики предупреждают, что весь фрейм данных каждый раз передается вместе с вопросом, поэтому решение не идеально для обработки больших наборов данных. Кроме того, что скорее всего все будет тормозить, придется платить больше за API OpenAI.

  • Pandas AI дает готовый ответ без кода и пояснений. Сомнительно, правда? Такому ответу я не смогу доверять, ведь я даже не смогу проверить код. Мне кажется, разработчики не разобрались, кто является их целевой аудиторией.

  • Можно спросить у ChatGPT почти тоже самое. Да, будут сложности с загрузкой данных в ChatGPT (хотя по-моему уже есть какое-то решение и это проблемы), плюс сама загрузка в ChatGPT не безопасна, но никто не отменяет просто попросить написать код для какого-то конкретного случая. Кроме того есть много расширений для того же VSC, которые практически пишут код за тебя.

  • API OpenAI платное. И дело даже не в том, что нужно платить, а в том, что я с узбекской карты не могу его оплатить.

В последнее время выпускается много надстроек с использованием OpenAI, уже не успеваю следить, но почти как всегда сыро и надо дорабатывать.

Если вы пробовали - поделитесь, как вам?

Мой телеграм канал по аналитике Аналитика и growth mind-set.

Теги:
Хабы:
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Другие новости

Истории

Работа

Python разработчик
117 вакансий
Data Scientist
56 вакансий

Ближайшие события

One day offer от ВСК
Дата16 – 17 мая
Время09:00 – 18:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область