Pandas AI: библиотека Python для генеративного ИИ

Библиотека Pandas очень популярна на этапе предварительной обработки данных, машинного обучения и глубокого обучения. Но теперь вы можете делать с ней намного больше! Представляем вам новую библиотеку для обработки данных — Pandas AI.

Эта библиотека интегрирует возможности генеративного искусственного интеллекта в Pandas, делая классические датафреймы библиотеки Pandas диалоговыми.

От редакции Pythonist: о самой Pandas читайте в статьях:

Что же такое Pandas AI?

Хотите скачать книги по Python в 2 клика? Тогда вам в наш телеграм канал PythonBooks 

Что же на самом деле означает сделать датафреймы Pandas диалоговыми?

Это означает буквально следующее: вы можете вести диалог со своим набором данных. Да, да, вы не ослышались, вы реально можете общаться со своими данными и получать быстрые ответы на свои вопросы. Вам, как специалисту по данным или аналитику, больше не нужно изучать свой набор данных, часами просматривая строки и столбцы.

Специалисты по данным и аналитики тратят много времени на очистку данных для их анализа. Теперь можно вывести свой анализ данных на новый уровень.

Специалисты по данным изучают различные методы и процессы, позволяющие минимизировать время, затрачиваемое на подготовку данных. Теперь это можно делать при помощи специальной библиотеки.

PandasAI не заменяет Pandas, их следует использовать в тандеме. Вместо того, чтобы просматривать данные и отвечать на вопросы о них самостоятельно, вы можете задать эти вопросы PandasAI, и она вернет ответы в виде Pandas DataFrames.

Но означает ли это, что людям больше не нужно владеть Python для проведения анализа данных с использованием таких инструментов, как библиотека Pandas?

Конечно, нет. С помощью OpenAI API Pandas AI позволяет виртуально общаться с машиной для получения желаемых результатов, а не программировать задачу самостоятельно.

Как использовать Pandas AI?

Установка Pandas AI при помощи менеджера пакетов pip

pip install pandasai

Импорт PandasAI вместе с OpenAI

Чтобы использовать новую библиотеку Pandas AI, вам понадобится API-ключ OpenAI. Приступив к работе над своим кодом, вам нужно будет произвести следующий импорт:

import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI

llm = OpenAI(api_token=your_API_key)

Если у вас нет уникального ключа API OpenAI, вы можете создать учетную запись на платформе OpenAI и создать ключ API здесь (Как это сделать из России, Украины и Беларуси? В интернете есть множество инструкций, обратитесь к ним — прим. переводчика).

После того, как все настроено, можно начинать использовать Pandas AI.

Запуск модели на вашем датафрейме

Во-первых, нужно запустить вашу модель OpenAI в Pandas AI:

pandas_ai = PandasAI(openAImodel)

Затем нужно будет запустить модель на датафрейме, который состоит из двух (или более) параметров датафрейма, с которым вы работаете, и вопроса, который вы хотите задать:

import pandas as pd
from pandasai import PandasAI

# Примерный DataFrame
df = pd.DataFrame({
    "country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
    "gdp": [19294482071552, 2891615567872, 2411255037952, 3435817336832, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
    "happiness_index": [6.94, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})

# Instantiate a LLM
from pandasai.llm.openai import OpenAI
llm = OpenAI()

pandas_ai = PandasAI(llm)
pandas_ai.run(df, prompt='Which are the 5 happiest countries?')

Результатом будет следующий датафрейм:

6            Canada
7         Australia
1    United Kingdom
3           Germany
0     United States
Name: country, dtype: object

Также возможно выполнять и более сложные запросы. Например, математические расчеты или визуализации данных.

Пример визуализации данных:

pandas_ai.run(
    df,
    "Plot the histogram of countries showing for each the gpd, using different colors for each bar",
)

А вот результат данной визуализации:

Диаграмма, сгенерированная при помощи Pandas AI

Pandas AI — еще очень новая библиотека, и команда ее разработчиков постоянно ищет возможности для ее улучшения. По состоянию на 10 мая в их списке задач есть следующее:

Команда разработчиков также открыта для предложений по улучшению библиотеки. Если вы заинтересованы в том, чтобы внести свой вклад в ее развитие, ознакомьтесь с соответствующим руководством.

Заключение

Хотя Pandas AI не заменяет Pandas, это хороший инструмент для ускорения вашего рабочего процесса. Несмотря на то, что можно задавать Pandas AI вопросы о своем наборе данных, все равно необходимо владеть навыками программирования, чтобы исправлять и направлять библиотеку, когда она делает ошибки.

Если вы уже попробовали использовать эту библиотеку в вашей работе, напишите в комментариях ваши впечатления.

Перевод статьи Nysha Arya Pandas AI: The Generative AI Python Library.