Библиотека Pandas очень популярна на этапе предварительной обработки данных, машинного обучения и глубокого обучения. Но теперь вы можете делать с ней намного больше! Представляем вам новую библиотеку для обработки данных — Pandas AI.
Эта библиотека интегрирует возможности генеративного искусственного интеллекта в Pandas, делая классические датафреймы библиотеки Pandas диалоговыми.
От редакции Pythonist: о самой Pandas читайте в статьях:
- Полное руководство по Pandas для начинающих
- Как создать Pandas DataFrame
- Примеры применения Pandas в Python
Что же такое Pandas AI?
Друзья, подписывайтесь на наш телеграм канал Pythonist. Там еще больше туториалов, задач и книг по Python.
Что же на самом деле означает сделать датафреймы Pandas диалоговыми?
Это означает буквально следующее: вы можете вести диалог со своим набором данных. Да, да, вы не ослышались, вы реально можете общаться со своими данными и получать быстрые ответы на свои вопросы. Вам, как специалисту по данным или аналитику, больше не нужно изучать свой набор данных, часами просматривая строки и столбцы.
Специалисты по данным и аналитики тратят много времени на очистку данных для их анализа. Теперь можно вывести свой анализ данных на новый уровень.
Специалисты по данным изучают различные методы и процессы, позволяющие минимизировать время, затрачиваемое на подготовку данных. Теперь это можно делать при помощи специальной библиотеки.
PandasAI не заменяет Pandas, их следует использовать в тандеме. Вместо того, чтобы просматривать данные и отвечать на вопросы о них самостоятельно, вы можете задать эти вопросы PandasAI, и она вернет ответы в виде Pandas DataFrames.
Но означает ли это, что людям больше не нужно владеть Python для проведения анализа данных с использованием таких инструментов, как библиотека Pandas?
Конечно, нет. С помощью OpenAI API Pandas AI позволяет виртуально общаться с машиной для получения желаемых результатов, а не программировать задачу самостоятельно.
Как использовать Pandas AI?
Установка Pandas AI при помощи менеджера пакетов pip
pip install pandasai
Импорт PandasAI вместе с OpenAI
Чтобы использовать новую библиотеку Pandas AI, вам понадобится API-ключ OpenAI. Приступив к работе над своим кодом, вам нужно будет произвести следующий импорт:
import pandas as pd from pandasai import PandasAI from pandasai.llm.openai import OpenAI llm = OpenAI(api_token=your_API_key)
Если у вас нет уникального ключа API OpenAI, вы можете создать учетную запись на платформе OpenAI и создать ключ API здесь (Как это сделать из России, Украины и Беларуси? В интернете есть множество инструкций, обратитесь к ним — прим. переводчика).
После того, как все настроено, можно начинать использовать Pandas AI.
Запуск модели на вашем датафрейме
Во-первых, нужно запустить вашу модель OpenAI в Pandas AI:
pandas_ai = PandasAI(openAImodel)
Затем нужно будет запустить модель на датафрейме, который состоит из двух (или более) параметров датафрейма, с которым вы работаете, и вопроса, который вы хотите задать:
import pandas as pd from pandasai import PandasAI # Примерный DataFrame df = pd.DataFrame({ "country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"], "gdp": [19294482071552, 2891615567872, 2411255037952, 3435817336832, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064], "happiness_index": [6.94, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12] }) # Instantiate a LLM from pandasai.llm.openai import OpenAI llm = OpenAI() pandas_ai = PandasAI(llm) pandas_ai.run(df, prompt='Which are the 5 happiest countries?')
Результатом будет следующий датафрейм:
6 Canada 7 Australia 1 United Kingdom 3 Germany 0 United States Name: country, dtype: object
Также возможно выполнять и более сложные запросы. Например, математические расчеты или визуализации данных.
Пример визуализации данных:
pandas_ai.run( df, "Plot the histogram of countries showing for each the gpd, using different colors for each bar", )
А вот результат данной визуализации:

Pandas AI — еще очень новая библиотека, и команда ее разработчиков постоянно ищет возможности для ее улучшения. По состоянию на 10 мая в их списке задач есть следующее:
- Добавить поддержку большего количества LLM (Large Languege Model — большая языковая модель)
- Создать веб-интерфейс для PandasAI
- Добавить модульные тесты
Команда разработчиков также открыта для предложений по улучшению библиотеки. Если вы заинтересованы в том, чтобы внести свой вклад в ее развитие, ознакомьтесь с соответствующим руководством.
Заключение
Хотя Pandas AI не заменяет Pandas, это хороший инструмент для ускорения вашего рабочего процесса. Несмотря на то, что можно задавать Pandas AI вопросы о своем наборе данных, все равно необходимо владеть навыками программирования, чтобы исправлять и направлять библиотеку, когда она делает ошибки.
Если вы уже попробовали использовать эту библиотеку в вашей работе, напишите в комментариях ваши впечатления.
Перевод статьи Nysha Arya Pandas AI: The Generative AI Python Library.