Чтение бинарных файлов с помощью Python

Перевод статьи How to Read Binary Files in Python.

Файл, содержащий бинарные данные, называется двоичным (бинарным) файлом. Любые форматированные и неформатированные бинарные данные хранятся в бинарных файлах, нечитабельных для человека и использующихся компьютером напрямую.

Когда бинарный файл требуется просмотреть или переместить, содержимое файла переводится в формат, понятный человеку. Бинарный файл имеет расширение .bin. Прочитать его можно с помощью встроенной функции или модуля. В этом уроке мы разберём различные способы чтения бинарных файлов с помощью Python.

Подготовка

Перед тем, как начать урок, желательно создать один или несколько бинарных файлов, чтобы воспользоваться скриптом из примера. Ниже представлены два скрипта на Python, которые создадут два бинарника. Файл binary1.py создаёт string.bin, содержащий строковые данные, а binary2.py – number_list.bin со списком из числовых данных.

Binary1.py

# Создаём бинарный файл
file_handler = open("string.bin", "wb")

# Добавляем две строки в бинарный файл
file_handler.write(b"Welcome to LinuxHint.\nLearn Python Programming.")

# Закрываем чтение
file_handler.close()

Binary2.py

# Создаём бинарный файл
file=open("number_list.bin","wb")

# Объявляем список с числовыми данными
numbers=[10,30,45,60,70,85,99]

# Конвертируем список в массив
barray=bytearray(numbers)

# Записываем массив в файл
file.write(barray)

file.close()

Считываем бинарный файл со строковыми данными в массив байтов

В Python существует множество способов прочитать бинарный файл. Можно прочитать определённое количество байтов или весь файл сразу.

В приведенном ниже коде функция open() открывает для чтения string.bin, а функция read() на каждой итерации цикла while считывает по 7 символов в файле и выводит их. Далее мы используем функцию read() еще раз, но уже без аргументов — для считывания всего файла. После считывания содержимое выводится на экран.

# Открываем бинарный файл на чтение
file_handler = open("string.bin", "rb")

# Читаем первые 7 байтов из файла
data_byte = file_handler.read(7)
print("Print three characters in each iteration:")

# Проходим по циклу, чтобы считать оставшуюся часть файла
while data_byte:
    print(data_byte)
    data_byte = file_handler.read(7)

# Записываем всё содержимое файла в байтовую строку
with open('string.bin', 'rb') as fh:
    content = fh.read()

print("Print the full content of the binary file:")
print(content)

Результат

После выполнения скрипта мы получим следующий результат.

Считываем бинарный файл со строковыми данными в массив

Следующий скрипт поможет нам прочитать бинарник number_list.bin, созданный нами ранее.

# Открываем на чтение бинарный файл
file = open("number_list.bin", "rb")

# Считываем в список первые 5 элементов
number = list(file.read(5))

# Выводим список
print(number)

# Закрываем файл
file.close()

Бинарный файл содержит список с числовыми данными. Как и в предыдущем примере, функция open() открывает файл и читает из него данные. Затем из бинарника читаются первые 5 чисел и перед выводом объединяются в список.

Результат

После выполнения скрипта мы получим следующий результат. Бинарный файл содержит 7 чисел, первые 5 вывелись на консоль.

Читаем бинарный файл с помощью NumPy

В этой части мы поговорим о том, как создать бинарный файл и прочитать его с помощью массивов NumPy. Перед началом работы необходимо установить модуль NumPy командой в терминале или через ваш редактор Python, в котором вы будете писать программу.

Функция tofile() создаёт текстовый или бинарный файл, а fromfile() считывает данные из файла и создаёт массив.

Синтаксис tofile()

ndarray.tofile(file, sep='', format='%s')

Первый аргумент обязательный – он принимает имя файла, путь или строку. Файл создастся, только если будет указан первый аргумент. Второй аргумент – необязательный, он используется для разделения элементов массива. Третий аргумент также необязателен, он отвечает за форматированный вывод содержимого файла.

Синтаксис fromfile()

numpy.fromfile(file, dtype=float, count=- 1, sep='', offset=0, *, like=None)

Первый аргумент обязательный – он принимает имя файла, путь или строку. Содержимое файла будет прочитано, только если вы укажете имя файла. dtype определяет тип данных в возвращаемом массиве. Count задаёт число элементов массива. Sep – для разделения элементов текста или массива. Offset определяет позицию в файле, с которой начинается считывание. Последний аргумент нужен, чтобы создать массив, не являющийся массивом NumPy.

Напишем следующий код, чтобы создать бинарный файл с помощью массива NumPy, прочитать его и вывести содержимое.

# Импортируем NumPy
import numpy as np

# Объявляем массив numpy 
nparray = np.array([34, 89, 30, 45, 90, 11])

# Создаём бинарный файл из numpy-массива
nparray.tofile("list.bin")

# Выведем данные из бинарного файла
print(np.fromfile("list.bin",  dtype=np.int64))

Результат

После выполнения скрипта мы увидим следующий результат.

Заключение

Мы рассмотрели 3 разных способа чтения бинарных файлов. В первом примере мы получили содержимое файла в виде массива байтов, во втором и третьем – в виде списка.