Основы Data Science и Big Data. Python и наука о данных

data science, Основы Data Science и Big Data. Python и наука о данных

Всем привет! Сегодня мы будем рассматривать книгу, посвященную науке о данных. Казалось бы, при чем тут Python… Но, дело в том, что Python — самый используемый язык в сфере Data Science. «Основы Data Science и Big Data», при должном подходе к изучению, станет отличной отправной точкой для входа в эту сферу.

Немного об авторах

Дэви Силен — бывалый бизнесмен, писатель и профессор. Является одним из внештатных лекторов школы менеджмента IESEG во Франции (город Лилле). Там он занимается исследованиями в области теории Big Data и преподает материалы из этой же сферы.

Мохамед Али — тоже бизнесмен и консультант в области науки о данных. Он увлечен областью Data Science, а также является ярым защитником экологии.

Арно Мейсман — специалист в Data Science, чьи интересы весьма различаются: от торговли в розницу до игровой аналитики. Всё это потому, что он убежден: информация, которую получают, обрабатывая данные, вместе с некоторым воображением, поможет достичь совершенства нашего мира.

Представленное выше трио являются совладельцами двух Data Science компаний, базирующихся в Бельгии и Великобритании. Это Optimately и Maiton.

Поговорим о содержании

Каждая глава этой книги обращается к одной из концепций Data Science. В этом можно убедиться, рассмотрев оглавление:

  • Глава 1. Data Science в мире больших данных — в этой главе вы начнете изучение теории. Будут рассмотрены типы данных, сам процесс Data Science и ее экосистема. Будет описан вводный пример использования Hadoop.
  • Глава 2. Процесс Data Science — здесь покажут процесс сбора данных и их обработки, а также анализ и представление результатов.
  • Глава 3. Машинное обучение — вы узнаете, что такое машинное обучение, научитесь создавать модели и правильно выбирать типы моделей и обучения. Немного затронете частично контролируемое обучение.
  • Глава 4. Работа с большими данными на одном компьютере — эта глава расскажет о проблемах при работе с большими данными, поможет правильно выбрать инструменты. Также авторы покажут два примера: прогнозирование вредоносных URL-адресов и построение рекомендательной системы внутри базы данных.
  • Глава 5. Первые шаги в области больших данных — эта небольшая глава будет посвящена распределению хранения и обработки данных в инфраструктурах. Затем вы подкрепите данные учебным примером оценки риска при кредитовании.
  • Глава 6. Присоединяйтесь к движению NoSQL — исходя из названия, понимаем, что будем изучать NoSQL. Рассмотрим учебный пример «Диагностика болезней», узнаем о разнице между SQL и NoSQL.
  • Глава 7. Графовые базы данных — вы узнаете о Neo4j (графовая база данных) и Cypher (язык запросов к такой БД). Узнаете о связанных данных и рассмотрите пример из использования на основе рекомендательной системы.
  • Глава 8. Глубокий анализ текста — на протяжении одной главы, вкратце, вы рассмотрите работу с глубоким анализом текста. На примере классификации сообщений с Reddit закрепите полученные данные. Если хотите узнать о работе с естественным языком побольше, взгляните на «Знакомство с Pytorch«.
  • Глава 9. Визуализация данных для конечного пользователя — здесь вы немного потрогаете JavaScript и научитесь визуализировать данные, связав Python и JS.

Подведем итоги

Авторы написали эту книгу для тех, кто хочет войти в Data Science, но не знает, с чего начать. В каждой главе вы сможете немного затронуть чуть ли не каждый аспект науки о данных. Примеры в конце каждой главы помогут закрепить знания. По итогу у вас будет сформировано понимание того, что вы хотите получить от этой сферы, и в какой ее уголок хотите углубиться.

Стоит учесть, что, для полноценного погружения в эту книгу, необходимо иметь хотя бы минимальный опыт в Python, HTML и знать основы SQL.

Оставляйте свое мнение в комментариях, обсуждайте в нашем чате. Скачать книгу можно из нашего телеграм-канала с книгами по этой ссылке.