Agile Data Science - Визуализация данных

Визуализация данных играет очень важную роль в науке о данных. Мы можем рассматривать визуализацию данных как модуль науки о данных. Наука данных включает в себя нечто большее, чем построение прогностических моделей. Он включает объяснение моделей и их использование для понимания данных и принятия решений. Визуализация данных является неотъемлемой частью представления данных наиболее убедительным образом.

С точки зрения науки о данных визуализация данных - это особенность, которая показывает изменения и тенденции.

Рассмотрим следующие рекомендации для эффективной визуализации данных -

  • Расположите данные по общему масштабу.

  • Использование баров более эффективно по сравнению кругов и квадратов.

  • Правильный цвет должен быть использован для точечных графиков.

  • Используйте круговую диаграмму, чтобы показать пропорции.

  • Визуализация солнечных лучей более эффективна для иерархических графиков.

Для Agile нужен простой язык сценариев для визуализации данных, а вместе с наукой о данных в сотрудничестве «Python» является рекомендуемым языком для визуализации данных.

Пример 1

В следующем примере демонстрируется визуализация данных ВВП, рассчитанного в определенные годы. Matplotlib - лучшая библиотека для визуализации данных в Python. Установка этой библиотеки показана ниже -

Демонстрирует визуализацию данных

Рассмотрим следующий код, чтобы понять это -

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

Выход

Приведенный выше код генерирует следующий вывод -

Код генерирует

Существует множество способов настроить диаграммы с помощью меток осей, стилей линий и маркеров точек. Давайте сосредоточимся на следующем примере, который демонстрирует лучшую визуализацию данных. Эти результаты могут быть использованы для лучшего результата.

Пример 2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

Выход

Приведенный выше код генерирует следующий вывод -

Код генерирует второй