Agile Data Science - Visualisation des données

La visualisation des données joue un rôle très important en science des données. Nous pouvons considérer la visualisation des données comme un module de science des données. La science des données comprend bien plus que la création de modèles prédictifs. Il comprend une explication des modèles et leur utilisation pour comprendre les données et prendre des décisions. La visualisation des données fait partie intégrante de la présentation des données de la manière la plus convaincante.

Du point de vue de la science des données, la visualisation des données est une fonction de mise en évidence qui montre les changements et les tendances.

Tenez compte des directives suivantes pour une visualisation efficace des données -

  • Positionnez les données le long d'une échelle commune.

  • L'utilisation des barres est plus efficace en comparaison des cercles et des carrés.

  • Une couleur appropriée doit être utilisée pour les diagrammes de dispersion.

  • Utilisez un graphique à secteurs pour montrer les proportions.

  • La visualisation Sunburst est plus efficace pour les tracés hiérarchiques.

Agile a besoin d'un langage de script simple pour la visualisation des données et avec la science des données en collaboration "Python" est le langage suggéré pour la visualisation des données.

Exemple 1

L'exemple suivant illustre la visualisation des données du PIB calculées pour des années spécifiques. «Matplotlib» est la meilleure bibliothèque pour la visualisation de données en Python. L'installation de cette bibliothèque est illustrée ci-dessous -

Démontre la visualisation des données

Considérez le code suivant pour comprendre cela -

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

Production

Le code ci-dessus génère la sortie suivante -

Le code génère

Il existe de nombreuses façons de personnaliser les graphiques avec des étiquettes d'axe, des styles de ligne et des marqueurs de point. Concentrons-nous sur l'exemple suivant qui montre la meilleure visualisation des données. Ces résultats peuvent être utilisés pour une meilleure sortie.

Exemple 2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

Production

Le code ci-dessus génère la sortie suivante -

Le code génère le deuxième