Agile Data Science - Introduction

La science des données agile est une approche de l'utilisation de la science des données avec une méthodologie agile pour le développement d'applications Web. Il se concentre sur les résultats du processus de science des données appropriés pour effectuer des changements pour une organisation. La science des données comprend la création d'applications qui décrivent le processus de recherche avec analyse, visualisation interactive et désormais l'apprentissage automatique appliqué.

Le principal objectif de la science des données agile est de -

documenter et guider l'analyse explicative des données pour découvrir et suivre le chemin critique vers un produit convaincant.

La science des données agile est organisée selon les principes suivants:

Itération continue

Ce processus implique une itération continue avec des tableaux de création, des graphiques, des rapports et des prévisions. La construction de modèles prédictifs nécessitera de nombreuses itérations d'ingénierie des fonctionnalités avec extraction et production d'informations.

Sortie intermédiaire

Il s'agit de la liste des pistes des sorties générées. On dit même que les expériences ratées ont également un résultat. Le suivi de la sortie de chaque itération aidera à créer une meilleure sortie lors de la prochaine itération.

Expériences de prototype

Les expériences de prototype impliquent l'attribution de tâches et la génération de résultats conformément aux expériences. Dans une tâche donnée, nous devons itérer pour obtenir un aperçu et ces itérations peuvent être mieux expliquées comme des expériences.

Intégration de données

Le cycle de vie du développement logiciel comprend différentes phases avec des données essentielles pour -

  • les clients

  • les développeurs, et

  • les affaires

L'intégration des données ouvre la voie à de meilleures perspectives et résultats.

Valeur des données de la pyramide

Valeur des données de la pyramide

La valeur de la pyramide ci-dessus décrit les couches nécessaires au développement de la «science des données agile». Cela commence par une collection d'enregistrements basés sur les exigences et la plomberie des enregistrements individuels. Les graphiques sont créés après le nettoyage et l'agrégation des données. Les données agrégées peuvent être utilisées pour la visualisation des données. Les rapports sont générés avec une structure, des métadonnées et des balises de données appropriées. La deuxième couche de pyramide à partir du haut comprend une analyse de prédiction. La couche de prédiction est l'endroit où plus de valeur est créée, mais aide à créer de bonnes prédictions qui se concentrent sur l'ingénierie des fonctionnalités.

La couche la plus haute implique des actions où la valeur des données est conduite efficacement. La meilleure illustration de cette implémentation est «l'intelligence artificielle».