Extraire des fonctionnalités avec PySpark

Dans ce chapitre, nous découvrirons l'application des fonctionnalités d'extraction avec PySpark dans Agile Data Science.

Présentation de Spark

Apache Spark peut être défini comme un cadre de traitement rapide en temps réel. Il effectue des calculs pour analyser les données en temps réel. Apache Spark est introduit en tant que système de traitement de flux en temps réel et peut également prendre en charge le traitement par lots. Apache Spark prend en charge les requêtes interactives et les algorithmes itératifs.

Spark est écrit en «langage de programmation Scala».

PySpark peut être considéré comme une combinaison de Python avec Spark. PySpark propose le shell PySpark, qui relie l'API Python au noyau Spark et initialise le contexte Spark. La plupart des scientifiques des données utilisent PySpark pour suivre les fonctionnalités comme discuté dans le chapitre précédent.

Dans cet exemple, nous nous concentrerons sur les transformations pour construire un ensemble de données appelé count et l'enregistrer dans un fichier particulier.

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

À l'aide de PySpark, un utilisateur peut travailler avec des RDD en langage de programmation python. La bibliothèque intégrée, qui couvre les bases des documents et composants basés sur les données, aide à cet égard.