Avant tout projet de science de données, la collecte et le traitement de données est une tâche très importante. Auparavant, la collecte et l’analyse des données était limitées à ce qui pouvait être fait à la main. Avec les progrès, l’information est conservée de façon plus sophistiquée même dans chacun de nos actes ; ça va de l’achat des produits alimentaires aux montres intelligentes qui suivent chaque mouvement.
Dans la collection des données il est souvent utile de fusionner plusieurs données. Les données peuvent être de différents formats et de multiples systèmes de base de données et les ETL (Extraction, transformation et chargement) permettent de résoudre ce problème.
L’ETL est le processus qui consiste à combiner les données provenant de plusieurs sources dans un grand référentiel central appelé entrepôt des données (Data Warehouse). L’objectif d’ETL est de produire des données propres, faciles d’accès et qui peuvent être exploités par l’analytique, la Business intelligence et la Data Science en générale. Dans la suite SQL Server (SSIS, SSAS, SSRS), SQL Server Intégration Service (SSIS) est un puissant outil ETL utilisé dans le cadre de projet d’intégration ou de Business Intelligence.