Après une collection des données, viens alors la phase d’apprentissage à partir des données. On cherche à extraire de l’information ou à exploiter ces données. Vient alors la question de que peut-on en faire de plus que leur synthétisation ?
L’apprentissage à partir des données n’est pas nouveau ; en 1854 le Dr John Snow a collecté et utilisé des données et utilisé des données pour trouver l’origine l’épidémie de choléra à Londres. Il avait recensé le lieu où se trouvaient les cas de choléra et a utilisé les données pour faire les faire remonter jusqu’à la pompe à eau de Broad Street, elle est jusqu’à ce jour un symbole à Londres.
Il existe plusieurs modèles pour essayer d’avoir des informations à partir des données de façon plus complexe et plus utiles qu’auparavant. Mais le traitement des volumes des données et la complexité des processus nécessaire à leur compréhension nécessitent des outils spécialisés. Un panel d’outils est mis à disposition de la communauté de la Data Science, et souvent une combinaison d’outils est utilisée selon la spécificité du problème. On retrouve ces outils sous formes de logiciel installable sur des ordinateurs standard mais sur le cloud computing mise à disposition par certaines grandes entreprises comme Google avec Google Cloud et Amazon avec Amazon Web Service. Ces Outils peuvent être divisés en outils de gestion des données et en outils d’analyse des données.
Communément, les données sont stockées sous formes de feuilles de calculs, quand elles deviennent plus volumineuses ou complexes, les solutions telles que SQL ou Hadoop sont les mieux adaptées. Les méthodes et les outils viennent des communautés différentes comme les statistiques, l’apprentissage automatique ou l’intelligence artificielle. Chacune de ces communautés ont des langages préférés ; les langages les plus souvent utilisés sont Python, R et Matlab.