Déployer un modèle dans le cloud

– Mettre en place un environnement virtuel Linux.
– Simuler un environnement cloud en local grâce à Apache Hadoop.
– Paralléliser des opérations de calcul avec PySpark.
– Identifier, configurer et utiliser les outils qui permettent de manipuler des données dans un environnement Big Data : AWS EMR, EC2, S3 et CLI.
– Déployer et exécuter un modèle dans le cloud.
– Analyser le bon déroulement des calculs parallélisés.
– Test de mise à l’échelle horizontale.

Concevoir et déployer un modèle de credit scoring

– Sélectionner et adapter un kernel Kaggle.
– Gérer le déséquilibre entre 2 classes.
– Élaborer la structure d’un pipeline et optimiser les hyperparamètres des algorithmes qui le composent.
– Évaluer les modèles de classification.
– Évaluer l’importance relative de chaque feature (SHAP).
– Simuler le data drift dans le temps (Evidently).
Déployer le modèle en backend dans le Web via une API Flask.
– Concevoir et déployer un dashboard interactif streamlit en frontend.
– Réaliser des tests unitaires.
– Utiliser un logiciel de gestion de versions (Git).

Classer automatiquement des biens de consommation

Cibler les features utiles au développement des modèles de classification et les transformer lorsque nécessaire (EDA).
– Mettre en œuvre des techniques de réduction de dimension.
– Manipuler des données non structurées (textes et images).
Déterminer la faisabilité d’un moteur de classification automatique en amont de son développement.
– Emploi de techniques de Natural Language Processing (NLP) et de réseaux de neurones (CNN) avec transfer learning.
Interagir avec une API en ligne.

Segmenter les clients d’un site e-commerce

– Manipuler et agréger de multiples jeux de données en un seul adapté au problème métier.
– Réaliser une analyse exploratoire des données (EDA).
Transformer et adapter les données pour les utiliser dans des modèles d’apprentissage (ML) non supervisés.
Comparer différents modèles d’apprentissage non supervisés.
Optimiser les hyperparamètres d’un algorithme d’apprentissage non supervisé et évaluer ses performances.
Simuler la stabilité d’une segmentation dans le temps.

Anticiper les besoins en consommation…

– Réaliser une analyse exploratoire des données (EDA).
Transformer et adapter les données pour les utiliser dans des modèles d’apprentissage (ML) supervisés.
Comparer différents modèles d’apprentissage supervisés et sélectionner la solution la plus adaptée au problème métier.
Optimiser les hyperparamètres d’un algorithme d’apprentissage supervisé et évaluer ses performances par validation croisée.
Étudier l’influence relative de chaque variable sur les résultats de prédiction des modèles de type ensemblistes.