Portfolio – Mathias Pacaud

Déployer un modèle dans le cloud

– Mettre en place un environnement virtuel Linux.
– Simuler un environnement cloud en local grâce à Apache Hadoop.
– Paralléliser des opérations de calcul avec PySpark.
– Identifier, configurer et utiliser les outils qui permettent de manipuler des données dans un environnement Big Data : AWS EMR, EC2, S3 et CLI.
– Déployer et exécuter un modèle dans le cloud.
– Analyser le bon déroulement des calculs parallélisés.
– Test de mise à l’échelle horizontale.

GitHub

Rapport

Concevoir et déployer un modèle de credit scoring

– Sélectionner et adapter un kernel Kaggle.
– Gérer le déséquilibre entre 2 classes.
– Élaborer la structure d’un pipeline et optimiser les hyperparamètres des algorithmes qui le composent.
– Évaluer les modèles de classification.
– Évaluer l’importance relative de chaque feature (SHAP).
– Simuler le data drift dans le temps (Evidently).
– Déployer le modèle en backend dans le Web via une API Flask.
– Concevoir et déployer un dashboard interactif streamlit en frontend.
– Réaliser des tests unitaires.
– Utiliser un logiciel de gestion de versions (Git).

GitHub

Rapport

Classer automatiquement des biens de consommation

– Cibler les features utiles au développement des modèles de classification et les transformer lorsque nécessaire (EDA).
– Mettre en œuvre des techniques de réduction de dimension.
– Manipuler des données non structurées (textes et images).
– Déterminer la faisabilité d’un moteur de classification automatique en amont de son développement.
– Emploi de techniques de Natural Language Processing (NLP) et de réseaux de neurones (CNN) avec transfer learning.
– Interagir avec une API en ligne.

GitHub

Rapport

Segmenter les clients d’un site e-commerce

– Manipuler et agréger de multiples jeux de données en un seul adapté au problème métier.
– Réaliser une analyse exploratoire des données (EDA).
– Transformer et adapter les données pour les utiliser dans des modèles d’apprentissage (ML) non supervisés.
– Comparer différents modèles d’apprentissage non supervisés.
– Optimiser les hyperparamètres d’un algorithme d’apprentissage non supervisé et évaluer ses performances.
– Simuler la stabilité d’une segmentation dans le temps.

GitHub

Rapport

Anticiper les besoins en consommation…

– Réaliser une analyse exploratoire des données (EDA).
– Transformer et adapter les données pour les utiliser dans des modèles d’apprentissage (ML) supervisés.
– Comparer différents modèles d’apprentissage supervisés et sélectionner la solution la plus adaptée au problème métier.
– Optimiser les hyperparamètres d’un algorithme d’apprentissage supervisé et évaluer ses performances par validation croisée.
– Étudier l’influence relative de chaque variable sur les résultats de prédiction des modèles de type ensemblistes.

GitHub

Rapport