Samson AMOUSSOU

Directeur Général-SAE CONSULTING Expert en Data & Intelligence Artificielle, enseignant-chercheur et consultant

Missions d’enseignements realisées

Big Data Framework

Enseignant : Samson AMOUSSOU— Crédits : 5 ECTS — Évaluation : TP + mini-projet — Big Data avec Hadoop (coef 5) :  contrôle continu (TP, mini-projets)

  • Data Science with Spark (coef 3) : examen ou projet
  • Real-Time Search & Analytics with Elasticsearch (coef 2) : examen ou projet
    Capacité : 30 — Langue : Français
    Synopsis : Panorama écosystèmes Big Data et mise en œuvre de projets distribués : clusterisation, paradigmes de calcul, stockage, streaming, recherche temps réel.
    Objectifs :
  • Identifier les composants d’un cluster Big Data et leurs interactions.
  • Maîtriser Hadoop/HDFS, MapReduce/YARN, Hive/HBase, ingestion ( Flume, NiFi), orchestration (Oozie, aperçus Flink).
  • Concevoir des pipelines Spark (RDD, DataFrames/SQL, MLlib/ML, Streaming).
  • Comparer SQL/NoSQL et implémenter des algorithmes distribués.
    Format détaillé :
  • Hadoop (5×4h) — écosystème, stockage, gouvernance, sécurité.
  • Spark (3×4h) — Core/SQL/ML/Streaming, pipelines ML.


Prérequis : Python, ML de base, Linux, SQL.

Introduction pratique à l'apprentissage automatique

Enseignant : Samson AMOUSSOU— Crédits : 3 ECTS — Évaluation : rapports de TP + oral — Capacité : 40 — Langue : Français
Synopsis : Entrée pratique au ML : non supervisé (réduction de dimension, clustering, densité) au supervisé (classification, régression, ranking), avec mise en œuvre Python (codes fournis).
Objectifs :

  • Poser chaque méthode comme problème d’optimisation, comprendre les algorithmes de résolution.
  • Implémenter et interpréter les modèles sur des cas réels (classification d’images, prédiction de séries biomédicales/climat).
    Plan type : data understanding & preprocessing, unsupervised (PCA, clustering, modèles génératifs), supervised (linéaire, noyaux, k-NN, bayésien, arbres & ensembles), ML en pratique (choix du modèle, validation).
    Prérequis : Probabilités/Stats de base, Python.

 

Optimisation et applications en Data Science

Enseignant : Samson Amoussou — Niveau : Master 2 — Évaluation : Examen final (problèmes théoriques & pratiques) — Langue : Français

Synopsis : Ce cours introduit les méthodes d’optimisation convexe et non convexe appliquées à la Data Science. L’accent est mis sur les liens entre modèles mathématiques et applications concrètes (machine learning, réseaux de neurones, finance, industrie).

Objectifs :
• Comprendre les méthodes différentielles et non différentielles d’optimisation.
• Relier les modèles théoriques aux applications concrètes.
• Développer une compréhension critique du choix des méthodes.
• Évaluer la convergence et les performances des algorithmes.

Format : 3 jours de 7h + examen final.
Prérequis : Analyse et algèbre avancées, bases en Python.

 

Régression et Statistiques Avancées

Enseignant : Samson Amoussou — Niveau : Master 2 — Évaluation : Examens + projets pratiques — Langue : Français

Synopsis : Le cours couvre les bases de la statistique inférentielle et de la modélisation. Il met l’accent sur la régression linéaire, la régression logistique et les modèles multivariés appliqués à des données réelles (finance, santé publique, analyse de marché).

Objectifs :
• Maîtriser statistiques descriptives et distributions de probabilité.
• Mettre en œuvre des modèles de régression linéaire et logistique.
• Comprendre régularisation (L1, L2) et sélection de variables.
• Évaluer les modèles avec R², AIC, BIC, validation croisée.
• Appliquer les modèles à des cas concrets via R et Python.

Format : 5 séances de 3h + TP.
Prérequis : Probabilités et statistiques de base.

 

Data appliquée à la finance avec SAS

Enseignant : Samson Amoussou — Niveau : Master 2 Data Analyst — Rythme : Full-time — Session : déc. 2024 — Langue : Français
Évaluation : contrôle continu (labs & mini-projets) + étude de cas finale (scoring/risque)

Synopsis :
Module intensif pour maîtriser la chaîne analytique financière sous SAS : ingestion & préparation multi-sources, automatisation par macros, analyses descriptives, modélisation (régressions linéaire/logistique, GLM), diagnostic et scoring de probabilité de défaut, jusqu’à la visualisation et la génération de rapports.

Objectifs pédagogiques :

  • Structurer et transformer des données financières à grande échelle avec SAS/SQL.
  • Automatiser les workflows (macros, hash tables) et fiabiliser la qualité des données.
  • Construire, évaluer et expliquer des modèles de risque (PD/score) et fraude.
  • Produire des visualisations et rapports décisionnels reproductibles.

Contenus clés :

  • Préparation & jointures avancées : PROC SORT, PROC FORMAT, PROC TRANSPOSE, arrays & boucles DO, PROC SQL (jointures complexes), hash tables.
  • Automatisation : conception de macros (paramétrées/imbriquées) pour ETL analytique.
  • Analyse descriptive : PROC MEANS, PROC FREQ, PROC CORR, PROC UNIVARIATE, PROC TABULATE (outliers, distributions, tableaux management).
  • Modélisation & diagnostic : PROC REG, PROC LOGISTIC, PROC GLM (tests, résidus, multicolinéarité, validation croisée).
  • Scoring crédit / fraude : construction de PD, calibration, courbes ROC/AUC, PSI/Stabilité.
  • Data viz & reporting : PROC SGPLOT/SGPANEL/SGSCATTER, ODS pour rapports automatisés.

Format : 21 h (3 jours) — alternance démos guidées, labs et mini-projets sur cas réels (risque, fraude, défaut crédit).

Livrables :

  • Scripts SAS (ETL + macros) versionnés, rapport modèle (AUC/KS, diagnostics), tableaux de bord & rapport ODS prêt à diffusion.

Prérequis : notions de stats/ML, bases SQL/SAS recommandées.
Outils : SAS Base, SAS/STAT, PROC SQL, ODS.

Programmation Python pour la Data Science

Enseignant : Samson Amoussou — Niveau : Master 1 — Évaluation : Projets + examen final — Langue : Français

Synopsis : Ce cours initie à la programmation en Python avec une orientation Data Science. Les étudiants acquièrent les bases de la syntaxe, manipulent des structures de données, puis développent des analyses complètes avec Pandas, NumPy et des visualisations avec Matplotlib et Seaborn.

Objectifs :
• Maîtriser les bases de Python (variables, boucles, fonctions).
• Manipuler des structures de données (listes, dictionnaires, ensembles, tuples).
• Effectuer des analyses de données avec Pandas et NumPy.
• Réaliser des visualisations simples et avancées.
• Découvrir le machine learning avec Scikit-learn (régression, classification, clustering).
• Initier les étudiants au Deep Learning avec TensorFlow/Keras.

Format : 30h (cours, TP, mini-projets).
Prérequis : Aucun (public débutant accepté).

 

Apprentissage Supervisé et Non Supervisé avec R

Enseignant : Samson Amoussou — Niveau : Master 2 — Évaluation : Contrôle continu (TP + mini-projets) + examen final — Langue : Français

Synopsis : Ce cours couvre les méthodes de machine learning en R, appliquées à la finance, la santé publique et le marketing. L’accent est mis sur la régression, la classification et le clustering, complétés par la réduction de dimension.

Objectifs :
• Implémenter des modèles supervisés (régression, classification).
• Mettre en œuvre des techniques de clustering (K-means, CAH, GMM).
• Appliquer l’ACP et t-SNE à des données multivariées.
• Optimiser et valider les modèles par validation croisée.
• Réaliser des cas pratiques de classification et de clustering.

Format : 6 séances de 3h + mini-projets.
Prérequis : Bases de statistiques, R.

 

Mathématiques pour Ingénieurs – Méthodes Numériques et Algèbre

Établissement : ISPAPériode : sept. 2025 – aujourd’huiFormat : hybride (présentiel + distanciel)

Synopsis :
Ce cours fournit aux étudiants en école d’ingénieurs une formation approfondie en méthodes numériques et algèbre appliquée, avec un double objectif : renforcer la rigueur mathématique et développer la capacité à relier théorie et applications concrètes dans l’ingénierie, la physique et l’informatique.

Contenu :

  • Intégration numérique : schémas, optimisation, analyse de complexité et gestion des erreurs.

  • Systèmes linéaires : conditionnement, méthodes directes (LU, Choleski, QR) et itératives (Gauss-Seidel, gradient).

  • Équations différentielles : méthodes de Runge-Kutta, stabilité, erreurs, schémas explicites/implicites (Crank-Nicholson).

  • Éléments finis & différences finies : interpolations (Lagrange, Hermite), formulation variationnelle et matricielle, application aux problèmes elliptiques, hyperboliques et paraboliques (équilibre thermique, écoulements, équation de la chaleur).

  • Algèbre matricielle : opérations, inversion, diagonalisation, spectre, applications en cryptographie, géométrie et finance (analyse moyenne-variance).

  • Analyse : intégrale de Riemann, séries de Fourier, modèles différentiels linéaires et non linéaires, transformées de Laplace.

Objectifs :

  • Développer des compétences clés en modélisation numérique, approximation et analyse des erreurs.

  • Relier méthodes mathématiques et applications concrètes (simulation, optimisation, ingénierie).

  • Préparer les étudiants à manipuler des outils numériques avancés et à aborder des problèmes scientifiques complexes.

Évaluation : Exercices dirigés (notebooks numériques), mini-projets appliqués, examen final (théorique + pratique).

Enseignant – Product Analytics
Jedha Bootcamp · Indépendant
mai 2025 · Paris / Distanciel

J’ai animé un module intensif de Product Analytics destiné aux apprenants du bootcamp Full Stack Data, en leur apportant une vision claire de l’analyse produit et de son rôle stratégique dans les entreprises tech.

Le cours couvrait :

  • Les fondamentaux de l’analyse produit et du rôle du product analyst.

  • Les KPI clés (acquisition, activation, rétention, revenus, referral) et le pirate funnel (AARRR).

  • L’étude de la rétention utilisateur (N-day, illimitée, parenthèses).

  • Le cycle de vie produit, la recherche du Product-Market Fit, l’approche MVP et les notions d’UX/UI.

  • Des cas pratiques sur Amplitude et SQL, avec exploration d’événements utilisateurs et segmentation.

L’approche pédagogique combinait cours théoriques, cas pratiques guidés et projets appliqués permettant aux étudiants de manipuler directement des données produit et de générer des insights actionnables.

Ce module a permis aux participants de développer des compétences concrètes en mesure de la performance produit, en construction de funnels analytiques, et en utilisation d’outils modernes d’analytics pour la prise de décision.



Virtualisation et Conteneurisation : Concepts et Pratiques pour Data Analysts

Enseignant : Samson Amoussou — Niveau : Master Data Analytics / reconversion professionnelle — Session : nov. 2024 — Langue : Français
Évaluation : mini-projets pratiques (Docker, VirtualBox) + restitution orale

Synopsis :
Ce module initie les futurs data analysts aux fondamentaux de la virtualisation et de la conteneurisation afin de leur permettre de créer, déployer et gérer des environnements de travail isolés, reproductibles et multiplateformes. Il combine une approche théorique (comparaison des hyperviseurs et modèles d’isolation) et une pratique appliquée (mise en place de VM et de conteneurs Docker pour des projets analytiques).

Objectifs pédagogiques :

  • Comprendre les différences entre virtualisation (machines virtuelles) et conteneurisation (Docker).
  • Configurer et administrer des machines virtuelles sous VirtualBox et autres hyperviseurs.
  • Déployer et orchestrer des applications conteneurisées avec Docker et Docker Compose.
  • Acquérir une vision critique des technologies (VMware, Hyper-V, KVM, Xen, QEMU, VirtualBox).

Contenus clés :

  • Virtualisation : installation, configuration et gestion de VM (VirtualBox, VMware vSphere, Hyper-V, KVM, Xen, QEMU).
  • Conteneurisation : concepts de Docker, images, conteneurs, volumes, réseaux.
  • Orchestration légère : Docker Compose & Docker Swarm pour multi-conteneurs.
  • Mini-projets pratiques :
    • Exploration VirtualBox : création et gestion de VM.
    • Introduction Docker : conteneurisation d’applications simples.
    • Projet Docker : déploiement d’une application web avec base de données.

Format : 2 jours intensifs (12 h) — alternance cours, labs guidés et mini-projets collaboratifs.
Prérequis : bases en Linux/commandes shell, notions de réseau et architecture système recommandées.

 

Visualisation graphique de données avec Seaborn et Matplotlib (M2-DA)

Enseignant : Samson Amoussou — Niveau : Master 2 Data Analyst — Évaluation : 50% contrôle continu (cas d’étude), 50% partiel — Langue : Français

Synopsis : Ce cours initie les étudiants à la création et à l’interprétation de visualisations statistiques en Python à l’aide des bibliothèques Matplotlib et Seaborn. Il explore la visualisation univariée, bivariée et multivariée, ainsi que la représentation de séries temporelles et de données complexes. Les étudiants apprennent à concevoir des figures pertinentes pour l’exploration et la communication des résultats.

Objectifs :
• Installer et configurer un environnement de travail (Jupyter Notebook, Matplotlib).
• Réaliser des graphiques de base (courbes, barres, scatter plots, histogrammes).
• Composer des figures complexes avec les techniques de subplotting.
• Explorer des visualisations avancées (heatmaps, boxplots, violin plots, graphiques 3D).
• Comprendre les différences et complémentarités entre Matplotlib et Seaborn.
• Produire des visualisations catégorielles, relationnelles et distributionnelles.
• Analyser des relations multivariées via pairplot, jointplot et heatmap.
• Représenter des séries temporelles avec Seaborn et Matplotlib.
• Pitcher et communiquer efficacement les visualisations produites.

Format : 30 heures (cours + TP pratiques, restitution finale).
Prérequis : Bases en Python et statistiques descriptives.

 

Classification d’images avec Deep Learning

Enseignant : Samson Amoussou — Niveau : Master 2 — Évaluation : Projet pratique + rapport — Langue : Français

Synopsis : Introduction aux réseaux de neurones convolutionnels (CNN) appliqués à la vision par ordinateur. Étude des techniques modernes de classification d’images, incluant l’augmentation de données et les méthodes d’optimisation.

Objectifs :
• Comprendre l’architecture et le fonctionnement des CNN.
• Mettre en œuvre la classification d’images avec TensorFlow/Keras.
• Expérimenter l’augmentation de données et la régularisation.
• Évaluer et optimiser la performance des modèles.
• Appliquer les techniques à des cas réels (santé, sécurité, reconnaissance d’objets).

Format : 5 séances de 3h (cours + TP).
Prérequis : Python, bases de machine learning.

 

Intelligence Artificielle pour l’Industrie 4.0

Enseignant : Samson Amoussou — Niveau : Master 2 — Évaluation : Cas pratique + rapport — Langue : Français

Synopsis : Étude des technologies IA appliquées à l’industrie du futur : IoT, Big Data, jumeaux numériques et maintenance prédictive.

Objectifs :
• Comprendre les concepts de l’usine intelligente et de l’IoT.
• Appliquer l’apprentissage automatique à la maintenance prédictive.
• Optimiser les processus industriels par l’IA.
• Découvrir les approches cloud et agiles (SCRUM) pour projets industriels.
• Étudier des cas concrets : surveillance en temps réel, automatisation.

Format : 5 séances de 3h (cours + projets).
Prérequis : Bases en machine learning et industrie.

 

Introduction au Machine Learning & Deep Learning

Enseignant : Samson Amoussou — Niveau : Master 1/2 — Évaluation : Examen + mini-projets — Langue : Français

Synopsis : Panorama des méthodes supervisées et non supervisées, suivi d’une introduction aux réseaux neuronaux profonds et à leurs applications.

Objectifs :
• Maîtriser les bases de la régression, classification et clustering.
• Découvrir CNN, RNN et les fondements des Transformers.
• Appliquer le Deep Learning à la NLP et à la vision par ordinateur.
• Étudier des cas pratiques en finance, santé et industrie.

Format : 6 séances de 3h.
Prérequis : Probabilités, Python.

 

Cadrage d’un projet IA – Fashion-Insta 

Enseignant : Samson Amoussou — Niveau : Master 2 — Évaluation : Projet + soutenance — Langue : Français

Synopsis : Développement d’une application mobile intégrant un moteur IA de recommandation vestimentaire 

Objectifs :
• Rédiger des user stories et cadrer un projet IA.
• Définir l’architecture cible et les besoins fonctionnels.
• Gérer un projet agile (SCRUM) en IA.
• Évaluer les coûts de développement et d’infrastructure.
• Identifier et atténuer les risques (RGPD, biais IA).

Format : Projet complet (cours + ateliers).
Prérequis : Python, notions de cloud et gestion de projet.

 

Business Intelligence avec Excel (bases à avancé)

Enseignant : Samson Amoussou — Niveau : Licence / Master — Évaluation : Devoirs + mini-projet dashboard — Langue : Français

Synopsis : De l’initiation aux fonctions Excel jusqu’aux tableaux de bord interactifs. Cours structuré du niveau débutant à avancé, incluant macros et automatisation.

Objectifs :
• Maîtriser formules conditionnelles, TCD et macros VBA.
• Créer des dashboards pour reporting et suivi-évaluation.
• Appliquer Excel à des cas concrets (finance, RH, suivi projets).
• Développer des supports pédagogiques (quiz, vidéos, modèles).

Format : Parcours modulaire (10 séances + projet).
Prérequis : Aucun.

 

Power BI – Data Visualisation et BI

Enseignant : Samson Amoussou — Lieu : ESIEE Paris, Master— Évaluation : Mini-projets — Langue : Français

Synopsis : Formation complète à Power BI pour la modélisation, le traitement et la visualisation interactive des données.

Objectifs :
• Importer et transformer des données avec Power Query.
• Modéliser avec DAX, langage M et intégration Python.
• Publier et partager des dashboards collaboratifs.
• Construire des projets avec données API, SQL, Web.

Format : 5 séances (cours + ateliers pratiques).
Prérequis : SQL, bases Excel.

 

 

 

Projets réalisés

Traitement Big Data dans un Environnement Cloud (AgriTech, AWS + PySpark)

Enseignant : Samson Amoussou — Niveau : Master 2 — Évaluation : Projet final — Langue : Français

Synopsis : Déploiement d’un pipeline cloud distribué sur AWS pour la classification d’images agricoles. Utilisation de PySpark pour le prétraitement et l’analyse des données.

Objectifs :
• Concevoir une architecture distribuée sur le cloud.
• Préparer et transformer des données massives avec PySpark.
• Développer un modèle de classification d’images.
• Mettre en œuvre un pipeline cloud ingestion → traitement → analyse.

Format : Projet pratique (4 séances + soutenance).
Prérequis : Python, bases ML, cloud computing.

 

Business Intelligence avec Excel (bases à avancé)

Enseignant : Samson Amoussou — Niveau : Licence / Master — Évaluation : Devoirs + mini-projet dashboard — Langue : Français

Synopsis : De l’initiation aux fonctions Excel jusqu’aux tableaux de bord interactifs. Cours structuré du niveau débutant à avancé, incluant macros et automatisation.

Objectifs :
• Maîtriser formules conditionnelles, TCD et macros VBA.
• Créer des dashboards pour reporting et suivi-évaluation.
• Appliquer Excel à des cas concrets (finance, RH, suivi projets).
• Développer des supports pédagogiques (quiz, vidéos, modèles).

Format : Parcours modulaire (10 séances + projet).
Prérequis : Aucun.

 

Power BI – Data Visualisation et BI

Enseignant : Samson Amoussou — Lieu : ESIEE Paris, Master E3IN — Évaluation : Mini-projets — Langue : Français

Synopsis : Formation complète à Power BI pour la modélisation, le traitement et la visualisation interactive des données.

Objectifs :
• Importer et transformer des données avec Power Query.
• Modéliser avec DAX, langage M et intégration Python.
• Publier et partager des dashboards collaboratifs.
• Construire des projets avec données API, SQL, Web.

Format : 5 séances (cours + ateliers pratiques).
Prérequis : SQL, bases Excel.

 

Tableau Software – Storytelling & Visualisation

Enseignant : Samson Amoussou — Niveau : Master — Évaluation : Projet de datavis — Langue : Français

Synopsis : Initiation à la visualisation avancée avec Tableau, centrée sur les bonnes pratiques et le storytelling.

Objectifs :
• Construire des dashboards interactifs.
• Raconter une histoire à partir des données.
• Appliquer les principes de visualisation pour la communication claire.

Format : 3 séances (cours + projet).
Prérequis : Aucun.

 

Projet Santé Publique France (Open Food Facts)

Enseignant : Samson Amoussou — Niveau : Master — Évaluation : Projet de groupe + rapport — Langue : Français

Synopsis : Projet appliqué sur le jeu de données Open Food Facts, combinant nettoyage, analyse multivariée et automatisation du traitement des données.

Objectifs :
• Préparer et nettoyer des données massives.
• Gérer valeurs manquantes et données aberrantes.
• Réaliser des analyses multivariées appliquées.
• Produire des visualisations exploratoires.
• Constituer une base exploitable conforme RGPD.

Format : Projet long (8 semaines).
Prérequis : R/Python, statistiques.



Segmentation des clients 

Enseignant : Samson Amoussou — Niveau : Master 2 — Évaluation : Étude de cas + projet final — Langue : Français

Synopsis : Application des méthodes de clustering et de segmentation client à un cas réel d’e-commerce (Olist). Étude des techniques RFM et des algorithmes de clustering pour améliorer le ciblage marketing.

Objectifs :
• Mettre en œuvre des méthodes de clustering (K-means, DBSCAN).
• Utiliser la segmentation RFM pour catégoriser les clients.
• Analyser et interpréter les segments obtenus.
• Formuler des recommandations stratégiques pour le marketing.
• Comprendre la mise à jour et le suivi des modèles dans le temps.

Format : 4 séances de 3h (cours + tp) , accompagnement mentor .
Prérequis : R/Python, notions de statistiques.



🌍 Projet de recherche – Impact des TIC sur le climat des affaires en Afrique de l’Ouest
mars 2024 – avril 2024

🔹 Contexte & Objectif
Ce projet avait pour ambition d’analyser l’impact du développement des technologies de l’information et de la communication (TIC) sur le climat des affaires dans plusieurs pays d’Afrique de l’Ouest. L’objectif était de comprendre comment la pénétration numérique influence l’attractivité économique, l’investissement et la compétitivité régionale.

🔹 Méthodologie

  • Construction d’une base de données temporelle à partir d’indicateurs TIC et macroéconomiques.

  • Nettoyage, normalisation et intégration des données multi-sources (Banque mondiale, UIT, indices Doing Business).

  • Analyses statistiques et économétriques (séries chronologiques, corrélations, modèles de tendance).

  • Visualisations interactives pour mettre en évidence les dynamiques pays par pays.

🔹 Outils & Langages

  • Python (Pandas, Matplotlib, Seaborn, Statsmodels) pour le traitement et la modélisation.

  • Excel et Power BI pour les indicateurs de suivi et la restitution visuelle.

🔹 Résultats

  • Mise en évidence d’une corrélation positive entre digitalisation et amélioration du climat des affaires, particulièrement dans les secteurs des services financiers et du commerce.

  • Identification des écarts structurels entre pays et des leviers d’action pour accélérer l’adoption des TIC.

  • Production d’un rapport analytique et de dashboards pour accompagner la prise de décision des acteurs publics et privés.

Ce projet a renforcé mes compétences en analyse de séries temporelles appliquées au développement économique et m’a permis d’apporter une vision prospective sur le rôle stratégique des TIC dans la compétitivité en Afrique de l’Ouest.

Projet de recherche – Étude des facteurs explicatifs du trafic au Port Autonome de Cotonou
janv. 2020 – juin 2020

🔹 Contexte & Objectif
Le Port Autonome de Cotonou constitue un hub stratégique pour le commerce international du Bénin et de l’Afrique de l’Ouest. L’objectif de ce projet était d’identifier et d’analyser les facteurs explicatifs du trafic portuaire (importations, exportations, transits), afin d’éclairer les choix stratégiques en matière de logistique et d’infrastructures.

🔹 Méthodologie

  • Collecte et structuration de données historiques sur le trafic portuaire ().

  • Identification des variables explicatives (activité économique nationale, flux commerciaux, infrastructures, prix du carburant, politiques douanières).

  • Analyses économétriques et statistiques : régressions multiples, tests de causalité, corrélations.

  • Étude comparative avec d’autres ports de la sous-région (Lomé, Tema).

🔹 Outils & Langages

  • R (packages économétriques et visualisation)

  • Excel pour le pré-traitement et la structuration des données

  • SPSS pour les analyses statistiques complémentaires

🔹 Résultats

  • Mise en évidence de la forte dépendance du trafic portuaire à la croissance économique nationale et régionale, ainsi qu’aux mesures douanières et fiscales.

  • Identification de l’effet significatif de la concurrence régionale (ports voisins) sur le volume de trafic.

  • Élaboration de recommandations pour optimiser la gestion des flux logistiques et renforcer la compétitivité du port.

Ce projet m’a permis de développer une expertise dans l’analyse économétrique appliquée aux infrastructures de transport, tout en renforçant mes compétences en modélisation des séries temporelles économiques.

Prédiction de la Consommation Énergétique des Bâtiments

Institution : CentraleSupélec — Session : oct.–nov. 2023 — Langue : Français
Évaluation : rapport de projet + soutenance orale

Synopsis :
Ce projet appliqué avait pour objectif de concevoir un modèle de machine learning capable de prédire la consommation énergétique des bâtiments en fonction de multiples facteurs (conditions météorologiques, surface, taux d’occupation). Au-delà de la précision prédictive, l’enjeu était de contribuer à l’optimisation de la gestion énergétique, afin de réduire les coûts opérationnels et les émissions carbone, et de proposer des outils d’aide à la décision aux gestionnaires immobiliers et aux villes intelligentes.

Objectifs pédagogiques :

  • Collecter, nettoyer et enrichir des données énergétiques hétérogènes.
  • Mettre en œuvre des modèles supervisés (régressions, arbres de décision, forêts aléatoires, gradient boosting).
  • Expérimenter des approches non supervisées pour détecter des profils de consommation atypiques.
  • Évaluer et comparer les performances via métriques standards (RMSE, MAE, R²).
  • Optimiser les modèles par validation croisée et tuning d’hyperparamètres.

Compétences acquises :

  • Préparation et traitement des données énergétiques.
  • Conception de modèles prédictifs supervisés et non supervisés.
  • Visualisation et interprétation des résultats pour un public non technique.
  • Optimisation et déploiement d’un modèle pour un usage opérationnel.

Format : projet collaboratif de 6 semaines, alternant ateliers techniques et soutien méthodologique.
Prérequis : bases en Python (Pandas, Scikit-learn), notions de statistiques et régression.



Catégorisation automatique des questions

Organisation : SAE Consulting — Session : avr.–mai 2023 — Langue : Français
Évaluation : rapport technique + démonstration du modèle

Synopsis :
L’objectif de ce projet était de concevoir un modèle de machine learning capable de classer automatiquement des questions en différentes catégories thématiques. Ce travail s’inscrit dans un contexte d’organisation de la connaissance et d’optimisation de l’accès à l’information. En s’appuyant sur des techniques avancées de traitement automatique du langage naturel (NLP) et de classification supervisée, le modèle permet d’identifier le thème dominant de chaque question et de regrouper des éléments similaires pour en simplifier la recherche et l’exploitation.

Objectifs pédagogiques et techniques :

  • Collecter et nettoyer des données textuelles.
  • Mettre en place des techniques de vectorisation de texte (TF-IDF, embeddings).
  • Expérimenter plusieurs modèles de classification (SVM, Naive Bayes, réseaux de neurones).
  • Évaluer la performance avec des métriques standards (accuracy, précision, rappel, F1-score).
  • Démontrer l’apport du NLP dans la gestion automatisée de corpus textuels.

Compétences acquises :

  • Prétraitement de données textuelles (tokenisation, stopwords, lemmatisation).
  • Implémentation de modèles NLP avec Scikit-learn, NLTK et spaCy.
  • Évaluation rigoureuse des modèles supervisés.
  • Conception d’une solution d’organisation et recherche intelligente adaptée aux besoins métier.

Format : projet pratique de 5 semaines, intégrant analyse, prototypage et présentation finale.
Prérequis : bases en Python, statistiques et apprentissage supervisé.

 

Classification d’images avec Deep Learning

Organisation : CentraleSupélec — Session : avr.–mai 2024 — Langue : Français
Évaluation : rapport technique + présentation des résultats

Synopsis :
Ce projet a consisté à concevoir un modèle de deep learning pour classer des images en différentes catégories. L’approche s’est appuyée sur des réseaux de neurones convolutifs (CNN), entraînés à détecter et hiérarchiser des caractéristiques visuelles (bords, textures, formes complexes). L’objectif était de mettre en pratique des techniques de vision par ordinateur utilisées dans des applications comme la reconnaissance d’objets, l’aide au diagnostic médical ou encore la sécurité informatique.

Objectifs pédagogiques et techniques :

  • Comprendre le fonctionnement des réseaux convolutifs et leurs couches (convolution, pooling, fully connected).
  • Mettre en place un pipeline complet d’apprentissage supervisé appliqué aux images.
  • Appliquer des techniques de data augmentation pour améliorer la robustesse du modèle.
  • Optimiser l’entraînement par ajustement des hyperparamètres (learning rate, batch size, nombre d’époques, régularisation).
  • Évaluer le modèle avec des métriques adaptées (accuracy, confusion matrix, courbes ROC/AUC).

Compétences acquises :

  • Prétraitement et préparation de datasets d’images.
  • Implémentation de CNN avec TensorFlow/Keras et PyTorch.
  • Optimisation et régularisation de modèles profonds.
  • Évaluation et interprétation des performances en contexte appliqué.

Format : projet pratique de 6 semaines, avec expérimentation sur plusieurs architectures de CNN.
Prérequis : Python, bases de machine learning, notions de calcul matriciel.



Formation académique

CentraleSupélec
ML Engineering – Niveau 7 EQF (European Qualifications Framework)
📅 Juil. 2023 – Juin 2024
Compétences : Mathématiques et statistiques, Programmation et génie logiciel, Conception et entraînement de modèles, MLOps et industrialisation, Gestion des données, Infrastructure et Cloud, Aspects avancés et transverses.

✏️ Ce programme m’a permis d’approfondir la pratique du MLOps, de comprendre les enjeux d’industrialisation de modèles d’IA et de renforcer mes compétences en Big Data Engineering. La nouveauté principale a été l’intégration du déploiement et de la scalabilité des solutions IA dans un cadre professionnel.

 

Université de Pau et des Pays de l’Adour (UPPA)
Master 2 – Méthodes Stochastiques et Informatique pour la Décision
📅 Sept. 2021 – Sept. 2022
Compétences : Analyses Big Data, Ingénierie des données, MLOps, Science des données, Visual Studio, Office 365, Python/R et SPSS, Probabilités et processus stochastiques, Optimisation stochastique, Statistiques avancées, Recherche opérationnelle, Apprentissage automatique et data science, Informatique pour la décision, Applications décisionnelles.

Distinction : Lauréat Erasmus Mundus – Sélectionné meilleur étudiant de Master 1 pour représenter l’université dans le cadre d’un programme européen d’excellence.

✏️ Ce Master m’a permis d’acquérir une solide formation en modélisation probabiliste et optimisation, avec des applications directes en décision et data science. La nouveauté fut l’apprentissage des outils avancés de programmation scientifique et de gestion de données à grande échelle.

 

CIPMA – UNESCO Chair
Master 1 – Statistique appliquée au vivant
📅 Sept. 2020 – 2021
Compétences : Statistiques descriptives et inférentielles, Analyse de données biomédicales, Modélisation statistique, Méthodes multivariées, Biostatistiques avancées, Analyse de séries temporelles biologiques, Outils numériques pour la statistique, Applications au vivant.

✏️ Cette formation m’a donné une maîtrise approfondie des méthodes statistiques appliquées à la biologie et à la santé, avec une approche interdisciplinaire. La nouveauté a été le développement d’une capacité d’analyse critique et de recherche appliquée, qui m’a permis de me distinguer et d’obtenir la distinction Erasmus Mundus.

 

Université d’Abomey-Calavi
Licence professionnelle – Statistique et Économétrie
📅 Sept. 2010 – Sept. 2013
Compétences : Statistique appliquée, Tableaux croisés dynamiques, Office 365

✏️ Cette première formation m’a permis de poser les bases en statistique, économétrie et analyse des données. La nouveauté a été la découverte des outils de traitement et d’interprétation des données, ouvrant la voie à mes spécialisations ultérieures en data science.



Expérience entreprise 




Inria – Data Scientist (CDD)

📅 Oct. 2023 – Janv. 2024 | Le Chesnay-Rocquencourt (Hybride)

Contexte :
Dans le cadre de projets européens et de programmes scientifiques, Inria avait besoin d’une meilleure gouvernance de ses données. L’institut souhaitait centraliser, fiabiliser et exploiter efficacement ses actifs de données pour la recherche et la décision stratégique.

Responsabilités :

  • Concevoir et déployer une architecture de Data Lake.
  • Automatiser les pipelines d’intégration et de mise à jour des données.
  • Réaliser des analyses statistiques et produire des rapports pour la direction.
  • Former les équipes internes à la lecture et la visualisation de données.

Méthodologie :

  • Approche agile, livraisons incrémentales.
  • Ateliers de cadrage avec les chercheurs et la DSI.
  • Documentation et diffusion des bonnes pratiques data.

Langages / Outils / Frameworks :

  • Python (Pandas, NumPy, Matplotlib, Seaborn), SQL.
  • APIs, Web scraping, ETL automatisés.
  • Data Lake (S3-like), Visual Studio, Office 365.

Tâches réalisées :

  • Développement de pipelines automatisés pour extraire et nettoyer les données (hebdomadaires).
  • Intégration multi-sources (SQL, API, web).
  • Conception du Data Lake scalable pour centraliser l’ensemble des données.
  • Analyses statistiques (détection d’anomalies, tendances, comparaisons inter-projets).
  • Rédaction et présentation de rapports stratégiques.
  • Sessions de formation pour les équipes internes.

Résultats :

  • Mise en place d’un Data Lake robuste et pérenne, facilitant l’accès aux données.
  • Réduction des délais de collecte et traitement de données de 60%.
  • Amélioration de la fiabilité des données utilisées par la direction et les équipes de recherche.
  • Renforcement des compétences internes en data literacy.

Pierre Fabre Group – Data Scientist

📅 Mars 2022 – Août 2022 | Gaillac, Occitanie (Sur site)

Contexte :
Optimisation de la production pharmaceutique (Vinorelbine, anticancéreux) impactée par des données fragmentées et peu fiables.

Responsabilités :

  • Corriger et fiabiliser les données de production.
  • Construire un entrepôt de données explicable.
  • Développer des modèles prédictifs pour optimiser les rendements.

Méthodologie :

  • Participation aux ateliers terrain pour comprendre les processus.
  • Méthodes agiles avec itérations courtes.
  • Validation des modèles via cross-validation et indicateurs de performance.

Langages / Outils / Frameworks :

  • SQL, Python (Pandas, Scikit-learn).
  • Visual Studio, Office 365.
  • Tableau pour les KPIs.

Tâches réalisées :

  • Audit des bases de production et reconstruction des jeux de données.
  • Développement de nouveaux KPIs pour piloter le rendement.
  • Construction d’un data warehouse explicable pour les analystes et managers.
  • Implémentation de modèles ML (régressions, arbres) pour identifier les variables critiques.
  • Automatisation de scripts pour industrialiser les analyses.

Résultats :

  • Identification des variables clés influençant le rendement.
  • Mise en production d’un data warehouse durable.
  • Gain d’efficacité de +30% dans la surveillance de la production.

 

MAEP – PAPVIRE ABC – Consultant Data Analyst (Freelance)

📅 Sept. 2022 – Sept. 2023 | Afrique de l’Ouest (Remote)

Contexte :
Étude de marché pour l’introduction d’un nouveau produit agricole en Afrique de l’Ouest.

Responsabilités :

  • Structurer la mission d’analyse de marché.
  • Collecter et fiabiliser les données terrain.
  • Construire des modèles prédictifs et des dashboards interactifs.

Méthodologie :

  • Collaboration avec les agents de terrain et partenaires.
  • Contrôles qualité rigoureux des données collectées.
  • Livrables : rapports + dashboards.

Langages / Outils / Frameworks :

  • Tableau, Excel, SQL.
  • Méthodes agiles.

Tâches réalisées :

  • Formation des agents de terrain à la collecte.
  • Intégration et transformation des données multi-sources.
  • Développement de modèles prédictifs de potentiel de marché.
  • Création de dashboards Tableau interactifs pour le suivi.

Résultats :

  • Rapport stratégique détaillé remis au ministère.
  • Outils de suivi continu adoptés par les décideurs.
  • Décisions politiques alignées sur les résultats des modèles.

 

BP Conseils – Data Analyst Consultant (Freelance)

📅 Mai 2019 – Fév. 2022 | Cotonou, Bénin (Hybride)

Contexte :
Étude de référence pour l’évaluation intermédiaire du projet eau et assainissement.

Responsabilités :

  • Conduire la collecte et la structuration des données.
  • Construire des indicateurs fiables.
  • Fournir un rapport et des dashboards interactifs.

Méthodologie :

  • Coordination bilatérale avec 2 pays.
  • Collecte via outils terrain et intégration automatisée.
  • Analyses statistiques et visualisation.

Langages / Outils / Frameworks :

  • Tableau, Excel.
  • SQL, Python.

Tâches réalisées :

  • Création d’outils de collecte normalisés.
  • Consolidation des données pour réduire erreurs.
  • Visualisation des KPIs sous Tableau.
  • Rédaction du rapport intermédiaire.

Résultats :

  • Amélioration de l’efficacité de l’évaluation de 30%.
  • Réduction du temps de collecte de 40%.
  • Recommandations intégrées dans les plans d’action.

 

Plan International – Monitoring & Evaluation Officer

📅 Avr. 2017 – Avr. 2019 | Bénin (Hybride)

Contexte :
Mise en œuvre du programme Fonds Mondial pour l’accès universel à la prévention VIH/SIDA.

Responsabilités :

  • Contrôle qualité des données juridiques.
  • Formation et supervision des assistants juridiques.
  • Production de rapports périodiques.

Méthodologie :

  • Suivi-évaluation basé sur indicateurs clés.
  • Gestion des activités et budgets associés.
  • Reporting régulier (mensuel, trimestriel).

Langages / Outils / Frameworks :

  • Excel, Power BI, Tableau.
  • SPSS, R.

Tâches réalisées :

  • Supervision nationale de la collecte.
  • Définition d’indicateurs projet.
  • Analyses statistiques avancées.
  • Développement d’applications de saisie.

Résultats :

  • Standardisation nationale de la saisie des données.
  • Fiabilisation des indicateurs VIH/SIDA.
  • Rapports validés par le Fonds Mondial.



Leave Your Prints – Data Analyst Consultant (Freelance)

📅 Mars 2017 – Avr. 2019 | Afrique de l’Ouest (Hybride)

Contexte :
Étude de faisabilité pour la création d’une usine de sacs en jute et fibres textiles au Liberia. L’objectif était de fournir une vision stratégique pour l’implantation et le suivi de la performance future de l’usine.

Responsabilités :

  • Réaliser l’analyse de marché et identifier les opportunités.
  • Mettre en place des outils de suivi et d’aide à la décision.
  • Fournir des recommandations stratégiques aux dirigeants.

Méthodologie :

  • Collecte de données via web scraping (Trade Map).
  • Analyses statistiques et création de tableaux croisés.
  • Tableaux de bord interactifs pour suivi en temps réel.

Langages / Outils / Frameworks :

  • Tableau, Dataiku.
  • Python (Pandas, BeautifulSoup, requests).
  • SQL.

Tâches réalisées :

  • Web scraping et préparation des données industrielles.
  • Mise en place de flux de données automatisés avec Dataiku.
  • Conception de dashboards interactifs pour le suivi des KPIs.
  • Réalisation d’une analyse SWOT et recommandations stratégiques.

Résultats :

  • Analyse de marché exhaustive remise aux investisseurs.
  • Outils de suivi de la performance déployés.
  • Fondation posée pour l’implantation durable de l’usine.

 

INSAE – Data Analyst (VIE/VIA)

📅 Fév. 2014 – Avr. 2017 | Cotonou, Bénin (Hybride)

Contexte :
Première expérience professionnelle, axée sur l’analyse du commerce international et l’amélioration de la qualité des données douanières.

Responsabilités :

  • Collecter et analyser des données massives issues des douanes.
  • Assurer la qualité et la fiabilité des bases de données.
  • Soutenir les départements techniques dans l’exploitation des données.

Méthodologie :

  • Automatisation des traitements via scripts Python.
  • Développement de workflows de préparation et contrôle qualité.
  • Intégration de données dans SQL pour analyses et reporting.

Langages / Outils / Frameworks :

  • Python (pandas, numpy, matplotlib).
  • SQL, Tableau.
  • Excel, SAS.

Tâches réalisées :

  • Automatisation de la collecte et du nettoyage des données.
  • Développement de KPIs pour le suivi des flux commerciaux.
  • Conception de dashboards Tableau sur la santé des bases de données.
  • Contribution à la modélisation statistique (corrélations, causalité).

Résultats :

  • Amélioration notable de l’efficacité du traitement des données douanières.
  • Adoption des dashboards par les équipes techniques et décisionnaires.
  • Renforcement de la capacité de l’INSAE à analyser et anticiper les dynamiques du commerce extérieur.






🎓 Licences & Certifications

📌 Dataiku

Dataiku Core Designerfévr. 2025
Identifiant : wyzzieazfmmx
Compétences : préparation et nettoyage des données, visualisation, analyses exploratoires, mise en place de workflows analytiques.

 

📌 DeepLearning.AI

Generative AI with Large Language Modelsoct. 2024
Identifiant : NHUJYO58LSY0
Compétences : compréhension des architectures LLM, prompt engineering, fine-tuning, intégration des modèles génératifs dans des cas concrets.

 

📌 edX (Harvard / CS50)

Introduction to Programming with Python (Verified Certificate)sept. 2024
Identifiant : d9d433bd75214662b039297001819efd
Compétences : programmation Python, structures de données, algorithmique, bonnes pratiques de développement.

 

📌 OpenClassrooms

Expert en Data Sciencejuil. 2024
Identifiant : OC-2024-07-88m34pl5h2c4
Compétences : ingénierie des données · deep learning · big data analytics · MLOps · modélisation statistique · data science avancée.

 

Analysez vos données textuellesavr. 2024
Identifiant : 6429990249
Compétences : NLP, analyse sémantique, nettoyage de corpus textuels, classification supervisée et non supervisée.

 

Mentorat – Explorez le rôle du mentorjanv. 2024
Identifiant : 8828476460
Compétences : accompagnement pédagogique, transmission des savoirs, suivi de projets, communication bienveillante.