ML / AI Engineer
End-to-end : architecture backend, pipelines ML, systèmes LLM/RAG, frontends modernes. Architecture hexagonale, TDD, infra RGPD-first.
Fine-tuning DistilCamemBERT (classification binaire, weighted CrossEntropyLoss) — seuil optimisé à 0.3 pour maximiser le recall, 6 catégories de détection (haine, sexuel, insultes, sarcasme, drogues, évasion). Pipeline de génération de données multi-source (Ollama, web scraping, augmentation adversariale : leetspeak, unicode confusables, zero-width chars). Split train/test/val AVANT augmentation — zéro data leakage. Framework d'expérimentation config-driven (YAML + MLflow), model versioning avec rollback. Feedback loop production : faux négatifs signalés par opérateur → réintégrés au training. Architecture hexagonale stricte (ports/adapters). Déploiement Docker hardened.
DistilCamemBERT, PyTorch, MLflow, FastAPI, WebSocket, PostgreSQL, Docker, Traefik
Système de 'Skills' : prompts modulaires en markdown (300+ lignes) itérables sans code, spécifiques par domaine (pressiométrie, universel). Validation par triplets géotechniques (EM/pf*/pl* — contraintes physiques, tolérance ±1). Stratégie de rejet conservateur : préfère 10 lignes valides à 12 potentiellement fausses. Optimisation tokens : extraction text-based via pdfplumber (pas de vision API), traitement page par page. Infrastructure RAG préparée (ChromaDB + embeddings). Auth MFA/OTP, rotation mots de passe 90j, bcrypt. Interface Gradio adoptée au quotidien.
Claude API, pdfplumber, Python, Gradio, Docker, ChromaDB, MFA/OTP, VPS
Architecture deux couches : structure de rapport pré-établie générée par code (sans IA), avec module de rédaction IA optionnel activé uniquement après validation métier. Système RAG hybrid retrieval (BM25 + proximity search via pgvector) pour retrouver et citer les documents sources dans les rapports. CRM intégré pour l'organisation des dossiers clients et documents. Architecture hexagonale stricte, orchestration LangGraph. Prototypage local Ollama, production Mistral. Observabilité Langfuse.
LangGraph, Mistral, Ollama, FastAPI, pgvector, React, Docker, Langfuse
6 projets legacy : migration et industrialisation de pipelines dbt, Scala Spark et PySpark. 2 projets from scratch : 1 pipeline PySpark complet, 1 pipeline Python (Pandas + Polars + PySpark). CI/CD de bout en bout (GitHub Actions, Airflow, Databricks) sur AWS. Traduction des besoins métiers en solutions data, coordination avec deux directions métiers et l'équipe data plateforme centrale. Optimisation des coûts cloud AWS (-20%). Mentorat de data engineers juniors.
PySpark, Scala Spark, Delta Lake, dbt, Polars, Pandas, Airflow, Databricks, AWS, GitHub Actions
2 projets couvrant l'analytique produit et marketing. Pipelines ETL sur AWS (Redshift, Databricks, PySpark). Modèles de prévision (scikit-learn) et tests A/B en production. Segmentation client. Dashboards d'aide à la décision (Tableau, Power BI) utilisés par les parties prenantes métiers.
Python, scikit-learn, PySpark, AWS, Redshift, Databricks, Tableau, Power BI, BigQuery
Supervised Learning · Unsupervised Learning · Classification · Regression · Clustering · Loss Functions · Recall / Precision / F1 · Threshold Optimization · Cross-Validation · Feature Engineering · Data Augmentation · Linear Algebra · Calculus · Probability & Statistics
Fine-Tuning (CamemBERT, QLoRA) · Transfer Learning · RAG · LangGraph · LangChain · Prompt Engineering · Embeddings · pgvector · ChromaDB · Claude API · Ollama · HuggingFace · Sentiment Analysis · Text Classification
MLflow · Experiment Tracking · Model Versioning · Feedback Loops · Config-Driven Training · Threshold Sweep · A/B Testing · Data Leakage Prevention · PyTorch · scikit-learn
Python · FastAPI · Pydantic · PostgreSQL · WebSocket · REST APIs · Hexagonal Architecture · TDD · SOLID · Docker
Apache Spark · Delta Lake · Databricks · Airflow · BigQuery · AWS · GCP · ETL Pipelines · Data Modeling
Next.js · React · TypeScript · Tailwind CSS · Docker · GitHub Actions · CI/CD · AWS · VPS · Traefik · GDPR Infrastructure
Frugal Engineering · Token Optimization · Constraint-Driven Solutions · Existing Solution Research · Incremental Delivery · Time/Resource Tradeoffs
Requirements Gathering · Product Roadmap · Business Communication · Stakeholder Coordination · Cross-Team Collaboration · Mentoring
DistilCamemBERT, PyTorch, MLflow, FastAPI, WebSocket, PostgreSQL, Docker, Traefik
ADR-1: DistilCamemBERT plutôt que CamemBERT-base
Plus léger (CPU viable), pré-entraîné sentiment FR, ~50ms/inférence
ADR-2: Seuil 0.3 : recall > precision
Contexte live event — mieux bloquer un safe que laisser passer de la haine
ADR-3: CPU-only PyTorch + model baking
−4GB image Docker, HF_HUB_OFFLINE=1, model baked via build ARG
ADR-4: Modération 3 couches
Défense en profondeur : ML + seuil dynamique + 400+ mots-clés hot-reload
ADR-5: Augmentation adversariale APRÈS split
Zéro data leakage, triple le dataset, couvre leetspeak/unicode/zero-width
Diagramme Mermaid disponible en vue desktop
LangGraph, Mistral, Ollama, FastAPI, pgvector, React, Docker, Langfuse
ADR-1: Déterministe vs LLM — scoping produit
Calcul CIR = rules. Analyse R&D = LLM. Conformité = hybride
ADR-2: Coût/inférence : Mistral embed + Claude gen
Embed cheap (Mistral), génération quality (Claude), prompt A/B testing auto
ADR-3: Hybrid retrieval BM25 + pgvector
Termes juridiques exacts (BM25) + concepts R&D proches (semantic)
ADR-4: Multi-agent séquentiel
Chaque agent enrichit le contexte du suivant — cohérence > vitesse
ADR-5: Eval-driven deployment
LLM-as-judge en CI, prompt winner auto-déployé via env var
Diagramme Mermaid disponible en vue desktop
Claude API, pdfplumber, Python, Gradio, Docker, ChromaDB, MFA/OTP, VPS
ADR-1: Claude API plutôt que modèle local
Domaine critique géotechnique — précision > coût
ADR-2: MVP page par page
Contrôle coût tokens, validation progressive, -30% coût API
ADR-3: Gradio : interface non-développeurs
Géotechniciens comme users, ship fast, interface livrée en 2 jours
ADR-4: Skills = prompts markdown versionnés
Experts domaine modifient sans coder, Git-tracked, 300+ lignes
Diagramme Mermaid disponible en vue desktop
[SYS] Initializing boot sequence...
[SYS] Loading kernel modules... OK
[SYS] Mounting filesystems... OK
[SYS] Starting user session... OK