Darius Gros

PROJETS

DETAILS

Fine-tuning DistilCamemBERT (classification binaire, weighted CrossEntropyLoss) — seuil optimisé à 0.3 pour maximiser le recall, 6 catégories de détection (haine, sexuel, insultes, sarcasme, drogues, évasion). Pipeline de génération de données multi-source (Ollama, web scraping, augmentation adversariale : leetspeak, unicode confusables, zero-width chars). Split train/test/val AVANT augmentation — zéro data leakage. Framework d'expérimentation config-driven (YAML + MLflow), model versioning avec rollback. Feedback loop production : faux négatifs signalés par opérateur → réintégrés au training. Architecture hexagonale stricte (ports/adapters). Déploiement Docker hardened.

STACK

DistilCamemBERT, PyTorch, MLflow, FastAPI, WebSocket, PostgreSQL, Docker, Traefik

METRICS

clientOurkat Technologies

recall_toxic_content> 0.95

modelDistilCamemBERT (CPU)

detection_categories6

defense_layers3 (model + threshold + wordlist)

DETAILS

Système de 'Skills' : prompts modulaires en markdown (300+ lignes) itérables sans code, spécifiques par domaine (pressiométrie, universel). Validation par triplets géotechniques (EM/pf*/pl* — contraintes physiques, tolérance ±1). Stratégie de rejet conservateur : préfère 10 lignes valides à 12 potentiellement fausses. Optimisation tokens : extraction text-based via pdfplumber (pas de vision API), traitement page par page. Infrastructure RAG préparée (ChromaDB + embeddings). Auth MFA/OTP, rotation mots de passe 90j, bcrypt. Interface Gradio adoptée au quotidien.

STACK

Claude API, pdfplumber, Python, Gradio, Docker, ChromaDB, MFA/OTP, VPS

METRICS

clientConfidential

prompt_systemModular Skills (300+ lines)

validationDomain triplets (EM/pf*/pl*)

api_cost_savings-30% (text vs vision)

rejection_strategyConservative (precision)

DETAILS

Architecture deux couches : structure de rapport pré-établie générée par code (sans IA), avec module de rédaction IA optionnel activé uniquement après validation métier. Système RAG hybrid retrieval (BM25 + proximity search via pgvector) pour retrouver et citer les documents sources dans les rapports. CRM intégré pour l'organisation des dossiers clients et documents. Architecture hexagonale stricte, orchestration LangGraph. Prototypage local Ollama, production Mistral. Observabilité Langfuse.

STACK

LangGraph, Mistral, Ollama, FastAPI, pgvector, React, Docker, Langfuse

METRICS

clientConfidential

architectureHexagonal

llm_modelMistral

prototypingOllama (local)

modules5 (seg/enrich/class/eval/gen)

DETAILS

6 projets legacy : migration et industrialisation de pipelines dbt, Scala Spark et PySpark. 2 projets from scratch : 1 pipeline PySpark complet, 1 pipeline Python (Pandas + Polars + PySpark). CI/CD de bout en bout (GitHub Actions, Airflow, Databricks) sur AWS. Traduction des besoins métiers en solutions data, coordination avec deux directions métiers et l'équipe data plateforme centrale. Optimisation des coûts cloud AWS (-20%). Mentorat de data engineers juniors.

STACK

PySpark, Scala Spark, Delta Lake, dbt, Polars, Pandas, Airflow, Databricks, AWS, GitHub Actions

METRICS

clientDecathlon

projects8 (6 legacy + 2 from scratch)

deploy_time_reduction-85%

cloud_cost_savings-20% (AWS)

data_volume2TB+

DETAILS

2 projets couvrant l'analytique produit et marketing. Pipelines ETL sur AWS (Redshift, Databricks, PySpark). Modèles de prévision (scikit-learn) et tests A/B en production. Segmentation client. Dashboards d'aide à la décision (Tableau, Power BI) utilisés par les parties prenantes métiers.

STACK

Python, scikit-learn, PySpark, AWS, Redshift, Databricks, Tableau, Power BI, BigQuery

METRICS

clientDecathlon

projects2 (ML + Analytics)

segments_identified8 (42 features)

stakeholder_teams3

infraAWS / Redshift / Databricks

COMPETENCES

ML / Fondations

Supervised Learning · Unsupervised Learning · Classification · Regression · Clustering · Loss Functions · Recall / Precision / F1 · Threshold Optimization · Cross-Validation · Feature Engineering · Data Augmentation · Linear Algebra · Calculus · Probability & Statistics

AI / LLM / NLP

Fine-Tuning (CamemBERT, QLoRA) · Transfer Learning · RAG · LangGraph · LangChain · Prompt Engineering · Embeddings · pgvector · ChromaDB · Claude API · Ollama · HuggingFace · Sentiment Analysis · Text Classification

MLOps / Expérimentation

MLflow · Experiment Tracking · Model Versioning · Feedback Loops · Config-Driven Training · Threshold Sweep · A/B Testing · Data Leakage Prevention · PyTorch · scikit-learn

Backend

Python · FastAPI · Pydantic · PostgreSQL · WebSocket · REST APIs · Hexagonal Architecture · TDD · SOLID · Docker

Data Engineering

Apache Spark · Delta Lake · Databricks · Airflow · BigQuery · AWS · GCP · ETL Pipelines · Data Modeling

Frontend & DevOps

Next.js · React · TypeScript · Tailwind CSS · Docker · GitHub Actions · CI/CD · AWS · VPS · Traefik · GDPR Infrastructure

Approche Ingénieur

Frugal Engineering · Token Optimization · Constraint-Driven Solutions · Existing Solution Research · Incremental Delivery · Time/Resource Tradeoffs

Produit & Communication

Requirements Gathering · Product Roadmap · Business Communication · Stakeholder Coordination · Cross-Team Collaboration · Mentoring

ARCHITECTURES

STACK

DistilCamemBERT, PyTorch, MLflow, FastAPI, WebSocket, PostgreSQL, Docker, Traefik

DÉCISIONS ARCHITECTURALES

ADR-1: DistilCamemBERT plutôt que CamemBERT-base

Plus léger (CPU viable), pré-entraîné sentiment FR, ~50ms/inférence

ADR-2: Seuil 0.3 : recall > precision

Contexte live event — mieux bloquer un safe que laisser passer de la haine

ADR-3: CPU-only PyTorch + model baking

−4GB image Docker, HF_HUB_OFFLINE=1, model baked via build ARG

ADR-4: Modération 3 couches

Défense en profondeur : ML + seuil dynamique + 400+ mots-clés hot-reload

ADR-5: Augmentation adversariale APRÈS split

Zéro data leakage, triple le dataset, couvre leetspeak/unicode/zero-width

Diagramme Mermaid disponible en vue desktop

STACK

LangGraph, Mistral, Ollama, FastAPI, pgvector, React, Docker, Langfuse

DÉCISIONS ARCHITECTURALES

ADR-1: Déterministe vs LLM — scoping produit

Calcul CIR = rules. Analyse R&D = LLM. Conformité = hybride

ADR-2: Coût/inférence : Mistral embed + Claude gen

Embed cheap (Mistral), génération quality (Claude), prompt A/B testing auto

ADR-3: Hybrid retrieval BM25 + pgvector

Termes juridiques exacts (BM25) + concepts R&D proches (semantic)

ADR-4: Multi-agent séquentiel

Chaque agent enrichit le contexte du suivant — cohérence > vitesse

ADR-5: Eval-driven deployment

LLM-as-judge en CI, prompt winner auto-déployé via env var

Diagramme Mermaid disponible en vue desktop

STACK

Claude API, pdfplumber, Python, Gradio, Docker, ChromaDB, MFA/OTP, VPS

DÉCISIONS ARCHITECTURALES

ADR-1: Claude API plutôt que modèle local

Domaine critique géotechnique — précision > coût

ADR-2: MVP page par page

Contrôle coût tokens, validation progressive, -30% coût API

ADR-3: Gradio : interface non-développeurs

Géotechniciens comme users, ship fast, interface livrée en 2 jours

ADR-4: Skills = prompts markdown versionnés

Experts domaine modifient sans coder, Git-tracked, 300+ lignes

Diagramme Mermaid disponible en vue desktop

Interactive TerminalTTY1 - MAIN PROCESS

tty1ONLINE

PROJETS

Korus — Mur Interactif Augmenté

LLM

Agentic

Pricing & Géomarketing — Data Engineering

Analytics Produit & Marketing

COMPETENCES

ARCHITECTURES

PORTFOLIO

CONTACT

Darius Gros | ML / AI Engineer Portfolio

Darius Gros

PROJETS

Korus — Mur Interactif Augmenté

LLM

Agentic

Pricing & Géomarketing — Data Engineering

Analytics Produit & Marketing

COMPETENCES

ARCHITECTURES

PORTFOLIO

CONTACT