Houssem B.
Paris (75) 700 €/jour Expérience : 7-9 ans
Data scientist SQL python apache spark apache flink kafka sql AWS azure
En quelques mots
Senior Data Engineer – Consultant Data
J’accompagne startups et grandes entreprises dans :
• la mise en place d’architectures data modernes
• l’optimisation de pipelines existants
• la fiabilisation des données en production
Services :
✔️ Audit data platforms
✔️ Refonte pipelines Spark
✔️ Mise en place monitoring & tests data
✔️ Migration cloud / on-prem
✔️ Industrialisation & performance tuning
Je travaille avec une approche résultat-oriented et orientée ROI.
Références
Senior Data Engineer – Quantum Signals (Mars 2025 – Présent)
Je suis responsable de l’architecture et du développement d’une plateforme data Bronze → Silver → Gold dédiée aux données de marché haute fréquence (Databento – futures & equities).
Missions principales :
• Conception d’une plateforme de traitement haute performance pour transformer des ticks bruts en datasets exploitables par les équipes trading & research.
• Développement d’un moteur incrémental piloté par manifest (par symbole / jour) garantissant :
• idempotence
• replays déterministes
• sécurité des backfills
• Pilotage de la migration Databricks → Spark auto-hébergé (Hetzner) :
• tuning shuffle
• optimisation committers S3A
• stratégies avancées de layout Parquet
• Mise en place d’un framework de qualité data strict :
• validations historiques avec DuckDB
• détection de dérives numériques
• réconciliation Silver / Gold
• Résolution de problèmes critiques liés aux données de marché :
• normalisation des sentinelles
• scaling des prix
• gestion des timestamps nanosecondes & sessions NYSE
• Mise en place de quality gates CI/CD (GitHub Actions) :
• stabilité des schémas
• exactitude des métriques
• Ownership complet :
• architecture
• releases
• standards de fiabilité
⸻
Data Engineer – BNP Paribas (Nov 2022 – Mar 2025)
J’ai travaillé sur plusieurs projets stratégiques au sein de la banque :
Missions :
• Pipelines Spark pour la conformité AML (QUANTEXA) avec reporting quotidien de KPIs pays.
• Intégration KYC dans le BNP DataHub :
• ingestion flux transactions
• supervision
• stockage sécurisé sur IBM S3
• Migration de traitements legacy Python/Pandas vers Spark (GCARS) pour améliorer la scalabilité.
• Développement de moteurs de recherche phonétique (BNP Suisse) :
• NLP
• stemming
• lemmatisation
• Industrialisation ETL :
• orchestration Airflow
• CI/CD
• conteneurisation Docker
⸻
Data Engineer – Bpifrance (Avr 2022 – Nov 2022)
Missions :
• Construction d’une plateforme de détection de transactions irrégulières (CDC).
• Développement de pipelines AWS Glue + Spark pour ingestion multi-sources.
• Analyses qualité quotidiennes via Athena.
• Livraison de data products via APIs :
• Flask
• FastAPI
• API Gateway
• Déploiements automatisés avec CodeDeploy.
⸻
Data Engineer – BPCE (Mai 2021 – Avr 2022)
Missions :
• Développement de pipelines KPI historiques sur Databricks.
• Pré-calculs massifs depuis Azure Blob Storage.
• Stockage dans Azure SQL.
• Automatisation jobs quotidiens & optimisation SQL.
⸻
Data Engineer – SESAMm (Juil 2016 – Mai 2021)
Missions :
• Automatisation de workflows via PySpark & Airflow.
• Développement de solutions graphes (Neo4j).
• APIs REST (Flask).
• Indexation Elasticsearch.
• Systèmes de détection d’anomalies (Redis, Postgres).
• Monitoring emails & alerting (Slack, mail).
• Extraction & scoring KPI sur données textuelles massives.
⸻
🇬🇧 English Version
Senior Data Engineer – Quantum Signals (Mar 2025 – Present)
I lead the architecture and development of a Bronze → Silver → Gold data platform dedicated to high-frequency market data (Databento futures & equities).
Key responsibilities:
• Designed a production-grade platform transforming raw ticks into research and trading-ready datasets.
• Built a manifest-driven incremental engine ensuring:
• idempotence
• deterministic replays
• safe backfills
• Led Databricks → self-hosted Spark migration (Hetzner):
• shuffle tuning
• S3A committer optimization
• Parquet layout strategies
• Implemented a strict data correctness framework:
• DuckDB parity checks
• numeric drift detection
• Silver/Gold reconciliation
• Solved critical market data issues:
• sentinel normalization
• price scaling
• nanosecond timestamps & NY trading sessions
• Built CI quality gates (GitHub Actions).
• Owned architecture, releases and reliability standards.
⸻
Data Engineer – BNP Paribas (Nov 2022 – Mar 2025)
• Built Spark pipelines for AML compliance (QUANTEXA).
• Implemented KYC ingestion pipelines for BNP DataHub.
• Migrated legacy Pandas workflows to Spark.
• Built phonetic NLP search engines.
• Industrialized ETL with Airflow, Docker and CI/CD.
⸻
Data Engineer – Bpifrance (Apr 2022 – Nov 2022)
• Built transaction detection platforms.
• Developed AWS Glue Spark pipelines.
• Performed daily data quality checks.
• Delivered internal APIs (Flask/FastAPI).
• Automated deployments.
⸻
Data Engineer – BPCE (May 2021 – Apr 2022)
• Designed historical KPI pipelines on Databricks.
• Large-scale precomputations from Azure Blob.
• Automated daily orchestration.
⸻
Data Engineer – SESAMm (Jul 2016 – May 2021)
• Automated workflows with PySpark & Airflow.
• Graph processing (Neo4j).
• REST APIs.
• Elasticsearch indexing.
• Anomaly detection systems.
• Monitoring & alerting pipelines.
Etudes
Ecole D'Ingénieurs Polytechnique - Promotion 2016 (BAC+5) - Diplome Ingenieur en informatique