Ingénieur calcul haute performance et infrastructure

Du calcul GPU
au cluster en production.

Je construis des outils de calcul haute performance, et j'exploite l'infrastructure qui les met en production : la mesure d'énergie GPU pour Kokkos à Oak Ridge, le HPC pour la simulation nucléaire chez EDF, et un cluster de cinq nœuds qui fait tourner une vingtaine de services en production, exploité de bout en bout, de Docker à la CI/CD.

Travaux choisis
/01 Travaux choisis

Ce que j'ai construit, et ce que ça coûte

Des études de cas, pas une grille de vignettes : le problème, le travail, et où ça en est. Le projet phare d'abord.

Projet phare

Mesurer où part l'énergie sur le GPU

Outillage de mesure d'énergie pour Kokkos, le cadre de portabilité des performances du Département de l'Énergie américain. Connecteurs intégrés à Kokkos Tools, avec un tableau de bord d'analyse.

Le problème

Kokkos permet de faire tourner une même source C++ sur des GPU NVIDIA, AMD et Intel, et c'est précisément pour cela que l'énergie est difficile à raisonner : le même noyau consomme une puissance différente sur chaque backend, et les équipes applicatives n'avaient aucun moyen portable de la voir. Sur les machines du DOE, où la puissance est désormais une contrainte de premier ordre, cet angle mort compte.

Ce que j'ai construit

Un ensemble de connecteurs Kokkos Tools qui échantillonnent la puissance pendant l'exécution des noyaux et attribuent l'énergie intégrée aux régions Kokkos qui l'ont causée : un backend NVML pour les GPU NVIDIA, un backend Variorum pour la puissance au niveau nœud, un démon d'arrière-plan échantillonnant à intervalle fixe, et un export CSV. Par-dessus, un tableau de bord Python transforme ces sorties en analyse d'énergie par noyau. L'outil s'accroche à l'interface de profilage de Kokkos : le code applicatif reste intact.

Où ça en est

Le démon d'échantillonnage périodique est intégré à kokkos-tools, fait l'objet d'un rapport ORNL et a été présenté sous forme de poster, « Understanding GPU Energy Dynamics in HPC Applications », à la Smoky Mountains Conference 2025. Les connecteurs NVML et Variorum sont en revue, avec ROCm SMI esquissé pour AMD.

HPC pour la simulation nucléaire

Une alternance de trois ans à bâtir et exploiter le calcul haute performance derrière les codes de simulation utilisés en ingénierie nucléaire.

Le contexte

Le groupe ASICS d'EDF développe le calcul scientifique dont dépend la simulation nucléaire. Apprenti là-bas en parallèle de mon diplôme d'ingénieur, je travaille sur le versant performance : les méthodes numériques et l'infrastructure de cluster qui permettent aux grandes simulations de tourner et d'aboutir.

Le travail

Il couvre toute la pile qu'un vrai problème HPC touche : du C++ de production sur des clusters Linux, des numériques des schémas eux-mêmes aux systèmes sur lesquels ils tournent, sur une alternance de trois ans. Les détails relèvent de la confidentialité industrielle ; ce qui se transpose, c'est la discipline de faire tourner une physique exigeante, correctement et vite, sur du matériel partagé.

Une alternance en milieu industriel. Je ne décris que ce qui est validé pour une mention publique.

Exploiter ma propre production

Un cluster Proxmox de cinq nœuds, sentinel, hébergeant une vingtaine de services accessibles publiquement, sur du matériel que j'exploite et automatise moi-même.

L'installation

Cinq nœuds Proxmox (cerberus, echelon, mikoshi, cynosure, ultron) avec stockage Ceph et une bordure VyOS sur un lien WireGuard. Un seul Traefik termine le TLS Let's Encrypt pour une vingtaine de services sous kerboul.me : une forge Gitea, un PaaS Coolify, Nextcloud, une pile média, et les applications que je déploie, dont ce site. Les runbooks et l'automatisation du cluster sont eux-mêmes un dépôt.

Pourquoi c'est là

C'est la moitié DevOps et SRE du profil, et elle est réelle : disponibilité, sauvegardes, renouvellement de certificats, supervision, et les modes de défaillance ingrats qu'on n'apprend qu'en étant d'astreinte sur sa propre infrastructure. Le site que vous lisez y arrive par une chaîne CI/CD qui construit une image versionnée, la scanne, et fait un rollback automatique si le contrôle de santé échoue.

sentinel, en direct

interrogation du cluster…

Relevé en direct depuis l'API Proxmox du cluster.

Organiser des événements pour plus de 120 joueurs

Opération Endgame, une opération DCS World que j'ai fondée en 2020 et que j'organise chaque année : plus de 120 joueurs simultanés, plus de 150 inscrits cette édition.

L'autre genre de systèmes

Opération Endgame est une grande opération multijoueur sur DCS World que j'organise chaque année depuis 2020 : briefing, coordination, et la logistique de faire avancer plus de 120 joueurs simultanés (plus de 150 inscrits cette édition) à travers un événement cohérent de quatre heures, entre pilotes, JTAC, AWACS/GCI et logistique. C'est le pendant relationnel du travail technique : leadership, opérations, et tenir une foule alignée en temps réel.

Cartographier la scène DCS francophone

Un annuaire vivant des communautés DCS World francophones que j'ai conçu et que j'héberge, avec des statistiques et des infographies sur la scène.

Ce que c'est

Commus recense les communautés DCS World francophones, environ 95, avec filtrage, comparaison et un jeu d'infographies : un tableau périodique des modules, une chronologie, un pouls d'activité. Un front Vue que j'héberge, tenu à jour par un petit service de mise à jour. C'est le pendant données et interface du versant leadership d'Opération Endgame.

/02 Expertise

Par domaine, chacun adossé à une preuve

Pas de barres de compétences. Cinq domaines, et le projet qui démontre chacun.

Écrire pour le GPU et raisonner sur ce que cela coûte, en temps et désormais en énergie.

  • CUDA
  • OpenMP et MPI
  • Kokkos et portabilité des performances
  • Télémétrie puissance et énergie GPU

Calcul scientifique

Prouvé par EDF · ASICS

Les numériques sous la simulation : schémas, stabilité, et intégrateurs qui se tiennent.

  • Schémas aux différences finies
  • Stabilité de von Neumann
  • Intégrateurs symplectiques et IMEX
  • Calcul quantique (cursus)

Infrastructure et DevOps

Prouvé par cluster sentinel

Le chemin complet, du commit à la requête servie, et le travail de fiabilité qui va avec, sur du matériel dont je réponds.

  • Proxmox et Ceph
  • Kubernetes / K3s
  • Traefik, TLS et reverse proxy
  • Docker et CI/CD Gitea

Full-stack et temps réel

Prouvé par commus

Interfaces et systèmes vivants, dont celui qui rend cette page.

  • Vue 3 / Nuxt 3
  • TypeScript
  • Auto-hébergement et déploiement
  • Astro

Le socle défensif qu'un profil infrastructure est censé tenir.

  • PKI et cryptographie
  • Post-quantique
  • Zero Trust
  • NIS2 / DORA · référentiels ANSSI
/03 Parcours

Polytech → EDF → Oak Ridge

Ethan Puyaubreau, Ingénieur calcul haute performance et infrastructure
Ethan Puyaubreau alias Kerboul · DaKerboul Paris, France

Je mène deux pistes de front. La première, c'est le calcul haute performance : le travail GPU et numérique qui rend un code scientifique rapide. La seconde, c'est l'infrastructure qui met le logiciel en production et l'y maintient : conteneurs, pipelines, reverse proxies, et le cluster en dessous. Le plus rare, et le plus utile, c'est d'être crédible sur les deux.

À Oak Ridge National Laboratory, j'ai construit l'outillage de mesure d'énergie GPU pour Kokkos, le cadre de portabilité des performances du Département de l'Énergie américain. Le démon d'échantillonnage périodique est intégré en amont dans Kokkos Tools, et le travail est devenu un poster à la Smoky Mountains Conference 2025. C'est ce vers quoi je dirigerais d'abord un recruteur.

En parallèle, j'ai passé trois ans en alternance sur le HPC pour la simulation nucléaire chez EDF, et j'exploite mon propre cluster de production de cinq nœuds : une vingtaine de services derrière Traefik et TLS, déployés avec Docker et de la CI/CD, avec scan d'image et rollback automatique, et je suis d'astreinte pour la disponibilité, les sauvegardes et les certificats. J'ai livré du calcul scientifique et exploité de la vraie infrastructure, pas seulement étudié l'un et l'autre.

Je termine mon diplôme d'ingénieur à Polytech Paris-Saclay en septembre 2026 et je suis ouvert à des postes à partir de janvier 2027. Les laboratoires HPC sont un terrain naturel, la Bay Area (Berkeley Lab, LLNL) et Paris, le CEA parmi eux, mais l'infrastructure, le DevOps, le SRE et le platform engineering m'intéressent tout autant, sur site ou dans le cloud : je préfère un poste qui s'appuie sur les deux moitiés de cette page plutôt que sur une seule. En dehors du travail, je joue à Kerbal Space Program depuis 2011, et je tiens au self-hosting et à la maîtrise de mes données : ce site et le cluster derrière lui tournent sur du matériel que j'administre moi-même. Si votre équipe cherche quelqu'un capable de rendre un noyau GPU rapide et de garder en bonne santé le cluster qui l'exécute, j'aimerais avoir de vos nouvelles.

/04 Contact

Pour les recruteurs, en un écran

Ouvert aux postes HPC, infrastructure et DevOps à partir de janvier 2027

Pour des laboratoires HPC ou des équipes infrastructure et plateforme, dans la Bay Area ou à Paris.

Le plus rapide pour me joindre

ethan.puyaubreau@gmail.com