2022-833936 – Data engineer 2022-079

  • Fonction Publique
  • N’importe où
  • Publié il y a 3 mois

Domaine fonctionnel : Numérique/Data engineer
Nature de l’emploi : Emploi ouvert aux titulaires et aux contractuels
Description du poste :

L’équipe Data de la BNDMR se compose comme suit :
• Une Chief Data Officer
• Un Data Architect
• Un Référent Data
• Un Senior Data Scientist
• Une Data Manageuse
Dans une perspective d’exploitation et de valorisation des données des maladies rares, la CO BNDMR met en place un Entrepôt de Données de Santé (EDS) qui intègre les données issues de BaMaRa, la base de données de déclaration des activités de soins dans les centres maladies rares.
Comme socle technique de ce projet, la BNDMR a investi dans deux nouvelles machines dont un serveur de calcul avec GPU qui seront intégrées dans le cluster Kubernetes de l’AP-HP.
L’EDS BNDMR cible se base sur un écosystème en plusieurs couches data : raw data layer dans laquelle sont déposées les sources non transformées, un bus de datamarts et enfin une datavisualisation.
Les choix du modèle de données, l’architecture technique et l’outil de data visualisation de l’EDS ont été qualifiés et validés par le Data Architect. La feuille de route pour la mise en production reste conditionnée par l’évolution de l’infrastructure de l’équipe et le passage vers un environnement Kubernetes pour le déploiement et l’exploitation de ses applicatifs.
Dans ce contexte, et sous la responsabilité du Data Architect, nous recherchons un data engineer avec des compétences en DataOps pour assurer les missions suivantes :
Missions DataOps:
• Containerisation et orchestration (Docker, Kubernetes)
• Industrialisation des processus en CI/CD (Gitlab)
• Monitoring et administration de bases de données (PostgreSQL, MongoDB)
Missions Data engineer:
• Participer à la mise en place, l’évolution et la maintenance des datamart.
• Designer des data pipelines et gérer toutes l’intégration des flux de données
• Gestion de l’ETL as a script via Python
• Orchestration & monitoring des pipelines ETL (Airflow ou Gitlab, en cours de prototypage)

COMPETENCES REQUISES
Savoir-faire requis
• Solides compétences en programmation et en automatisation dans un environnement Linux
• Bonne expertise sur les technologies « DataOps » Docker, Gitlab (versionning et CI/CD), Kubernetes, Airflow
• Expérience avec l’administration des bases de données (SQL [PostgreSQL], NoSQL [MongoDB])
• Bonnes compétences en Python (incl. Pandas) et SQL
• Bases en Réseaux
• Connaissances des différents formats de fichier de données standard (JSON, XML, CSV …).
Connaissances associées
• Notions d’architecture data de type BI (datawarehousing, ETL/ELT, datamarts) et des problématiques associées : modélisations en formes normales et dimensionnelle, historisation, gestion des données de référence.
• Connaissances ou intérêt pour la data visualisation en BI (Cognos)
• Curiosité pour le métier de la santé et les données associées
• Sensibilité aux pratiques régies par le RGPD et des orientations et doctrines CNIL sur la protection des données de santé
Qualités requises
• Capacité à maîtriser rapidement les nouvelles technologies
• Aptitude à travailler en équipe, à s’adapter aux contraintes
• Autonomie et sens de la responsabilité
• Sens de l’organisation, rigueur et respect des délais
• Confidentialité : soumis au secret professionnel dans le cadre des données à gérer
PRE-REQUIS
• De formation bac+4/5 IT (école d’ingénieur ou université) dans un domaine lié à la Data, vous avez une première expérience (alternance ou 1er emploi) dans le domaine de l’administration des technologies big data ou BI.
• Adhésion aux valeurs du service public et intérêt prononcé pour le domaine de la santé
Niveau d’études : Niveau 7 Master/diplômes équivalents
Read More



Détails Emploi Informatique & Web