Chercheur (post-doctoral) en informatique (f/h)

Date limite de réponse :  13 juin 2025
Date prévisionnelle de l'entretien :  Semaine du 23 juin 2025
Type de recrutement : 
Poste ouvert en CDD
Quotité de travail : 
100%
Durée du contrat : 
Du 01 juillet 2025 au 30 juin 2026
Localisation : 
LIG
700 Avenue centrale
38400 Saint Martin d'Hères

Présentation de la structure

Vous serez accueilli au sein des équipes GETALP et MRIM du laboratoire LIG (https://lig-getalp.imag.fr/) qui offre un environnement dynamique, international et stimulant pour mener des recherches multidisciplinaires de haut niveau.

Vous aurez accès à de grands ensembles de données, à des serveurs GPU, à des moyens pour les missions ainsi qu'aux activités scientifiques des laboratoires.

L'équipe est hébergée dans un bâtiment moderne (IMAG) situé dans un campus paysager de 175 hectares qui a été classé huitième plus beau campus d'Europe par le magazine Times Higher Education en 2018.

https://www.liglab.fr/fr 

Missions principales

Sous l’autorité de Didier Schwab, Lorraine Gœuriot et François Portet coordinateurs du projet PARTAGES au sein de deux équipes du LIG qui comprend 20 agents (3 A, 17 B), vous serez responsable de la gestion quotidienne du projet de recherche.

Concernant PARTAGES, l'objectif est de produire des LLMs adaptés au domaine médical en Français en utilisant des techniques de fine-tuning supervisés ou en poursuivant le pré-apprentissage. Cependant, le fine-tuning peut spécialiser à outrance les représentations pour une tâche, réduisant la généralisation en distordant les représentations apprises (Kumar et al., 2022). De plus, la poursuite du pré-apprentissage peut provoquer un 'catastrophic forgetting'. L'objectif est donc de développer des techniques d'apprentissage pour atténuer ces problèmes de spécialisation et d'oubli.

En lien avec cet objectif de spécialisation, il est également important d'évaluer si les LLMs peuvent s'adapter efficacement aux domaines de spécialité de médecine, l'adaptation Low-Rank (Hu et al., 2021) semble se révéler moins efficace que le fine-tuning complet car elle ne parvient pas à intégrer les phénomènes spécifiques au domaine avec les paramètres limités disponibles (Eschbach-Dymanus et al., 2024). Il conviendra donc de trouver des méthodes permettant la spécialisation au domaine toute en gardant des capacités de généralisation.

Concernant Pantagruel, la première année du projet a été consacrée à l'exploration et à la modification d'architectures neuronales, en s'appuyant sur le modèle data2vec 2.0 (Baevski et al., 2023) et en intégrant des fonctionnalités de modèles multimodaux tels que FLAVA (Singh et al., 2022). Dans le cadre du poste de post-doc, l’objectif sera de participer à la finalisation ces modèles et au développement des modèles génératifs multimodaux inspirés des LMMs de dernière génération, comme Qwen-Audio (Chu et al., 2023).

Activités principales

• Concevoir et apprendre des modèles de langue pouvant gérer l'oral, l'écrit et la communication par pictogrammes
• Définir et appliquer des protocoles d'expérimentation sur des supercalculateurs locaux et nationaux
• Organiser et pré-traiter de grands corpus de données multimodales pour l'apprentissage et l'évaluation
• Analyser les résultats et contribuer à l'amélioration continue des approches développées
• Proposer des solutions originales permettant de passer dynamiquement d’une modalité à une autre (de l’oral à l’écrit, de l’écrit au pictogramme, etc.)
• Préparer des articles à soumettre à des conférences et à des revues évaluées par des pairs
• Communiquer les modèles appris aux partenaires des projets et sur les grandes plateformes internationales (p.ex. Zenodo, Huggingface)
• Organiser des réunions d'avancement et assurer la liaison entre les membres de l'équipe
• Participer à la rédaction des livrables de projet

Vous interagirez avec les autres post-docs, doctorats, stagiaires et les chercheurs faisant partie du projet PARTAGES et Pantagruel. En fonction de votre parcours, de vos intérêts propres et de l'objectif du projet, vous aurez la possibilité d'orienter la recherche dans différentes directions.

Compétences attendues

  • Bonne connaissance du traitement du langage naturel
  • Expérience dans la collecte/le formatage et la manipulation de corpus
  • Compétences en programmation en Python
  • Un dossier de publication dans un domaine de recherche proche
  • La volonté de travailler au sein d'équipes multidisciplinaires et internationales
  • De bonnes compétences en communication
  • Une bonne maîtrise du français est requise
  • Bon niveau d’anglais parlé, lu et écrit (B2 minimum)
  • Capacité à travailler en interaction dans une équipe


Formation, diplôme, expérience souhaitée :

Etre titulaire d'un doctorat avec une expérience forte en traitement automatique des langues. Une expérience dans la fonction publique serait appréciée.

Conditions de diplômes

Doctorat

Rémunération

A partir de 3020€ mensuel brut et en fonction de l’expérience.
Vous percevrez en plus de votre salaire un régime indemnitaire d'un montant mensuel brut de . €.
Publié le  26 mai 2025
Mis à jour le  28 mai 2025