LIG 700 Avenue centrale 38400 Saint Martin d'Hères
Présentation de la structure
Vous serez accueilli au sein des équipes GETALP et MRIM du laboratoire LIG (https://lig-getalp.imag.fr/) qui offre un environnement dynamique, international et stimulant pour mener des recherches multidisciplinaires de haut niveau.
Vous aurez accès à de grands ensembles de données, à des serveurs GPU, à des moyens pour les missions ainsi qu'aux activités scientifiques des laboratoires.
L'équipe est hébergée dans un bâtiment moderne (IMAG) situé dans un campus paysager de 175 hectares qui a été classé huitième plus beau campus d'Europe par le magazine Times Higher Education en 2018.
Sous l’autorité de Didier Schwab, Lorraine Gœuriot et François Portet coordinateurs du projet PARTAGES au sein de deux équipes du LIG qui comprend 20 agents (3 A, 17 B), vous serez responsable de la gestion quotidienne du projet de recherche.
Concernant PARTAGES, l'objectif est de produire des LLMs adaptés au domaine médical en Français en utilisant des techniques de fine-tuning supervisés ou en poursuivant le pré-apprentissage. Cependant, le fine-tuning peut spécialiser à outrance les représentations pour une tâche, réduisant la généralisation en distordant les représentations apprises (Kumar et al., 2022). De plus, la poursuite du pré-apprentissage peut provoquer un 'catastrophic forgetting'. L'objectif est donc de développer des techniques d'apprentissage pour atténuer ces problèmes de spécialisation et d'oubli.
En lien avec cet objectif de spécialisation, il est également important d'évaluer si les LLMs peuvent s'adapter efficacement aux domaines de spécialité de médecine, l'adaptation Low-Rank (Hu et al., 2021) semble se révéler moins efficace que le fine-tuning complet car elle ne parvient pas à intégrer les phénomènes spécifiques au domaine avec les paramètres limités disponibles (Eschbach-Dymanus et al., 2024). Il conviendra donc de trouver des méthodes permettant la spécialisation au domaine toute en gardant des capacités de généralisation.
Concernant Pantagruel, la première année du projet a été consacrée à l'exploration et à la modification d'architectures neuronales, en s'appuyant sur le modèle data2vec 2.0 (Baevski et al., 2023) et en intégrant des fonctionnalités de modèles multimodaux tels que FLAVA (Singh et al., 2022). Dans le cadre du poste de post-doc, l’objectif sera de participer à la finalisation ces modèles et au développement des modèles génératifs multimodaux inspirés des LMMs de dernière génération, comme Qwen-Audio (Chu et al., 2023).
Activités principales
• Concevoir et apprendre des modèles de langue pouvant gérer l'oral, l'écrit et la communication par pictogrammes • Définir et appliquer des protocoles d'expérimentation sur des supercalculateurs locaux et nationaux • Organiser et pré-traiter de grands corpus de données multimodales pour l'apprentissage et l'évaluation • Analyser les résultats et contribuer à l'amélioration continue des approches développées • Proposer des solutions originales permettant de passer dynamiquement d’une modalité à une autre (de l’oral à l’écrit, de l’écrit au pictogramme, etc.) • Préparer des articles à soumettre à des conférences et à des revues évaluées par des pairs • Communiquer les modèles appris aux partenaires des projets et sur les grandes plateformes internationales (p.ex. Zenodo, Huggingface) • Organiser des réunions d'avancement et assurer la liaison entre les membres de l'équipe • Participer à la rédaction des livrables de projet
Vous interagirez avec les autres post-docs, doctorats, stagiaires et les chercheurs faisant partie du projet PARTAGES et Pantagruel. En fonction de votre parcours, de vos intérêts propres et de l'objectif du projet, vous aurez la possibilité d'orienter la recherche dans différentes directions.
Compétences attendues
Bonne connaissance du traitement du langage naturel
Expérience dans la collecte/le formatage et la manipulation de corpus
Compétences en programmation en Python
Un dossier de publication dans un domaine de recherche proche
La volonté de travailler au sein d'équipes multidisciplinaires et internationales
De bonnes compétences en communication
Une bonne maîtrise du français est requise
Bon niveau d’anglais parlé, lu et écrit (B2 minimum)
Capacité à travailler en interaction dans une équipe
Formation, diplôme, expérience souhaitée :
Etre titulaire d'un doctorat avec une expérience forte en traitement automatique des langues. Une expérience dans la fonction publique serait appréciée.
Conditions de diplômes
Doctorat
Rémunération
A partir de 3020€ mensuel brut et en fonction de l’expérience. Vous percevrez en plus de votre salaire un régime indemnitaire d'un montant mensuel brut de . €.
Partager le lienCopierCopiéFermer la fenêtre modalePartager l'URL de cette pageJe recommande cette page :Consultable à cette adresse :La page sera alors accessible depuis votre menu "Mes favoris".Arrêter la vidéoJouer la vidéoCouper le sonJouer le sonChat : Une question ?Chatbot Robo FabricaStatistiques de fréquentation MatomoX (anciennement Twitter)