How will you CONTRIBUTE and GROW?
Vous évoluerez au sein de la R&D sur le nouveau Campus Innovation Paris du Groupe Air Liquide offrant un environnement stimulant. Ce nouveau campus est au cœur de l’innovation avec de nombreux défis et des horizons nouveaux en synergie avec les différents métiers du groupe: Santé, Large Industrie, Industrial Merchant.
Au sein du groupe CP (Customers Process) l’Equipe Data Science rassemble des compétences et experts R&D en Science des Données, Intelligence Artificielle (IA) et Objets Connectés. Tirant parti du potentiel des techniques avancées d'acquisition de données, d'analyse, de modélisation prédictive et prescriptive, l'équipe développe des nouvelles solutions permettant une meilleure prise de décision pour l'excellence opérationnelle et l'innovation dans les activités d'Air Liquide. Au cours de cette alternance, l’étudiant(e) aura à contribuer aux initiatives Data Science & Digital du groupe en utilisant ses connaissances scientifiques en Data Sciences et Intelligence Artificielle
Description du stage
Dans le contexte de l'évolution rapide de l'intelligence artificielle générative, les techniques de Retrieval-Augmented Generation (RAG) se révèlent être une solution efficace et économique pour augmenter les connaissances des modèles de langage de grande taille (LLM) [1]. Des recherches récentes indiquent que, malgré l'augmentation continue des fenêtres d'entrée des LLM, le RAG reste pertinent, car ces modèles peuvent perdre le fil du contexte lorsque le contenu du texte est long [2].
Les dernières avancées en matière de RAG incluent des approches telles que ReACT, Agentic RAG, Contextual RAG, et encore GraphRAG [3] proposent des nouvelles approches pour construire des applications de GenAI plus fiables, rapides, pertinentes. L'objectif de ce stage sera d’abord d'étudier ces nouvelles évolutions, de les comparer et de les appliquer à un cas pratique d'efficacité dans la recherche d'informations sur les données de l'entreprise.
Pendant le stage, le stagiaire sera amené à concevoir, développer et tester des systèmes de RAG avancés pour des diverses tâches liées au traitement du langage naturel, notamment :
Résumé de documents : Extraction des points clés d'un texte pour en faciliter la compréhension.
Questions-réponses : Développement de systèmes capables de répondre à des questions spécifiques basées sur un corpus documentaire contenant de textes, tableaux et des images.
Extraction d'informations : Identification et récupération d'informations pertinentes à partir de grandes quantités de données.
Utilisation des fonctions (Agentic AI) : Accès aux bases de données, APIs, ou encore des requêtes sur Internet pour enrichir les réponses fournies par le modèle avec l’aide des librairies du type Langchain, Langraph, Autogen et d’autres.
L’étudiant(e) bénéficie du coaching d’experts métiers et lead Data Scientists en Intelligence Artificielle pour assurer sa montée en compétence.
Are you a MATCH?
Master (ou Bac+4 ou +5) en Data Science, Mathématiques appliquées, Informatique.
Des connaissances sur les algorithmes Deep learning, le traitement de langage naturel (NLP), la vision par ordinateur seront fortement appréciées.
Bonne maîtrise du Python.
Our Differences make our Performance
At Air Liquide, we are committed to build a diverse and inclusive workplace that embraces the diversity of our employees, our customers, patients, community stakeholders and cultures across the world.
We welcome and consider applications from all qualified applicants, regardless of their background. We strongly believe a diverse organization opens up opportunities for people to express their talent, both individually and collectively and it helps foster our ability to innovate by living our fundamentals, acting for our success and creating an engaging environment in a changing world.
ICP - Innovation Campus Paris - R&D - Customer Processes