Stage en entreprise > Offres de stage > Vers un moteur de recherche contextuel de nouvelle génération. Exploration des capacités vectorielles d'OpenSearch pour l'enrichissement sémantique de documents
IFP Energies nouvelles - Sciences et Technologies du Numérique

Vers un moteur de recherche contextuel de nouvelle génération. Exploration des capacités vectorielles d'OpenSearch pour l'enrichissement sémantique de documents

IFP Energies nouvelles - Sciences et Technologies du Numérique

Stage | Informatique - Développement | Hauts-de-Seine | Mars 2026 | 5 mois


IFP Energies nouvelles (IFPEN) est un acteur majeur de la recherche et de la formation dans les domaines de l’énergie, du transport et de l’environnement. Depuis les concepts scientifiques en recherche fondamentale jusqu’aux solutions technologiques en recherche appliquée, l’innovation est au cœur de son action, articulée autour de quatre orientations stratégiques : climat, environnement et économie circulaire ; énergies renouvelables ; mobilité durable ; hydrocarbures responsables.

Dans le cadre de la mission d’intérêt général confiée par les pouvoirs publics, IFPEN concentre ses efforts sur l’apport de solutions aux défis sociétaux et industriels de l’énergie et du climat, au service de la transition écologique. Partie intégrante d’IFPEN, IFP School, son école d’ingénieurs, prépare les générations futures à relever ces défis.

Vers un moteur de recherche contextuel de nouvelle génération. Exploration des capacités vectorielles d’OpenSearch pour l’enrichissement sémantique de documents.

IFP Energies Nouvelles dispose d’une base documentaire hétérogène composée entre autres de nombreux rapports PDF historiques et de fichiers de logs de puits au format LAS. Ces documents ont été produits pour des objectifs spécifiques (par exemple, l’évaluation de la présence d’hydrocarbures). Or, ces mêmes données pourraient être réexploitées dans des contextes différents, comme l’évaluation du potentiel de stockage géologique du CO₂.

Aujourd’hui, notre moteur de recherche basé sur le framework OpenSearch indexe ces documents avec des métadonnées et du texte extrait des documents. Cependant, cette indexation reste très dépendante du contexte initial avant d’être ingérée dans la base et ne permet pas d’exploiter pleinement la valeur implicite des contenus pour d’autres usages.

Objectifs

L’objectif du stage est d’étudier et de prototyper l’utilisation des fonctionnalités vectorielles d’OpenSearch pour enrichir/updater les index existants par des représentations sémantiques (embeddings).

L’idée est de construire un pipeline permettant :

  • D’extraire et enrichir automatiquement des résumés ou des passages clés avec une vision multi-thématique (hydrocarbures, CO₂, stockage géologique, géomécanique, etc.)
  • De générer des embeddings pertinents (modèles préentraînés ou fine-tuning)
  • De stocker ces embeddings dans OpenSearch pour permettre des recherches sémantiques et contextuelles plus puissantes
  • De comparer la pertinence des résultats avec la recherche textuelle classique (BM25)

Missions principales

  • Étude de l’état de l’art des fonctionnalités vectorielles dans OpenSearch (k-NN, ANN, vecteurs denses)
  • Benchmark et sélection de modèles d’embedding adaptés (BERT, Sentence Transformers, etc.)
  • Développement d’un prototype de pipeline d’indexation enrichie : extraction de texte, résumés multi-thématiques, génération d’embeddings, insertion dans OpenSearch
  • Mise en place de cas d’usage de requêtes sémantiques : recherche croisée d’informations entre contextes différents
  • Évaluation comparative de la performance et de la pertinence des résultats
  • Rédaction de recommandations pour une mise en production

Profil recherché

Étudiant·e en Master 2 Informatique, Data Science, IA ou équivalent

  • Compétences en NLP (Python, Hugging Face, spaCy, etc.)
  • Connaissance des moteurs de recherche (ElasticSearch/OpenSearch ou équivalent)
  • Notions de base sur les bases vectorielles et l’approximate nearest neighbors
  • Intérêt pour l’ingénierie documentaire, l’exploitation de données scientifiques et la recherche d’informations
  • Autonomie, curiosité et rigueur scientifique

Mots-clés

Opensearch, Base Vectorielle, embeddings, NLP, Modèles de langage, Similarité sémantique



Annonces similaires

IFP Energies nouvelles - Sciences et Technologies du Numérique Automatisation de l'évaluation des réponses des LLMs appliquée aux données géoscientifiques

IFP Energies nouvelles - Sciences et Technologies du Numérique

Stage | Informatique - Développement | Hauts-de-Seine (92)

IFP Energies nouvelles - Mobilité et Systèmes Sustainable Aviation Fuels: Development of Fuel Database and Property Prediction using Machine Learning (Ref N°13)

IFP Energies nouvelles - Mobilité et Systèmes

Stage | Informatique - Développement | Hauts-de-Seine (92)

IFP Energies nouvelles - Sciences et Technologies du Numérique Mobilité intelligente : benchmark d'APIs géospatiales et développement d'un service Python intégré

IFP Energies nouvelles - Sciences et Technologies du Numérique

Stage | Informatique - Développement | Hauts-de-Seine (92)

IFP Energies nouvelles - Sciences et Technologies du Numérique Exploration intelligente des données multicritères pour la décarbonation du transport via des agents IA LLM

IFP Energies nouvelles - Sciences et Technologies du Numérique

Stage | Informatique - Développement | Hauts-de-Seine (92)

Shares