Unsplash
#1257

ArchéoBot, un dialogue innovant entre pédagogie et recherche

Par Guillaume Simiand (UR 4150 IRJS), Vincenzo Capozzoli (UMR 8215 Trajectoires) et Alain Duplouy (UMR 8215 Trajectoires)

Dans le contexte actuel de transformation numérique du monde qui nous entoure, la nécessité de faire évoluer notre pédagogie devient de plus en plus prégnante, notamment dans le domaine des sciences humaines et sociales (SHS). C'est dans cette optique qu'en septembre 2023, répondant à un appel à projets pédagogiques numériques lancé par l'université Paris 1 Panthéon-Sorbonne, une équipe interdisciplinaire associant archéologues et spécialistes des humanités numériques a conçu ArchéoBot, un agent conversationnel dédié à l'archéologie. Un outil au croisement des disciplines

L’objectif était de développer un outil d’aide à l’apprentissage pour les étudiants de licence, mais aussi un outil de recherche plus avancé pour les étudiants de master. S’agissant d’une expérimentation pédagogique, le projet s’est limité à deux thématiques spécifiques. D’un côté, il s’agissait d’accompagner les étudiants dans leur apprentissage des méthodes de l’archéologie ; de l’autre, de leur offrir aux étudiants un outil de réflexion sur la pensée de l’un des plus éminents archéologues classiques de notre université, Francis Croissant (1935-2019).

Dans les deux cas, l’accent a été mis sur la fiabilité et la traçabilité de l’information restituée aux étudiants par un agent conversationnel. Déployé en 2024 sur la plateforme Moodle auprès d’un public test, ArchéoBot incarne en ce sens une réponse concrète aux limites des grands modèles de langage (LLM) grand public, tout en ouvrant des perspectives inédites pour l'enseignement et la recherche.

Pédagogie augmentée : former l'esprit critique à l'ère des hallucinations

ArchéoBot devait proposer aux étudiants un « répétiteur automatique », disponible à toute heure du jour et de la nuit – à la différence des enseignants-chercheurs ! –, pour les accompagner dans l’apprentissage et la révision de leur discipline. Dans le cadre du cours sur les méthodes de l’archéologie dispensé en licence par Vincenzo Capozzoli, les étudiants devaient donc pouvoir s’adresser à ArchéoBot pour obtenir des éclaircissements sur certains points du cours, mais aussi tester leurs connaissances en répondant à des questionnaires à choix multiples (QCM) générés par l’agent conversationnel.

Pour cela, ArchéoBot devait être avant tout un laboratoire d'apprentissage de la pensée critique. Contrairement aux agents conversationnels grand public, qui produisent des réponses à partir d’un ensemble de connaissances non défini et sans jamais étayer leurs dires, nous souhaitions qu’ArchéoBot soit rigoureusement informé sur les thématiques sélectionnées et surtout qu’il cite ses sources, suivant une exigence formulée dès 1914 par Marc Bloch : « Citer ses témoins est le premier devoir de l'historien ». L’une des principales limites des LLM standards réside en effet dans leur propension aux hallucinations, la brièveté excessive des réponses, le manque de transparence quant aux sources, ainsi que l’impossibilité de les sélectionner ou encore de les pondérer.

Nous avons donc commencé par rassembler un corpus sur les deux thématiques choisies : d’une part, une bibliographie de référence sur les méthodes de l’archéologie, similaire à celle fournie en cours – et que les étudiants consultent très rarement ; d’autre part, l’ensemble des publications de Francis Croissant, dont près d’une centaine a été rassemblée à partir de répertoires publics (Persée, OpenEdition) et de documents papier « océrisés ». C’est sur la base de ces deux ensembles qu’ArchéoBot devait impérativement construire ses réponses. Grâce à cela, nous pouvions garantir une base solide de connaissances vérifiées et validées d’un point de vue pédagogique.

L’autre objectif d’ArchéoBot, mis en œuvre au niveau master, répondait au rêve formulé par Steve Jobs en 1985 à l'université de Lunds : « My hope is someday, we can capture the underlying worldview of Aristotle in a computer. And someday, some student will be able not only to read the words Aristotle wrote but ask him a question - and get an answer ». En l’occurrence, dans le cadre du séminaire « Modèles interprétatifs des sociétés grecques et romaines », Alain Duplouy a mis à l’honneur au printemps 2024 la pensée de son maître Francis Croissant, récemment décédé. Après une étude traditionnelle de son œuvre à travers la lecture de ses publications, il proposa à ses étudiants de tester ArchéoBot en lui posant des questions sur la pensée de ce spécialiste de sculpture grecque. L’exercice visait à évaluer la pertinence des réponses fournies par l’agent conversationnel, tout en testant les connaissances des étudiants et en stimulant leur esprit critique. Avec ArchéoBot, les étudiants ont ainsi pu approfondir leur réflexion sur différentes approches épistémologiques et interroger les processus de construction des savoirs.

Une architecture technique au service de la rigueur scientifique

La conception d’ArchéoBot repose sur une triple innovation technique, favorisant autant que possible les solutions open source et le contrôle des données :

  • Le système RAG (Retrieval-Augmented Generation), introduit en 2020, qui associe un modèle de langage à une base de données vectorielle fournissant une approximation numérique du contenu sémantique des documents. Désormais largement adopté dans les systèmes augmentant les LLM, il permet une recherche sémantique contextualisée, limitant ainsi les réponses génériques.
  • Le « Skeleton of Thought » – une méthode développée en 2023 – décompose les requêtes complexes en sous-tâches exécutées en parallèle. Cette approche compense les faiblesses des LLM en matière de précision et de rapidité dans la génération de textes longs, tout en améliorant la structure des réponses.
  • L'intégration de Zotero transforme la gestion des sources bibliographiques. Face au problème des hallucinations, cette intégration garantit un référencement transparent et vérifiable. Chaque document du corpus (cours, articles, archives) est indexé via l'interface de programmation d'application (API) du logiciel, permettant aux chercheurs de gérer leur bibliographie de manière avancée, sans avoir à manipuler directement la base de données vectorielle.

Concrètement, lorsqu'un étudiant pose une question, ArchéoBot utilise une approche hybride, combinant recherche vectorielle dense (sémantique) et éparse (mots-clés). Les résultats sont ensuite hiérarchisés par pertinence, afin d’exploiter la tendance des LLM à accorder plus d'importance aux premiers et derniers éléments d'une séquence. L'interface, volontairement épurée, permet de varier le nombre de documents consultés et de tester différents modèles (OpenAI, Anthropic, Mistral…), offrant une transparence maximale et une flexibilité d’expérimentation à l’utilisateur. Chaque paragraphe généré par ArchéoBot (cf. exemple ci-dessous) renvoie au corpus de référence, évitant ainsi un écueil majeur des LLM grand public : leur propension à inventer des sources ou à masquer leurs biais.

Défis techniques : OCR, multimodalité et équilibrage des sources

Au-delà des deux thématiques explorées en 2024, forcément limitées dans le vaste champ de l’archéologie, ArchéoBot a pour ambition d’élargir progressivement son champ d’expertise.

L'enrichissement du corpus de référence soulève toutefois des défis techniques considérables. La numérisation des publications anciennes requiert par exemple une reconnaissance optique de caractères (OCR) capable de s’adapter aux polices typographiques historiques. Plus complexe encore, le traitement des images archéologiques (schémas, plans topographiques, mobilier archéologique) pose un défi majeur, ces visuels constituant non seulement des outils de démonstration mais aussi des sources de preuve essentielles dans la discipline. Loin d'être de simples compléments graphiques, ces illustrations relèvent en effet d’un discours autonome, souvent porteur d’informations non explicitées dans le texte. Pour les intégrer, nous devrons explorer des techniques d'intelligence artificielle visuelle, combinant vision par ordinateur et apprentissage multimodal (image-to-text).

Parallèlement, le risque de déséquilibre dans la représentation de certaines sources nécessite une réflexion sur le réajustement dynamique du corpus. À mesure que ce dernier s’étoffera, des algorithmes devront pouvoir ajuster en temps réel la pondération des documents selon des critères pertinents, évitant la surreprésentation de certaines sources et la mise en avant excessive de théories marginales. Cette vigilance est d'autant plus cruciale qu’archéologie, le savoir repose sur de longues publications, riches en informations contextuelles souvent dispersées dans le texte. Une segmentation optimale des documents en unités de tokens sera donc nécessaire pour préserver ces éléments contextuels fondamentaux et ainsi passer d'un système qui « fonctionne » à un système qui « fonctionne réellement », produisant des résultats précis, pertinents et cohérents.

Vers une pédagogie dialogique

ArchéoBot dépasse la simple fonction d'agent conversationnel ou d'outil de rédaction automatisée. En hybridant la rigueur scientifique de l’archéologie et l’innovation technologique, il incarne une pédagogie dialogique où l'IA devient un médiateur entre l'étudiant, l'enseignant et les savoirs passés. Si des défis subsistent – notamment la réduction des hallucinations résiduelles et la gestion du coût d'exploitation des modèles avancés –, ce projet démontre que les SHS peuvent s'approprier l'IA tout en préservant leurs valeurs.

L'introduction d'ArchéoBot dans le cadre éducatif, qu’elle intervienne avant, pendant ou après les cours, entraînera des changements significatifs dans l'enseignement de l'archéologie et dans la perception qu’en ont les étudiants. Comme l'a justement souligné Jean-Marie Gilliot : « si la calculette n'a pas supprimé la nécessité d'apprendre les concepts des quatre opérations, mais évite de devoir s'entraîner trop longtemps, la diffusion de la calculette scientifique a modifié la manière de dérouler un cours de maths ou de physique. » De la même manière, l'avènement de l'IA générative dans la pédagogie des SHS nous amène à repenser non seulement notre modus operandi en salle de cours, mais également notre relation avec les étudiants.

En apprenant et incitant ces derniers à interroger les sources autant qu'à les consulter, ArchéoBot rappelle une évidence trop souvent négligée : l'intelligence artificielle, à l’instar de l'archéologie, est avant tout un art de la critique. Cette approche ouvre la voie à une nouvelle épistémologie, où l'IA ne se limite plus à un rôle d’outil, mais devient un catalyseur de réflexion sur la construction et la transmission des savoirs.