08 — Opinion / Miss Baker Log

L'IA ne classe pas un fonds iconographique. La méthode le classe.

Comment construire un pipeline d'archivage IA-augmenté qui tient debout : nommage, OCR multi-agents, vérification croisée, identifiants permanents.

Publié19 mai 2026
AuteurStéphane Giner
Lecture14 min

Salle d'archives méthodiquement organisée — la méthode imposant son ordre à une vaste collection fragile.
Salle d'archives méthodiquement organisée — la méthode imposant son ordre à une vaste collection fragile.

Cataloguer un fonds iconographique privé de quelques milliers de documents selon les standards traditionnels représente plusieurs années de travail pour un professionnel à temps plein. Le coût se chiffre en dizaines de milliers d'euros. C'est la raison pour laquelle la quasi-totalité des fonds privés français — collections de photographies, archives notariales, photothèques d'entreprise, planches techniques, herbiers — restent invisibles, non géolocalisés, non recherchables, indéfiniment.

L'arrivée des modèles multimodaux capables d'OCR et de compréhension visuelle a déplacé cette économie. Un fonds qui aurait demandé trois ans de catalogage humain peut désormais être indexé en quelques semaines de supervision répartie, pour un coût d'infrastructure de l'ordre de quelques centaines d'euros.

Le déplacement est réel. Il n'est pas magique. Et il ne vient pas de l'IA seule — il vient de l'IA à condition qu'elle soit encadrée par un pipeline de normalisation, de vérification croisée et d'identifiants permanents qu'aucun modèle ne produira tout seul.

Cet article décrit une méthode, sans doute encore perfectible, déployée à l'issue de séances de brainstorming avec un client toulousain.

I. Le mythe du « lance l'OCR et c'est plié »

Une presse à imprimer crache des feuilles smudgées, marquées d'erreurs en vermillon.
Une presse à imprimer crache des feuilles smudgées, marquées d'erreurs en vermillon.

L'erreur la plus répandue quand on découvre les capacités multimodales des LLM actuels : croire qu'on peut envoyer N images à une API et récupérer une base de données propre en sortie.

C'est faux dans des proportions massives. Une passe directe par un modèle OCR, sans pipeline de contrôle, produit typiquement un taux d'erreur exploitable de l'ordre de 15 à 20 %. Légendes paraphrasées au lieu d'être transcrites verbatim, communes inventées, monuments mal attribués, oublis purs et simples : un agent IA chargé d'un batch de huit images en retourne parfois sept.

Un fonds publié avec 15 % d'erreur est mort. Les passionnés et historiens repèrent les défauts en quelques minutes, la crédibilité s'effondre, et le travail est plus difficile à rattraper qu'à refaire.

Une méthode robuste ne supprime pas ce taux d'erreur initial. Elle l'absorbe.

Ce point est souvent mal compris par les décideurs qui découvrent l'IA générative par des démonstrations spectaculaires. Une démonstration n'est pas un système de production. Un modèle capable d'impressionner sur dix images soigneusement choisies peut devenir inutilisable à l'échelle de cinquante mille documents hétérogènes.

Le passage critique n'est pas la qualité moyenne du modèle. C'est la stabilité statistique du pipeline.

II. Pourquoi le nommage précède tout

Un archiviste grave méticuleusement des étiquettes d'identification — le nom de fichier comme survivant ultime.
Un archiviste grave méticuleusement des étiquettes d'identification — le nom de fichier comme survivant ultime.

Première règle à poser avant la première ligne de code : aucune image n'entre dans le pipeline sans nom normalisé.

Le schéma exact dépend du fonds, mais l'idée générale : un nom de fichier doit porter à lui seul les coordonnées de classement principales. Pour un fonds géographique, par exemple, un format du type <zone>_<lieu>_<sous-lieu>_<numero>.jpg suffit. Slugs en minuscules, sans accents, tirets internes. Numérotation à largeur fixe. Pas de caractères spéciaux, pas d'espaces.

Ce travail est ingrat, lent à concevoir, inintéressant à présenter. Il est aussi non-négociable.

Un nom de fichier autoporteur survit à tout : à une base de données corrompue, à un export CSV malformé, à un envoi par mail, à une migration de serveur. Le jour où l'on perdra la base — et ce jour viendra, sur l'horizon de dix ans — le nom restera interrogeable, triable, regroupable. L'information n'est jamais à un seul endroit.

La plupart des projets d'archivage observés sautent cette étape. Ils stockent IMG_4892.jpg ou scan-lot-3-098.jpg en s'appuyant sur la base pour donner du sens. Quand la base meurt, le fonds meurt avec elle.

Il faut également distinguer deux choses différentes :

  • Le nom physique du fichier
  • L'identité documentaire du document

Le nom peut évoluer selon les usages publics, les exports ou les conventions de diffusion. L'identité documentaire, elle, ne doit jamais changer. C'est précisément le rôle de l'UUID abordé plus loin.

III. Hiérarchiser les modèles IA selon l'enjeu

Cascade de deux entonnoirs — le modèle économique trie la masse, le modèle capable n'intervient que sur 3 à 5 %.
Cascade de deux entonnoirs — le modèle économique trie la masse, le modèle capable n'intervient que sur 3 à 5 %.

Le pipeline OCR repose sur une cascade de modèles, du plus économique au plus capable :

  • Le modèle économique traite la masse, par lots parallélisés. Coût marginal : quelques centimes par document.
  • Le modèle capable n'intervient que sur les fiches que les règles métier ont flagué comme douteuses. Coût marginal supérieur, mais sur 3 à 5 % du volume seulement.

Cette hiérarchie est ce qui rend l'économie du projet possible. Faire tourner le modèle capable sur l'intégralité d'un fonds de plusieurs milliers de documents coûte plusieurs milliers d'euros. Le faire tourner sur 3 à 5 % du volume coûte quelques dizaines d'euros. La différence finance le développement, la supervision humaine, et l'infrastructure.

Le prompt du modèle économique doit être strict : sortie JSON, refus des paraphrases, transcription verbatim de ce qui apparaît sur le document. Toute réponse hors-format est rejetée et l'image repasse dans la file. Un wrapper d'orchestration détecte les oublis (huit images en entrée, sept résultats en sortie) et relance automatiquement.

Ce sont des garde-fous triviaux. Ils sont aussi ce qui distingue un pipeline qui fonctionne d'un pipeline qui produit des résultats à peu près corrects.

Un autre point devient critique à l'échelle : la reproductibilité. Un pipeline sérieux doit pouvoir rejouer exactement un traitement plusieurs mois plus tard avec :

  • le même modèle,
  • la même version de prompt,
  • les mêmes règles métier,
  • les mêmes paramètres de température,
  • et les mêmes référentiels.

Sans cela, deux traitements identiques sur le même lot peuvent produire des résultats divergents. Ce problème est invisible sur de petits volumes et destructeur sur de grandes archives.

IV. La vraie ligne de coût n'est pas l'IA, c'est la vérification

Ligne d'assemblage de vérification — règles métier, modèle capable, supervision humaine en cascade.
Ligne d'assemblage de vérification — règles métier, modèle capable, supervision humaine en cascade.

Le poste budgétaire dominant d'un projet d'archivage IA-augmenté n'est pas le coût des API. C'est la construction de la chaîne de vérification.

Un protocole robuste fonctionne en trois temps :

1. Filtrage par règles métier

Un script lit toutes les fiches générées et vérifie ce qui est mécaniquement vérifiable. Pour un fonds géolocalisé : la commune existe-t-elle dans le référentiel officiel ? Pour un fonds botanique : le nom latin appartient-il à la nomenclature reconnue ? Pour un fonds notarial : la date est-elle cohérente avec la période documentée ? Le slug contient-il des caractères suspects, des mots-outils qui n'auraient jamais dû survivre à la normalisation ?

Ce filtrage élimine typiquement 80 % des sorties valides sans aucune intervention humaine ni IA supplémentaire. On ne vérifie pas ce qui est évidemment bon.

2. Vérification ciblée par modèle plus capable

Les fiches restantes — 15 à 20 % du lot — passent dans un modèle de génération supérieure. Il relit le document et la fiche, et répond par un verdict accompagné d'une justification courte.

3. Revue humaine sur les cas litigieux

Ce que le modèle capable flague comme douteux remonte à un opérateur humain qui tranche.

La littérature appelle ce schéma human-in-the-loop with confidence-based routing. Il fait trois choses utiles à la fois :

  • Il évite que 95 % des décisions humaines portent sur des évidences
  • Il réserve le modèle coûteux aux cas qui le méritent
  • Il documente la chaîne de décision pour chaque fiche

Effet de bord systématiquement observé : ajouter une couche de vérification automatisée sur un fonds existant révèle des erreurs antérieures que personne n'avait le temps ni l'outillage de chercher. Inversions entre nom de fichier et contenu, attributions erronées, doublons non détectés. La méthode trouve les défauts du passé, pas seulement ceux qu'elle aurait pu introduire.

À ce stade, la métrique importante n'est plus le taux d'erreur brut du modèle. C'est le taux d'erreur résiduel après routage, vérification et supervision.

C'est une différence fondamentale.

V. Détecter les doublons avant qu'ils contaminent la base

Un archiviste compare deux tirages identiques — détection visuelle d'un doublon recompressé.
Un archiviste compare deux tirages identiques — détection visuelle d'un doublon recompressé.

Une archive de plusieurs milliers de documents contient presque toujours :

  • des scans répétés,
  • des variantes de résolution,
  • des recadrages,
  • des copies recompressées,
  • des photographies du même tirage,
  • ou des exports multiples du même original.

Sans stratégie de déduplication, la base dérive progressivement vers un bruit documentaire difficilement réversible.

Le hash cryptographique classique (MD5, SHA256) ne suffit pas : deux fichiers identiques visuellement mais recompressés auront des empreintes différentes.

La méthode robuste combine généralement :

  • un hash exact pour détecter les copies parfaites,
  • un perceptual hashing (pHash, dHash, aHash) pour détecter les variantes visuelles proches,
  • et éventuellement des embeddings visuels pour identifier des contenus très similaires malgré des transformations.

Cette couche paraît secondaire au début du projet. Elle devient essentielle après plusieurs imports successifs provenant de sources différentes.

Une archive sans stratégie anti-doublon finit par devenir impossible à maintenir propre.

VI. Géocoder n'est pas localiser

Une carte vintage piquée d'aiguilles vermillon — précision par cascade de sources géographiques.
Une carte vintage piquée d'aiguilles vermillon — précision par cascade de sources géographiques.

Pour un fonds à dimension géographique, la consultation bascule complètement quand l'archive est affichée sur une carte interactive plutôt que parcourue comme une liste. Un département, une côte, une zone deviennent des terrains à explorer.

Le géocodage doit s'appuyer sur plusieurs sources en cascade, par précision décroissante :

  • Service officiel national. Pour la France : l'API BAN (Base Adresse Nationale), gratuite, calibrée sur le territoire métropolitain. Donne le meilleur résultat sur les adresses précises.
  • Service communautaire ouvert. Nominatim, basé sur OpenStreetMap. Plus permissif, utile sur les lieux-dits, hameaux, monuments connus localement mais absents du référentiel officiel.
  • Fallback par centroïde. Quand aucun service ne reconnaît le lieu, le centre géographique de la commune ou de la zone administrative tient lieu d'approximation. Pas précis, mais exploitable.

Quelques pièges récurrents méritent d'être anticipés. Les grandes villes manquent parfois dans certains exports officiels et doivent être hardcodées. Les toponymes anciens (orthographes désuètes, communes fusionnées, lieux-dits disparus) nécessitent une normalisation séparée. Les coordonnées GPS éventuellement écrites par des logiciels de scan dans les EXIF sont systématiquement non fiables.

Ce dernier point génère une règle absolue : la base de données est la seule source de vérité GPS. On ne lit jamais les GPS depuis les EXIF des fichiers, on n'écrit jamais de GPS dans les EXIF. Le jour où il faudra regénérer les images depuis les originaux, les coordonnées seront toujours en base et n'auront pas dérivé.

C'est le genre de règle qui paraît tatillonne au moment où on la pose, et qui s'avère décisive trois mois plus tard.

VII. L'identifiant permanent

Un sceau de cire vermillon imprime un UUID — identité documentaire irrévocable.
Un sceau de cire vermillon imprime un UUID — identité documentaire irrévocable.

L'écueil silencieux d'une grande archive numérique : les fichiers bougent. Renommages, copies, ré-encodages, sauvegardes croisées. Au bout de quelques années, plus personne ne sait avec certitude si le fichier nom_0042.jpg sur le disque dur de backup correspond bien à la fiche 4242 de la base.

Solution : chaque document reçoit un UUID v4 au moment de son import. Cet identifiant est écrit à la fois en base et dans les métadonnées EXIF du fichier image, via un outil comme ExifTool dans le champ XMP-dc:Identifier. Une commande de réconciliation peut à tout moment scanner les fichiers et détecter les désynchronisations.

L'UUID survit à un renommage, à un transfert de disque, à un changement de système. Il ne survit pas à une conversion de format qui détruirait les métadonnées XMP — c'est le seul risque résiduel, et il interdit certaines opérations de masse sans précaution.

Cette redondance volontaire — la même information en base ET dans le fichier — est ce qui transforme une archive fragile en archive résiliente.

Un pipeline sérieux ajoute également :

  • une date d'import immuable,
  • une version de traitement,
  • un historique des corrections humaines,
  • et parfois une signature du workflow ayant produit la fiche.

Autrement dit : une archive moderne ne stocke pas seulement des documents. Elle stocke aussi l'historique de leur transformation.

VIII. Stockage à trois niveaux

Trois niveaux verticaux — HD verrouillé, web accessible, thumbnails — reliés par une chaîne vermillon.
Trois niveaux verticaux — HD verrouillé, web accessible, thumbnails — reliés par une chaîne vermillon.

Une image existe en plusieurs versions, et chacune a sa logique propre :

NiveauRésolutionEmplacementUsage
HDPleine résolutionDisque local + stockage objet cloudImpression, archive, retraitement
Web1200 px, qualité 75Serveur webAffichage public
Thumb400 px, qualité 80Serveur webVignettes, listings

Le HD ne quitte jamais le disque local sauf vers un stockage objet cloud (type Cloudflare R2, Backblaze B2, AWS S3) qui sert d'origine sécurisée. Les URLs présignées à durée limitée empêchent le siphonnage public.

Les versions web et thumbs sont régénérables à tout moment depuis les HD via un script. Cette propriété rend le système résilient : on peut changer les standards (qualité, format, ajout d'un watermark) sans toucher à l'archive principale.

Le coût d'infrastructure mensuel pour quelques dizaines de gigaoctets de HD stockés et un trafic public modeste tient dans une fourchette de 5 à 20 €. Le coût API pour traiter un lot de plusieurs centaines de documents tient dans une fourchette de quelques dizaines d'euros. C'est l'ordre de grandeur réel d'un projet de cette nature aujourd'hui — à condition d'avoir construit le pipeline.

Une erreur fréquente consiste à considérer le stockage cloud comme une sauvegarde. Ce n'en est pas une. Un stockage objet réplique un état ; il ne protège pas nécessairement contre une corruption logique, un script défectueux ou une suppression propagée.

Une archive sérieuse applique au minimum une logique dite « 3-2-1 » :

  • trois copies,
  • sur deux supports différents,
  • dont une hors site.

IX. Les embeddings changent la consultation du fonds

Toile sémantique de nœuds connectés — un cluster en vermillon montre les voisinages cachés.
Toile sémantique de nœuds connectés — un cluster en vermillon montre les voisinages cachés.

L'étape la plus sous-estimée des archives IA-augmentées n'est pas l'OCR. C'est la recherche sémantique.

Pendant des décennies, une archive ne pouvait être interrogée que par métadonnées explicites : lieu, date, auteur, mot-clé.

Les embeddings changent cela.

Chaque image et chaque fiche peuvent être transformées en vecteur numérique représentant leur proximité sémantique. Une recherche du type :

« ports industriels enneigés », « cérémonies militaires avant-guerre », « façades Art déco avec tramways »

peut alors retrouver des documents jamais explicitement tagués avec ces termes.

Cette couche ne remplace pas les métadonnées structurées. Elle ajoute une capacité d'exploration impossible auparavant.

C'est souvent à ce moment que le fonds cesse d'être un simple dépôt documentaire et devient réellement navigable.

X. Ce que l'IA déplace vraiment

On parle beaucoup de l'IA générative comme outil de création. Sur un projet d'archivage, son apport principal est ailleurs : dans la réduction du coût marginal du traitement de données non-structurées.

Un OCR sur des milliers d'images, accompagné d'une compréhension visuelle du contenu, c'était hier un chantier d'industrialisation lourde, réservé aux institutions disposant de personnels dédiés. C'est aujourd'hui un script de quelques centaines de lignes, exécuté en quelques heures, pour un coût matériel négligeable.

La barrière à l'entrée s'est effondrée. La conséquence concrète : un fonds privé constitué patiemment pendant des décennies peut devenir accessible au public en quelques mois, avec une qualité d'indexation comparable à celle d'une institution culturelle.

Mais — et c'est le point central de cette méthode — l'effondrement de la barrière ne vient pas de l'IA seule. Il vient de l'IA à condition qu'elle soit encadrée par un pipeline de normalisation, de vérification croisée et d'identifiants permanents qu'aucun modèle ne produira tout seul.

Le moment où le pipeline fonctionne vraiment, ce n'est pas quand le modèle économique transcrit la première légende. C'est quand la passe de vérification flague pour la première fois une fiche où le modèle a inventé un nom, et qu'un opérateur corrige en deux secondes ce qui aurait sinon publié une erreur visible à vie.

L'IA ne classe pas le fonds. La méthode classe le fonds. L'IA l'exécute à un coût qui rend le projet économiquement faisable.

XI. Le vrai sujet : la confiance documentaire

Une archive utile n'est pas seulement une archive accessible.

C'est une archive dont les utilisateurs comprennent implicitement qu'ils peuvent lui faire confiance.

Cette confiance se construit par accumulation de détails techniques invisibles :

  • cohérence des métadonnées,
  • stabilité des identifiants,
  • absence de doublons,
  • précision géographique,
  • traçabilité des corrections,
  • reproductibilité des traitements,
  • et faible taux d'hallucination documentaire.

Autrement dit : la qualité perçue d'une archive dépend rarement de la sophistication visible de son interface. Elle dépend surtout de la discipline méthodologique invisible derrière elle.

Les utilisateurs ne voient pas le pipeline. Ils voient ses conséquences.

XII. À quoi ça s'applique

Vitrine multi-compartiments — herbiers, photographies, actes notariés, planches techniques, cartes.
Vitrine multi-compartiments — herbiers, photographies, actes notariés, planches techniques, cartes.

La méthode décrite ici se transpose à tout corpus homogène où chaque document porte ses propres indices contextuels :

  • Archives notariales numérisées sans plan de catalogage
  • Photothèques d'entreprise (catalogues produits historiques, photos industrielles, événementiel, presse)
  • Collections privées de photographies, gravures, dessins techniques
  • Planches scientifiques, herbiers, atlas anciens
  • Fonds documentaires institutionnels en attente d'indexation rétrospective
  • Archives municipales et associatives numérisées mais non exploitées

Les variables changent : nature des indices à extraire, sources de référentiel pertinentes, finesse du schéma de classification. Les briques ne changent pas : nommage normalisé, OCR multi-agents avec sortie structurée, filtrage par règles métier, vérification ciblée par modèle plus capable, supervision humaine sur les cas douteux, identifiants permanents en métadonnées, stockage tiered.

Un projet de cette nature ne demande plus aujourd'hui une équipe dédiée, un département IT, ou un budget institutionnel. Il demande qu'on prenne au sérieux la méthode avant l'outil.

XIII. Ce qui reste humain

Même avec les meilleurs pipelines possibles, certaines décisions restent irréductiblement humaines.

Reconnaître qu'une photographie représente un lieu disparu. Comprendre qu'un nom manuscrit est un surnom local oublié. Identifier qu'un détail architectural implique une datation plus ancienne que celle écrite au dos du tirage.

L'IA accélère l'industrialisation du traitement documentaire. Elle ne remplace pas la connaissance contextuelle.

Et c'est probablement la meilleure manière de comprendre ce que ces systèmes changent réellement : ils ne remplacent pas l'expertise. Ils déplacent le temps humain depuis les tâches répétitives vers les cas où le jugement a encore une valeur.


Cette méthode est issue de retours d'expérience sur l'accompagnement de fonds documentaires privés. Les ordres de grandeur cités correspondent aux fourchettes typiquement observées et varient selon la nature et le volume du corpus.