NumaHop : la plate-forme libre de gestion d’une chaîne de numérisation

Le 11 avril dernier, j’ai pu assister à une séance de présentation de NumaHop qui est la première plateforme libre dédiée à la gestion d’une chaîne de numérisation.

Elle est le résultat de deux ans de collaboration (2016-2018) entre une société spécialisée en gestion documentaire et un groupe métier constitué des équipes de trois bibliothèques conservant des fonds patrimoniaux : la Bibliothèque Sainte-Geneviève, la Bibliothèque Sciences Po et la BULAC.

Cette mise en œuvre n’aurait pu être réalisée sans les subventions initiales du département de Paris et de la Comue Sorbonne Paris Cité.

Les avantages d’une plateforme

La création d’une plateforme permettant une gestion simplifiée de toute la chaîne de numérisation correspond aux besoins actuels des équipes confrontées au quotidien à ce type de projet. Elle démontre l’intérêt constant de se réapproprier la gestion et les aspects techniques du travail de numérisation par les institutions. Plus de fluidité et de maîtrise dans la chaîne grâce à ce type de plateforme doit permettre aux établissements d’alléger une infrastructure parfois lourde de conséquences sur le fonctionnement des services. Il est intéressant de noter que la majorité des prestataires de numérisation ont aujourd’hui développé ou acheté également des plateformes de gestion et de traitement des images afin de fluidifier leur propre chaîne de travail pour gagner en productivité et en qualité.

Les avantages -non exhaustifs- de NumaHop qui peuvent être énoncés sont : 

  • Un gain quantitatif et qualitatif sur le projet : le chef de projet a la possibilité de gérer dans un seul outil l’avancée de chaque étape par document ou par lot ; une conversion automatisée des constats d’état ; grâce à une bonne ergonomie du logiciel : des temps de formation plus court et une prise en main rapide ; la possibilité d’automatisation de contrôle qualité permettant des vérifications exhaustives sur les aspects techniques ; l’automatisation pour l’e-archivage au CINES et pour la diffusion sur Internet Archive ainsi que la semi-automatisation pour la diffusion sur Omeka.
  • Une aide à la gestion du projet : avec des paramétrages d’alertes sur les délais et sur les critères à respecter du cahier des charges, un tableau de bord accessible en temps réel.
  • Des avantages financiers car c’est un logiciel libre : il peut effectuer les traitements d’Ocr (moteur Tesseract), la génération de toutes les déclinaisons de fichiers images souhaitées, les fichiers de métadonnées ou encore le dépôt au CINES souvent demandés aux prestataires par les établissements.

Le fonctionnement

Le schéma fonctionnel ci-dessous récapitule les différentes étapes prises en charge par NumaHop.

Schéma fonctionnel synthétique de NumaHop

Les limites

Grâce à cette présentation, j’ai pu constater l’énorme travail constitué par les membres des équipes des trois bibliothèques afin d’aboutir à un outil qui semble très fluide et plutôt souple sur l’utilisation des modules. Le niveau de détail attendu sur les besoins fonctionnels d’une chaîne de numérisation semble également relativement complet. Les échanges fructueux entre ces trois établissements ont fait émerger une prise de conscience de méthodes et de fonctionnement variés dont la mise en production de la plateforme a bénéficié. Cet aspect qualitatif très important explique également les limites à ce jour de la plateforme. En effet, elle est actuellement conçue pour les fonds patrimoniaux habituellement numérisés par ces trois bibliothèques. Tous les cas particuliers ne peuvent avoir été abordés.

Pour les fonds de presse ancienne, le nœud du problème concerne la segmentation sur la reconnaissance de la mise en page. NumaHop ne prend pas en charge la reprise manuelle de la segmentation. Nous n’avons par ailleurs pas d’idées sur la qualité de la segmentation automatique de Tesseract, le moteur libre d’OCR. IL conviendrait de pouvoir réaliser des tests à ce sujet afin de déterminer si la plateforme en l’état pourrait convenir avec des résultats significatifs.

Pour les fonds iconographiques nécessitant une numérisation qualitative sur la fidélité des couleurs et/ou des contrastes, je suis un peu plus mesurée. La nécessité de pouvoir vérifier les histogrammes, ainsi que les mires utilisées me paraissent primordiales. Cette option sort du cadre de la plate-forme et nécessiterait un développement spécifique et une orientation différente. La présence du fichier « mire » peut être néanmoins contrôlée, ce sont les valeurs RVB qu’il faudrait vérifier en-dehors de NumaHop.

Les perspectives

A partir des avantages et des limites de NumaHop, il est possible également d’envisager d’autres évolutions.

En étant une plateforme opensource, NumaHop peut être améliorée et doit pouvoir évoluer en fonction des besoins. Elle ne pourra subsister que si de nouveaux développements voient le jour, en abaissant au fur et à mesure les limites de l’outil et en garantissant une communauté d’utilisateurs sur le long terme.

NumaHop a été conçue comme une chaîne globale mais rien n’interdit d’utiliser seulement une partie de la chaîne. Un axe majeur qui me semble très important avec cette plateforme : la liberté des établissements de pouvoir générer eux-mêmes leurs propres fichiers traités et déclinés. Ainsi, chaque établissement pourrait enfin reprendre à son compte le traitement d’anciens lots de numérisation en les mettant aux normes. Ce gain de temps, d’argent et d’autonomie vis-à-vis des prestataires me paraît très attrayant pour un grand nombre de structures.

La diffusion sur Internet Archive et l’archivage des images au CINES peuvent être mis en œuvre avec le même constat : la facilité d’exécution de NumaHop devrait permettre d’intégrer rapidement d’anciens lots de numérisation qui sont parfois en attente devant la complexité des demandes techniques de moissonnage.

La mise en place de la plateforme n’est cependant pas à la portée de tous et l’aspect « gratuit/libre » de NumaHop ne doit pas faire oublier que certains auront besoin de se faire accompagner au démarrage moyennant un investissement financier auprès d’un tiers. Ce budget devrait être apprécié en fonction des besoins de numérisation sur le long terme de chaque établissement.

La création de cette plateforme NumaHop déjà très opérationnelle doit être vu comme un point de départ sur le développement des chaînes de numérisation. Un nouvel outil ne pouvait pas contenir toutes les options nécessaires à la variété existante des projets de numérisation mais elle en a établi un cadre solide sur lequel s’appuyer pour d’autres variantes à venir. L’effort fournit par les établissements pilotes saura je l’espère, donner envie à d’autres de continuer cette aventure car la plate-forme possède de nombreux avantages. L’enjeu de NumaHop est à ce jour de rencontrer son public d’utilisateurs afin qu’elle puisse vivre et évoluer dans le temps.

Pour en savoir plus : https://www.numahop.fr/

Prochaine présentation le mardi 10 juillet : l’inscription c’est ici

Liste de diffusion : https://groupes.renater.fr/sympa/info/numahop

Téléchargeable sur Github : https://github.com/progilone/numahop

Un grand merci à l’équipe métier de NumaHop pour la relecture assidue de cet article !

One thought on “NumaHop : la plate-forme libre de gestion d’une chaîne de numérisation

Comments are closed.