Suite de regression des parseurs de documents
Construisez des regressions de parseur qui detectent les echecs d'extraction et de conversion avant la mise en production.
Definir le contrat de sortie
La qualite d'un parseur de documents depend d'attentes claires : ordre du texte preserve, comportement d'extraction des tableaux, champs de metadonnees et gestion des fichiers corrompus. Encodez ces attentes dans des assertions de test explicites.
Constituer des fixtures representatifs
Votre ensemble de fixtures doit evoluer avec les incidents de production. Chaque incident devrait ajouter au moins un nouveau fixture et une assertion de test correspondante.
- Fichiers propres pour le comportement de reference.
- Gros fichiers pour la performance et la memoire.
- Fichiers mal formes pour la resilience du parseur.
- Variantes de locale et d'encodage pour la justesse du texte.
Mesurer la derive dans le temps
Lors des mises a niveau de bibliotheques de parsing, comparez les sorties extraites a des snapshots et inspectez la derive semantique. Une petite difference caractere par caractere peut avoir un impact majeur quand des factures, clauses juridiques ou identifiants changent.
Outils recommandes
Diff de manifeste
Comparez deux manifestes pour detecter les fichiers ajoutes, retires ou modifies.
Ouvrir l'outilTesteur de politique de noms de fichiers
Verifiez des jeux de noms de fichiers selon des contraintes configurables.
Ouvrir l'outil