Suite de regresion de parser de documentos
Construye regresiones de parser que detecten fallos de extraccion y conversion antes del release.
Define el contrato de salida
La calidad del parser de documentos depende de expectativas claras: orden de texto preservado, comportamiento de extraccion de tablas, campos de metadatos y manejo de errores para archivos corruptos. Codifica todo eso en aserciones explicitas de prueba.
Haz curaduria de fixtures representativos
Tu conjunto de fixtures debe evolucionar con los incidentes de produccion. Cada incidente deberia anadir al menos un nuevo fixture y una nueva asercion de prueba.
- Archivos limpios para el comportamiento base.
- Archivos grandes para rendimiento y memoria.
- Archivos malformados para resiliencia del parser.
- Variantes de locale y codificacion para correccion del texto.
Mide la deriva con el tiempo
Al actualizar bibliotecas de parsing, compara las salidas extraidas con snapshots e inspecciona la deriva semantica. Una pequena diferencia a nivel de caracteres aun puede tener gran impacto cuando cambian facturas, clausulas legales o identificadores.
Herramientas recomendadas
Diff de manifiesto
Compara dos manifiestos para detectar archivos anadidos, eliminados o cambiados.
Abrir herramientaProbador de politica de nombres de archivo
Comprueba conjuntos de nombres de archivo con restricciones configurables.
Abrir herramienta