Suite de regresion de parser de documentos

Construye regresiones de parser que detecten fallos de extraccion y conversion antes del release.

Documento Codigo

Define el contrato de salida

La calidad del parser de documentos depende de expectativas claras: orden de texto preservado, comportamiento de extraccion de tablas, campos de metadatos y manejo de errores para archivos corruptos. Codifica todo eso en aserciones explicitas de prueba.

Haz curaduria de fixtures representativos

Tu conjunto de fixtures debe evolucionar con los incidentes de produccion. Cada incidente deberia anadir al menos un nuevo fixture y una nueva asercion de prueba.

  • Archivos limpios para el comportamiento base.
  • Archivos grandes para rendimiento y memoria.
  • Archivos malformados para resiliencia del parser.
  • Variantes de locale y codificacion para correccion del texto.

Mide la deriva con el tiempo

Al actualizar bibliotecas de parsing, compara las salidas extraidas con snapshots e inspecciona la deriva semantica. Una pequena diferencia a nivel de caracteres aun puede tener gran impacto cuando cambian facturas, clausulas legales o identificadores.

Herramientas recomendadas

Diff de manifiesto

Compara dos manifiestos para detectar archivos anadidos, eliminados o cambiados.

Abrir herramienta

Probador de politica de nombres de archivo

Comprueba conjuntos de nombres de archivo con restricciones configurables.

Abrir herramienta