Suite de regressao de parser de documentos

Construa regressos de parser que capturem falhas de extracao e conversao antes do release.

Documento Codigo

Defina o contrato de saida

A qualidade do parser de documentos depende de expectativas claras: ordem de texto preservada, comportamento de extracao de tabelas, campos de metadados e tratamento de erro para arquivos corrompidos. Codifique isso em assercoes explicitas de teste.

Faca a curadoria de fixtures representativos

Seu conjunto de fixtures deve evoluir junto com incidentes de producao. Cada incidente deve adicionar pelo menos um novo fixture e uma nova assercao de teste.

  • Arquivos limpos para comportamento de referencia.
  • Arquivos grandes para performance e memoria.
  • Arquivos malformados para resiliencia do parser.
  • Variantes de locale e encoding para corretude de texto.

Meca a deriva ao longo do tempo

Ao atualizar bibliotecas de parsing, compare a saida extraida com snapshots e inspecione deriva semantica. Uma pequena diferenca em nivel de caractere ainda pode ter grande impacto quando faturas, termos legais ou identificadores mudam.

Ferramentas recomendadas

Diff de manifesto

Compare dois manifestos para detectar arquivos adicionados, removidos ou alterados.

Abrir ferramenta

Testador de politica de nomes de arquivo

Verifique conjuntos de nomes de arquivo contra regras configuraveis.

Abrir ferramenta