Fixtures para extracao de documentos

Fixtures de PDF e TXT para analise de layout, extracao tipo OCR, tratamento de documentos protegidos e normalizacao de texto.

Por que este fluxo importa

  • Misture PDFs limpos, paginas tipo scan, arquivos protegidos e documentos danificados na mesma suite.
  • Combine extracao de PDF com fixtures TXT para validar fallback em texto puro e normalizacao.
  • Use o pacote de extracao para configuracoes reproduziveis de parser, OCR e mapeamento de campos.

Pacotes recomendados

Pacote de fixtures para extracao de documentos

Pacote de fixtures reais de PDF e TXT para extracao, analise de layout, validacao tipo OCR, tratamento de documentos protegidos e arquivos danificados.

document_extraction_fixture_pack.zip · 18.9 KB

Pacote de fixtures para extracao de imagens

Pacote com fixtures reais de PNG, JPEG, TIFF, PDF e TXT para OCR, extracao de texto e captura documental.

image_extraction_fixture_pack.zip · 382.3 KB

Matrizes de fixtures

Matriz de fixtures para extracao PDF

Use a matriz PDF para escolher entre fixtures ricos em texto, layout fixo, tipo formulario ou danificados em pipelines de preview e extracao.

Matriz de fixtures TXT para codificacao

Escolha fixtures TXT para testes basicos, deteccao de codificacao, finais de linha, stress de linha longa e validacao de texto.

Fixtures sugeridos

Nome do arquivo Formato Tamanho Acoes
pdf_invoice_layout_sample.pdf PDF 774 B
pdf_scan_like_image_sample.pdf PDF 3.7 KB
pdf_ocr_noise_sample.pdf PDF 7.9 KB
pdf_multi_column_report_sample.pdf PDF 3.3 KB
pdf_password_protected_sample.pdf PDF 3.2 KB
txt_utf8_multilingual_sample.txt TXT 94 B
txt_utf16le_sample.txt TXT 176 B