Fixtures para extracao de documentos
Fixtures de PDF e TXT para analise de layout, extracao tipo OCR, tratamento de documentos protegidos e normalizacao de texto.
Por que este fluxo importa
- Misture PDFs limpos, paginas tipo scan, arquivos protegidos e documentos danificados na mesma suite.
- Combine extracao de PDF com fixtures TXT para validar fallback em texto puro e normalizacao.
- Use o pacote de extracao para configuracoes reproduziveis de parser, OCR e mapeamento de campos.
Pacotes recomendados
Pacote de fixtures para extracao de documentos
Pacote de fixtures reais de PDF e TXT para extracao, analise de layout, validacao tipo OCR, tratamento de documentos protegidos e arquivos danificados.
document_extraction_fixture_pack.zip · 18.9 KB
Pacote de fixtures para extracao de imagens
Pacote com fixtures reais de PNG, JPEG, TIFF, PDF e TXT para OCR, extracao de texto e captura documental.
image_extraction_fixture_pack.zip · 382.3 KB
Matrizes de fixtures
Matriz de fixtures para extracao PDF
Use a matriz PDF para escolher entre fixtures ricos em texto, layout fixo, tipo formulario ou danificados em pipelines de preview e extracao.
Matriz de fixtures TXT para codificacao
Escolha fixtures TXT para testes basicos, deteccao de codificacao, finais de linha, stress de linha longa e validacao de texto.
Fixtures sugeridos
| Nome do arquivo | Formato | Tamanho | Acoes |
|---|---|---|---|
| pdf_invoice_layout_sample.pdf | 774 B | ||
| pdf_scan_like_image_sample.pdf | 3.7 KB | ||
| pdf_ocr_noise_sample.pdf | 7.9 KB | ||
| pdf_multi_column_report_sample.pdf | 3.3 KB | ||
| pdf_password_protected_sample.pdf | 3.2 KB | ||
| txt_utf8_multilingual_sample.txt | TXT | 94 B | |
| txt_utf16le_sample.txt | TXT | 176 B |
Paginas de estrategia relacionadas
Guias de melhor formato
Guias por caso de uso
Guias de conversao
Comparacoes lado a lado