PDF use case
Arquivo de amostra PDF para OCR e extracao de texto
Valide OCR, extracao de texto e parsing sensivel ao layout com PDF de texto, escaneados e documentos com ruido.
3.7 KB
Manifesto JSON
SHA256
Starter file
Download
pdf_scan_like_image_sample.pdf
Checklist
Testing Steps
- Compare o texto extraido entre controles PDF escaneados, com ruido OCR e texto limpo.
- Revise como tabelas, colunas multiplas e relatorios com varias paginas afetam a ordem do texto e a extracao.
- Verifique mensagens de fallback quando a qualidade de extracao cair em PDFs com muito conteudo de imagem.
Companion fixtures
Related Variants
Next steps