PDF use case

Arquivo de amostra PDF para OCR e extracao de texto

Valide OCR, extracao de texto e parsing sensivel ao layout com PDF de texto, escaneados e documentos com ruido.

3.7 KB Manifesto JSON SHA256
Starter file

Download

pdf_scan_like_image_sample.pdf

3.7 KB application/pdf SHA256 22a2cb26d64c...
Checklist

Testing Steps

  1. Compare o texto extraido entre controles PDF escaneados, com ruido OCR e texto limpo.
  2. Revise como tabelas, colunas multiplas e relatorios com varias paginas afetam a ordem do texto e a extracao.
  3. Verifique mensagens de fallback quando a qualidade de extracao cair em PDFs com muito conteudo de imagem.
Companion fixtures

Related Variants

pdf_ocr_noise_sample.pdf

7.9 KB · application/pdf

Baixar

pdf_single_page_text_sample.pdf

725 B · application/pdf

Baixar

pdf_multi_column_report_sample.pdf

3.3 KB · application/pdf

Baixar

pdf_table_report_sample.pdf

716 B · application/pdf

Baixar
Next steps

Related Pages