Pacote de fixtures para extracao de documentos

Pacote de fixtures reais de PDF e TXT para extracao, analise de layout, validacao tipo OCR, tratamento de documentos protegidos e arquivos danificados.

Baixar o pacote

document_extraction_fixture_pack.zip · 18.9 KB

Melhor para

  • Extracao de campos e analise de layout fixo em PDFs limpos, escaneados e protegidos.
  • Extracao de texto e validacao de codificacao com TXT UTF-8, UTF-16 e minimal.
  • Configuracao reproduzivel para OCR, parsers e QA documental.

Fixtures incluidos

Nome do arquivo Formato Tamanho Baixar
pdf_invoice_layout_sample.pdf PDF 774 B Baixar
pdf_form_like_sample.pdf PDF 773 B Baixar
pdf_scan_like_image_sample.pdf PDF 3.7 KB Baixar
pdf_ocr_noise_sample.pdf PDF 7.9 KB Baixar
pdf_multi_column_report_sample.pdf PDF 3.3 KB Baixar
pdf_password_protected_sample.pdf PDF 3.2 KB Baixar
pdf_truncated_edge_case_sample.pdf PDF 701 B Baixar
txt_utf8_multilingual_sample.txt TXT 94 B Baixar
txt_utf16le_sample.txt TXT 176 B Baixar
txt_minimal_readme_sample.txt TXT 100 B Baixar

Matriz de fixtures

Use a matriz curada de PDF para sair deste pacote e chegar nas variantes unitarias exatas por tras dele.

Abrir biblioteca principal

Este pacote esta ancorado na biblioteca de amostras PDF e funciona melhor junto com downloads individuais.

Abrir biblioteca PDF