Paquete de fixtures para extraccion de documentos

Paquete de fixtures PDF y TXT reales para extraccion, parseo de maquetacion, validacion tipo OCR, manejo de documentos protegidos y archivos danados.

Descargar el pack

document_extraction_fixture_pack.zip · 18.9 KB

Ideal para

  • Extraccion de campos y parseo de maquetacion fija en PDF limpios, escaneados y protegidos.
  • Extraccion de texto y validacion de codificacion con TXT en UTF-8, UTF-16 y archivos minimos.
  • Configuracion repetible para OCR, parsers y flujos de QA de extraccion documental.

Fixtures incluidos

Nombre de archivo Formato Tamano Descargar
pdf_invoice_layout_sample.pdf PDF 774 B Descargar
pdf_form_like_sample.pdf PDF 773 B Descargar
pdf_scan_like_image_sample.pdf PDF 3.7 KB Descargar
pdf_ocr_noise_sample.pdf PDF 7.9 KB Descargar
pdf_multi_column_report_sample.pdf PDF 3.3 KB Descargar
pdf_password_protected_sample.pdf PDF 3.2 KB Descargar
pdf_truncated_edge_case_sample.pdf PDF 701 B Descargar
txt_utf8_multilingual_sample.txt TXT 94 B Descargar
txt_utf16le_sample.txt TXT 176 B Descargar
txt_minimal_readme_sample.txt TXT 100 B Descargar

Matriz de fixtures

Usa la matriz curada de PDF para pasar de este pack a las variantes exactas de fixtures individuales.

Abrir biblioteca principal

Este pack esta anclado a la biblioteca de muestras de PDF y funciona mejor junto a descargas individuales.

Abrir biblioteca de PDF