Fixtures para extraccion de documentos

Fixtures de PDF y TXT para parseo de maquetacion, extraccion tipo OCR, manejo de documentos protegidos y normalizacion de texto.

Por que importa este flujo de trabajo

  • Mezcla PDF limpios, paginas estilo escaneo, archivos protegidos y documentos danados en una sola suite.
  • Combina casos de extraccion PDF con fixtures TXT para validar fallback a texto plano y normalizacion.
  • Usa el paquete de extraccion para configuraciones repetibles de parser, OCR y mapeo de campos.

Packs recomendados

Paquete de fixtures para extraccion de documentos

Paquete de fixtures PDF y TXT reales para extraccion, parseo de maquetacion, validacion tipo OCR, manejo de documentos protegidos y archivos danados.

document_extraction_fixture_pack.zip · 18.9 KB

Image Extraction Fixture Pack

Bundle of real PNG, JPEG, TIFF, and scan-style PDF fixtures for OCR, scan ingestion, and document-photo extraction workflows.

image_extraction_fixture_pack.zip · 382.3 KB

Matrices de fixtures

Matriz de fixtures para extraccion PDF

Usa la matriz PDF para elegir entre fixtures con mucho texto, maquetacion fija, formularios y archivos danados en pipelines de vista previa y extraccion.

Matriz de fixtures TXT para codificacion

Elige fixtures TXT para pruebas basicas, deteccion de codificacion, manejo de saltos de linea, estres con lineas largas y validacion de texto.

Fixtures sugeridos

Nombre de archivo Formato Tamano Acciones
pdf_invoice_layout_sample.pdf PDF 774 B
pdf_scan_like_image_sample.pdf PDF 3.7 KB
pdf_ocr_noise_sample.pdf PDF 7.9 KB
pdf_multi_column_report_sample.pdf PDF 3.3 KB
pdf_password_protected_sample.pdf PDF 3.2 KB
txt_utf8_multilingual_sample.txt TXT 94 B
txt_utf16le_sample.txt TXT 176 B