Matriz de fixtures para extraccion PDF

Usa la matriz PDF para elegir entre fixtures con mucho texto, maquetacion fija, formularios y archivos danados en pipelines de vista previa y extraccion.

Como usar esta matriz

  • Cubre PDF de una pagina, multipagina, maquetacion compleja y archivos danados.
  • Pensada para vista previa, extraccion de texto, mapeo de campos y errores de parser.
  • Util para facturas, informes y flujos documentales donde la maquetacion importa.

Abrir biblioteca principal

Esta matriz esta vinculada a la biblioteca de PDF y a su manifiesto.

Filas de fixtures

Variante Perfil Foco de prueba Archivo Tamano Descargar
Single-Page Text
Best default sanity check for renderers and PDF text extraction.
Valid baseline Simple rendering and extraction pdf_single_page_text_sample.pdf 725 B Descargar
Multi-Page Report
Useful for multi-page previews, extraction batching, and document splitting.
Valid document Pagination and page count pdf_multi_page_report_sample.pdf 1.3 KB Descargar
Invoice Layout
Targets invoice parsers and structured extraction pipelines.
Layout-driven fixture Field extraction from fixed layouts pdf_invoice_layout_sample.pdf 774 B Descargar
Scan-Style PDF
Useful for pipelines that distinguish text PDFs from scan-like pages.
Image-heavy fixture OCR-style extraction pdf_scan_like_image_sample.pdf 3.7 KB Descargar
OCR-Noise PDF
Targets extraction robustness when scan quality or contrast is poor.
Image-heavy edge Noisy OCR fallback pdf_ocr_noise_sample.pdf 7.9 KB Descargar
Form-Like PDF
Useful for OCR-adjacent field mapping and fixed-position extraction logic.
Structured layout Form field and box detection pdf_form_like_sample.pdf 773 B Descargar
Landscape Report
Targets preview rotation, table extraction, and page-fit UI handling.
Orientation variant Wide-table rendering pdf_landscape_report_sample.pdf 743 B Descargar
Multi-Column Report
Useful for column segmentation and reading-order extraction tests.
Layout complexity Column-aware reading order pdf_multi_column_report_sample.pdf 3.3 KB Descargar
Password-Protected PDF
Use password `samplefile` for protected-document handling and UX checks.
Protected document Unlock flow and restricted parsing pdf_password_protected_sample.pdf 3.2 KB Descargar
Truncated PDF
Good for parser failures, preview fallback, and corrupt-download handling.
Broken fixture Damaged file recovery pdf_truncated_edge_case_sample.pdf 701 B Descargar

Packs relacionados

Paquete de fixtures para extraccion de documentos

Paquete de fixtures PDF y TXT reales para extraccion, parseo de maquetacion, validacion tipo OCR, manejo de documentos protegidos y archivos danados.

document_extraction_fixture_pack.zip · 18.9 KB

Flujos relacionados

Fixtures para validacion de cargas

Archivos de muestra y paquetes para comprobar limites de carga, validacion MIME, recepcion de archivos ZIP y flujos con contenido mixto.

Abrir flujo

Fixtures para regresion de parsers

Fixtures estables y de casos limite para parsers de documentos, datos y archivos comprimidos que requieren cobertura de regresion determinista.

Abrir flujo

Fixtures para extraccion de documentos

Fixtures de PDF y TXT para parseo de maquetacion, extraccion tipo OCR, manejo de documentos protegidos y normalizacion de texto.

Abrir flujo