Matriz de fixtures para extraccion PDF
Usa la matriz PDF para elegir entre fixtures con mucho texto, maquetacion fija, formularios y archivos danados en pipelines de vista previa y extraccion.
Como usar esta matriz
- Cubre PDF de una pagina, multipagina, maquetacion compleja y archivos danados.
- Pensada para vista previa, extraccion de texto, mapeo de campos y errores de parser.
- Util para facturas, informes y flujos documentales donde la maquetacion importa.
Abrir biblioteca principal
Esta matriz esta vinculada a la biblioteca de PDF y a su manifiesto.
Filas de fixtures
| Variante | Perfil | Foco de prueba | Archivo | Tamano | Descargar |
|---|---|---|---|---|---|
|
Single-Page Text
Best default sanity check for renderers and PDF text extraction.
|
Valid baseline | Simple rendering and extraction | pdf_single_page_text_sample.pdf |
725 B | Descargar |
|
Multi-Page Report
Useful for multi-page previews, extraction batching, and document splitting.
|
Valid document | Pagination and page count | pdf_multi_page_report_sample.pdf |
1.3 KB | Descargar |
|
Invoice Layout
Targets invoice parsers and structured extraction pipelines.
|
Layout-driven fixture | Field extraction from fixed layouts | pdf_invoice_layout_sample.pdf |
774 B | Descargar |
|
Scan-Style PDF
Useful for pipelines that distinguish text PDFs from scan-like pages.
|
Image-heavy fixture | OCR-style extraction | pdf_scan_like_image_sample.pdf |
3.7 KB | Descargar |
|
OCR-Noise PDF
Targets extraction robustness when scan quality or contrast is poor.
|
Image-heavy edge | Noisy OCR fallback | pdf_ocr_noise_sample.pdf |
7.9 KB | Descargar |
|
Form-Like PDF
Useful for OCR-adjacent field mapping and fixed-position extraction logic.
|
Structured layout | Form field and box detection | pdf_form_like_sample.pdf |
773 B | Descargar |
|
Landscape Report
Targets preview rotation, table extraction, and page-fit UI handling.
|
Orientation variant | Wide-table rendering | pdf_landscape_report_sample.pdf |
743 B | Descargar |
|
Multi-Column Report
Useful for column segmentation and reading-order extraction tests.
|
Layout complexity | Column-aware reading order | pdf_multi_column_report_sample.pdf |
3.3 KB | Descargar |
|
Password-Protected PDF
Use password `samplefile` for protected-document handling and UX checks.
|
Protected document | Unlock flow and restricted parsing | pdf_password_protected_sample.pdf |
3.2 KB | Descargar |
|
Truncated PDF
Good for parser failures, preview fallback, and corrupt-download handling.
|
Broken fixture | Damaged file recovery | pdf_truncated_edge_case_sample.pdf |
701 B | Descargar |
Packs relacionados
Paquete de fixtures para extraccion de documentos
Paquete de fixtures PDF y TXT reales para extraccion, parseo de maquetacion, validacion tipo OCR, manejo de documentos protegidos y archivos danados.
document_extraction_fixture_pack.zip · 18.9 KB
Flujos relacionados
Fixtures para validacion de cargas
Archivos de muestra y paquetes para comprobar limites de carga, validacion MIME, recepcion de archivos ZIP y flujos con contenido mixto.
Abrir flujoFixtures para regresion de parsers
Fixtures estables y de casos limite para parsers de documentos, datos y archivos comprimidos que requieren cobertura de regresion determinista.
Abrir flujoFixtures para extraccion de documentos
Fixtures de PDF y TXT para parseo de maquetacion, extraccion tipo OCR, manejo de documentos protegidos y normalizacion de texto.
Abrir flujoPaginas de estrategia relacionadas
Guias del mejor formato
Recomendaciones por caso de uso
Como convertir
Comparaciones