Fixtures para extraccion de documentos
Fixtures de PDF y TXT para parseo de maquetacion, extraccion tipo OCR, manejo de documentos protegidos y normalizacion de texto.
Por que importa este flujo de trabajo
- Mezcla PDF limpios, paginas estilo escaneo, archivos protegidos y documentos danados en una sola suite.
- Combina casos de extraccion PDF con fixtures TXT para validar fallback a texto plano y normalizacion.
- Usa el paquete de extraccion para configuraciones repetibles de parser, OCR y mapeo de campos.
Packs recomendados
Paquete de fixtures para extraccion de documentos
Paquete de fixtures PDF y TXT reales para extraccion, parseo de maquetacion, validacion tipo OCR, manejo de documentos protegidos y archivos danados.
document_extraction_fixture_pack.zip · 18.9 KB
Paquete de fixtures para extraccion de imagenes
Paquete con fixtures reales de PNG, JPEG, TIFF, PDF y TXT para OCR, extraccion de texto y captura documental.
image_extraction_fixture_pack.zip · 382.3 KB
Matrices de fixtures
Matriz de fixtures para extraccion PDF
Usa la matriz PDF para elegir entre fixtures con mucho texto, maquetacion fija, formularios y archivos danados en pipelines de vista previa y extraccion.
Matriz de fixtures TXT para codificacion
Elige fixtures TXT para pruebas basicas, deteccion de codificacion, manejo de saltos de linea, estres con lineas largas y validacion de texto.
Fixtures sugeridos
| Nombre de archivo | Formato | Tamano | Acciones |
|---|---|---|---|
| pdf_invoice_layout_sample.pdf | 774 B | ||
| pdf_scan_like_image_sample.pdf | 3.7 KB | ||
| pdf_ocr_noise_sample.pdf | 7.9 KB | ||
| pdf_multi_column_report_sample.pdf | 3.3 KB | ||
| pdf_password_protected_sample.pdf | 3.2 KB | ||
| txt_utf8_multilingual_sample.txt | TXT | 94 B | |
| txt_utf16le_sample.txt | TXT | 176 B |
Paginas de estrategia relacionadas
Guias del mejor formato
Recomendaciones por caso de uso
Como convertir
Comparaciones