Matrice de fixtures pour l'extraction PDF

Utilisez la matrice PDF pour choisir entre des fixtures riches en texte, a mise en page fixe, de type formulaire ou endommages dans des pipelines d'apercu et d'extraction.

10 Lignes de fixtures
3 Comment utiliser cette matrice
Use the matrix when the validation target is a set of variants rather than one canonical sample.
Comment utiliser cette matrice

Coverage

  • Couvre PDF une page, multi-pages, a mise en page complexe et fichiers endommages.
  • Concue pour apercu, extraction de texte, mappage de champs et chemins d'erreur de parseurs.
  • Utile pour factures, rapports et flux documentaires ou la mise en page compte.
Lignes de fixtures

Available Variants

Variante Profil Objectif de test Fichier Taille Telecharger
Single-Page Text
Best default sanity check for renderers and PDF text extraction.
Valid baseline Simple rendering and extraction pdf_single_page_text_sample.pdf
.pdf SHA256 3426bbfe53be...
725 B Telecharger
Multi-Page Report
Useful for multi-page previews, extraction batching, and document splitting.
Valid document Pagination and page count pdf_multi_page_report_sample.pdf
.pdf SHA256 a22424930c98...
1.3 KB Telecharger
Invoice Layout
Targets invoice parsers and structured extraction pipelines.
Layout-driven fixture Field extraction from fixed layouts pdf_invoice_layout_sample.pdf
.pdf SHA256 45c10f35ba18...
774 B Telecharger
Scan-Style PDF
Useful for pipelines that distinguish text PDFs from scan-like pages.
Image-heavy fixture OCR-style extraction pdf_scan_like_image_sample.pdf
.pdf SHA256 22a2cb26d64c...
3.7 KB Telecharger
OCR-Noise PDF
Targets extraction robustness when scan quality or contrast is poor.
Image-heavy edge Noisy OCR fallback pdf_ocr_noise_sample.pdf
.pdf SHA256 19097c94fe1a...
7.9 KB Telecharger
Form-Like PDF
Useful for OCR-adjacent field mapping and fixed-position extraction logic.
Structured layout Form field and box detection pdf_form_like_sample.pdf
.pdf SHA256 6b5c49113a70...
773 B Telecharger
Landscape Report
Targets preview rotation, table extraction, and page-fit UI handling.
Orientation variant Wide-table rendering pdf_landscape_report_sample.pdf
.pdf SHA256 927df1c7e742...
743 B Telecharger
Multi-Column Report
Useful for column segmentation and reading-order extraction tests.
Layout complexity Column-aware reading order pdf_multi_column_report_sample.pdf
.pdf SHA256 6c5d36e07e3d...
3.3 KB Telecharger
Password-Protected PDF
Use password `samplefile` for protected-document handling and UX checks.
Protected document Unlock flow and restricted parsing pdf_password_protected_sample.pdf
.pdf SHA256 37f22291ff8b...
3.2 KB Telecharger
Truncated PDF
Good for parser failures, preview fallback, and corrupt-download handling.
Broken fixture Damaged file recovery pdf_truncated_edge_case_sample.pdf
.pdf SHA256 537de4efe227...
701 B Telecharger
Pages de strategie liees

Related Packs and Workflows

Packs lies

Pack de fixtures pour l'extraction de documents

Pack de fixtures PDF et TXT reelles pour l'extraction, l'analyse de mise en page, la validation de type OCR, la gestion des documents proteges et des fichiers endommages.

document_extraction_fixture_pack.zip · 18.9 KB

Flux lies

Fixtures pour la validation des televersements

Fichiers de test et packs pour verifier les limites de televersement, la validation MIME, la reception d'archives ZIP et les flux a contenu mixte.

Ouvrir le flux

Fixtures de regression de parseurs

Fixtures stables et cas limites pour parseurs de documents, de donnees et d'archives necessitant une couverture de regression deterministe.

Ouvrir le flux

Fixtures pour l'extraction de documents

Fixtures PDF et TXT pour l'analyse de mise en page, l'extraction de type OCR, la gestion des documents proteges et la normalisation de texte.

Ouvrir le flux
Pages de strategie liees

Related Pages

Guides du meilleur format

Recommandations par cas d'usage

Comment convertir

Comparaisons