Matrice de fixtures pour l'extraction PDF

Utilisez la matrice PDF pour choisir entre des fixtures riches en texte, a mise en page fixe, de type formulaire ou endommages dans des pipelines d'apercu et d'extraction.

Comment utiliser cette matrice

  • Couvre PDF une page, multi-pages, a mise en page complexe et fichiers endommages.
  • Concue pour apercu, extraction de texte, mappage de champs et chemins d'erreur de parseurs.
  • Utile pour factures, rapports et flux documentaires ou la mise en page compte.

Ouvrir la bibliotheque principale

Cette matrice est rattachee a la bibliotheque PDF et a son manifeste.

Lignes de fixtures

Variante Profil Objectif de test Fichier Taille Telecharger
Single-Page Text
Best default sanity check for renderers and PDF text extraction.
Valid baseline Simple rendering and extraction pdf_single_page_text_sample.pdf 725 B Telecharger
Multi-Page Report
Useful for multi-page previews, extraction batching, and document splitting.
Valid document Pagination and page count pdf_multi_page_report_sample.pdf 1.3 KB Telecharger
Invoice Layout
Targets invoice parsers and structured extraction pipelines.
Layout-driven fixture Field extraction from fixed layouts pdf_invoice_layout_sample.pdf 774 B Telecharger
Scan-Style PDF
Useful for pipelines that distinguish text PDFs from scan-like pages.
Image-heavy fixture OCR-style extraction pdf_scan_like_image_sample.pdf 3.7 KB Telecharger
OCR-Noise PDF
Targets extraction robustness when scan quality or contrast is poor.
Image-heavy edge Noisy OCR fallback pdf_ocr_noise_sample.pdf 7.9 KB Telecharger
Form-Like PDF
Useful for OCR-adjacent field mapping and fixed-position extraction logic.
Structured layout Form field and box detection pdf_form_like_sample.pdf 773 B Telecharger
Landscape Report
Targets preview rotation, table extraction, and page-fit UI handling.
Orientation variant Wide-table rendering pdf_landscape_report_sample.pdf 743 B Telecharger
Multi-Column Report
Useful for column segmentation and reading-order extraction tests.
Layout complexity Column-aware reading order pdf_multi_column_report_sample.pdf 3.3 KB Telecharger
Password-Protected PDF
Use password `samplefile` for protected-document handling and UX checks.
Protected document Unlock flow and restricted parsing pdf_password_protected_sample.pdf 3.2 KB Telecharger
Truncated PDF
Good for parser failures, preview fallback, and corrupt-download handling.
Broken fixture Damaged file recovery pdf_truncated_edge_case_sample.pdf 701 B Telecharger

Packs lies

Pack de fixtures pour l'extraction de documents

Pack de fixtures PDF et TXT reelles pour l'extraction, l'analyse de mise en page, la validation de type OCR, la gestion des documents proteges et des fichiers endommages.

document_extraction_fixture_pack.zip · 18.9 KB

Flux lies

Fixtures pour la validation des televersements

Fichiers de test et packs pour verifier les limites de televersement, la validation MIME, la reception d'archives ZIP et les flux a contenu mixte.

Ouvrir le flux

Fixtures de regression de parseurs

Fixtures stables et cas limites pour parseurs de documents, de donnees et d'archives necessitant une couverture de regression deterministe.

Ouvrir le flux

Fixtures pour l'extraction de documents

Fixtures PDF et TXT pour l'analyse de mise en page, l'extraction de type OCR, la gestion des documents proteges et la normalisation de texte.

Ouvrir le flux