Matrice de fixtures pour l'extraction PDF
Utilisez la matrice PDF pour choisir entre des fixtures riches en texte, a mise en page fixe, de type formulaire ou endommages dans des pipelines d'apercu et d'extraction.
Comment utiliser cette matrice
- Couvre PDF une page, multi-pages, a mise en page complexe et fichiers endommages.
- Concue pour apercu, extraction de texte, mappage de champs et chemins d'erreur de parseurs.
- Utile pour factures, rapports et flux documentaires ou la mise en page compte.
Ouvrir la bibliotheque principale
Cette matrice est rattachee a la bibliotheque PDF et a son manifeste.
Lignes de fixtures
| Variante | Profil | Objectif de test | Fichier | Taille | Telecharger |
|---|---|---|---|---|---|
|
Single-Page Text
Best default sanity check for renderers and PDF text extraction.
|
Valid baseline | Simple rendering and extraction | pdf_single_page_text_sample.pdf |
725 B | Telecharger |
|
Multi-Page Report
Useful for multi-page previews, extraction batching, and document splitting.
|
Valid document | Pagination and page count | pdf_multi_page_report_sample.pdf |
1.3 KB | Telecharger |
|
Invoice Layout
Targets invoice parsers and structured extraction pipelines.
|
Layout-driven fixture | Field extraction from fixed layouts | pdf_invoice_layout_sample.pdf |
774 B | Telecharger |
|
Scan-Style PDF
Useful for pipelines that distinguish text PDFs from scan-like pages.
|
Image-heavy fixture | OCR-style extraction | pdf_scan_like_image_sample.pdf |
3.7 KB | Telecharger |
|
OCR-Noise PDF
Targets extraction robustness when scan quality or contrast is poor.
|
Image-heavy edge | Noisy OCR fallback | pdf_ocr_noise_sample.pdf |
7.9 KB | Telecharger |
|
Form-Like PDF
Useful for OCR-adjacent field mapping and fixed-position extraction logic.
|
Structured layout | Form field and box detection | pdf_form_like_sample.pdf |
773 B | Telecharger |
|
Landscape Report
Targets preview rotation, table extraction, and page-fit UI handling.
|
Orientation variant | Wide-table rendering | pdf_landscape_report_sample.pdf |
743 B | Telecharger |
|
Multi-Column Report
Useful for column segmentation and reading-order extraction tests.
|
Layout complexity | Column-aware reading order | pdf_multi_column_report_sample.pdf |
3.3 KB | Telecharger |
|
Password-Protected PDF
Use password `samplefile` for protected-document handling and UX checks.
|
Protected document | Unlock flow and restricted parsing | pdf_password_protected_sample.pdf |
3.2 KB | Telecharger |
|
Truncated PDF
Good for parser failures, preview fallback, and corrupt-download handling.
|
Broken fixture | Damaged file recovery | pdf_truncated_edge_case_sample.pdf |
701 B | Telecharger |
Packs lies
Pack de fixtures pour l'extraction de documents
Pack de fixtures PDF et TXT reelles pour l'extraction, l'analyse de mise en page, la validation de type OCR, la gestion des documents proteges et des fichiers endommages.
document_extraction_fixture_pack.zip · 18.9 KB
Flux lies
Fixtures pour la validation des televersements
Fichiers de test et packs pour verifier les limites de televersement, la validation MIME, la reception d'archives ZIP et les flux a contenu mixte.
Ouvrir le fluxFixtures de regression de parseurs
Fixtures stables et cas limites pour parseurs de documents, de donnees et d'archives necessitant une couverture de regression deterministe.
Ouvrir le fluxFixtures pour l'extraction de documents
Fixtures PDF et TXT pour l'analyse de mise en page, l'extraction de type OCR, la gestion des documents proteges et la normalisation de texte.
Ouvrir le fluxPages de strategie liees
Guides du meilleur format
Recommandations par cas d'usage
Comment convertir
Comparaisons