Fixture-Matrix fuer PDF-Extraktion

Nutzen Sie die PDF-Matrix, um zwischen textreichen, fixed-layout-, formularartigen oder beschaedigten Fixtures in Preview- und Extraktions-Pipelines zu waehlen.

So verwenden Sie diese Matrix

  • Deckt einseitige, mehrseitige, komplex layoutete und beschaedigte PDFs ab.
  • Konzipiert fuer Preview, Textextraktion, Feld-Mapping und Parser-Fehlerpfade.
  • Nuetzlich fuer Rechnungen, Berichte und Dokument-Workflows, bei denen das Layout wichtig ist.

Primaerbibliothek oeffnen

Diese Matrix ist an die PDF-Bibliothek und deren Manifest gebunden.

Fixture-Zeilen

Variante Profil Testfokus Datei Groesse Herunterladen
Single-Page Text
Best default sanity check for renderers and PDF text extraction.
Valid baseline Simple rendering and extraction pdf_single_page_text_sample.pdf 725 B Herunterladen
Multi-Page Report
Useful for multi-page previews, extraction batching, and document splitting.
Valid document Pagination and page count pdf_multi_page_report_sample.pdf 1.3 KB Herunterladen
Invoice Layout
Targets invoice parsers and structured extraction pipelines.
Layout-driven fixture Field extraction from fixed layouts pdf_invoice_layout_sample.pdf 774 B Herunterladen
Scan-Style PDF
Useful for pipelines that distinguish text PDFs from scan-like pages.
Image-heavy fixture OCR-style extraction pdf_scan_like_image_sample.pdf 3.7 KB Herunterladen
OCR-Noise PDF
Targets extraction robustness when scan quality or contrast is poor.
Image-heavy edge Noisy OCR fallback pdf_ocr_noise_sample.pdf 7.9 KB Herunterladen
Form-Like PDF
Useful for OCR-adjacent field mapping and fixed-position extraction logic.
Structured layout Form field and box detection pdf_form_like_sample.pdf 773 B Herunterladen
Landscape Report
Targets preview rotation, table extraction, and page-fit UI handling.
Orientation variant Wide-table rendering pdf_landscape_report_sample.pdf 743 B Herunterladen
Multi-Column Report
Useful for column segmentation and reading-order extraction tests.
Layout complexity Column-aware reading order pdf_multi_column_report_sample.pdf 3.3 KB Herunterladen
Password-Protected PDF
Use password `samplefile` for protected-document handling and UX checks.
Protected document Unlock flow and restricted parsing pdf_password_protected_sample.pdf 3.2 KB Herunterladen
Truncated PDF
Good for parser failures, preview fallback, and corrupt-download handling.
Broken fixture Damaged file recovery pdf_truncated_edge_case_sample.pdf 701 B Herunterladen

Verwandte Pakete

Dokumentenextraktions-Fixture-Paket

Paket mit echten PDF- und TXT-Fixtures fuer Extraktion, Layout-Analyse, OCR-aehnliche Validierung, geschuetzte Dokumente und beschaedigte Dateien.

document_extraction_fixture_pack.zip · 18.9 KB

Verwandte Workflows

Fixtures fuer Upload-Validierung

Testdateien und Pakete zur Pruefung von Upload-Limits, MIME-Validierung, ZIP-Empfang und Workflows mit gemischtem Inhalt.

Workflow oeffnen

Fixtures fuer Parser-Regression

Stabile Fixtures und Grenzfaelle fuer Dokument-, Daten- und Archiv-Parser, die deterministische Regressionsabdeckung benoetigen.

Workflow oeffnen

Fixtures fuer Dokumentenextraktion

PDF- und TXT-Fixtures fuer Layout-Analyse, OCR-aehnliche Extraktion, Umgang mit geschuetzten Dokumenten und Textnormalisierung.

Workflow oeffnen