Macierz fixtures do ekstrakcji PDF

Uzyj macierzy PDF, aby wybierac pomiedzy fixture bogatymi w tekst, o stalych ukladach, formularzami i plikami uszkodzonymi.

How to Use This Matrix

  • Obejmuje jednosronicowe i wielostronicowe PDF, zlozone uklady oraz pliki uszkodzone.
  • Przeznaczona do podgladu, ekstrakcji tekstu, mapowania pol i sciezek bledu parsera.
  • Przydatna w workflow faktur, raportow i dokumentow, gdzie uklad ma znaczenie.

Open Primary Library

This matrix is anchored to the PDF library page and its manifest.

Fixture Rows

Variant Profile Test Focus File Size Pobierz
Single-Page Text
Best default sanity check for renderers and PDF text extraction.
Valid baseline Simple rendering and extraction pdf_single_page_text_sample.pdf 725 B Pobierz
Multi-Page Report
Useful for multi-page previews, extraction batching, and document splitting.
Valid document Pagination and page count pdf_multi_page_report_sample.pdf 1.3 KB Pobierz
Invoice Layout
Targets invoice parsers and structured extraction pipelines.
Layout-driven fixture Field extraction from fixed layouts pdf_invoice_layout_sample.pdf 774 B Pobierz
Scan-Style PDF
Useful for pipelines that distinguish text PDFs from scan-like pages.
Image-heavy fixture OCR-style extraction pdf_scan_like_image_sample.pdf 3.7 KB Pobierz
OCR-Noise PDF
Targets extraction robustness when scan quality or contrast is poor.
Image-heavy edge Noisy OCR fallback pdf_ocr_noise_sample.pdf 7.9 KB Pobierz
Form-Like PDF
Useful for OCR-adjacent field mapping and fixed-position extraction logic.
Structured layout Form field and box detection pdf_form_like_sample.pdf 773 B Pobierz
Landscape Report
Targets preview rotation, table extraction, and page-fit UI handling.
Orientation variant Wide-table rendering pdf_landscape_report_sample.pdf 743 B Pobierz
Multi-Column Report
Useful for column segmentation and reading-order extraction tests.
Layout complexity Column-aware reading order pdf_multi_column_report_sample.pdf 3.3 KB Pobierz
Password-Protected PDF
Use password `samplefile` for protected-document handling and UX checks.
Protected document Unlock flow and restricted parsing pdf_password_protected_sample.pdf 3.2 KB Pobierz
Truncated PDF
Good for parser failures, preview fallback, and corrupt-download handling.
Broken fixture Damaged file recovery pdf_truncated_edge_case_sample.pdf 701 B Pobierz

Related Packs

Pakiet fixtures do ekstrakcji dokumentow

Pakiet realnych fixture PDF i TXT do ekstrakcji, analizy ukladu, walidacji OCR, dokumentow chronionych i uszkodzonych plikow.

document_extraction_fixture_pack.zip · 18.9 KB

Related Workflows

Fixture do walidacji uploadu

Pliki testowe i pakiety do sprawdzania limitow uploadu, walidacji MIME, odbioru ZIP i workflow z mieszana zawartoscia.

Otworz workflow

Fixture do regresji parsera

Stabilne fixture i przypadki brzegowe dla parserow dokumentow, danych i archiwow wymagajacych deterministycznego pokrycia regresji.

Otworz workflow

Fixture do ekstrakcji dokumentow

Fixture PDF i TXT do analizy ukladu, ekstrakcji w stylu OCR, obslugi dokumentow chronionych i normalizacji tekstu.

Otworz workflow