Pakiet fixtures do ekstrakcji dokumentow

Pakiet realnych fixture PDF i TXT do ekstrakcji, analizy ukladu, walidacji OCR, dokumentow chronionych i uszkodzonych plikow.

Download the Pack

document_extraction_fixture_pack.zip · 18.9 KB

Best For

  • Ekstrakcja pol i analiza ukladu na czystych PDF, skanach i dokumentach chronionych.
  • Ekstrakcja tekstu i walidacja kodowania na plikach TXT UTF-8, UTF-16 i minimalistycznych.
  • Powtarzalna konfiguracja dla OCR, parserow i QA dokumentowego.

Included Fixtures

Filename Format Size Pobierz
pdf_invoice_layout_sample.pdf PDF 774 B Pobierz
pdf_form_like_sample.pdf PDF 773 B Pobierz
pdf_scan_like_image_sample.pdf PDF 3.7 KB Pobierz
pdf_ocr_noise_sample.pdf PDF 7.9 KB Pobierz
pdf_multi_column_report_sample.pdf PDF 3.3 KB Pobierz
pdf_password_protected_sample.pdf PDF 3.2 KB Pobierz
pdf_truncated_edge_case_sample.pdf PDF 701 B Pobierz
txt_utf8_multilingual_sample.txt TXT 94 B Pobierz
txt_utf16le_sample.txt TXT 176 B Pobierz
txt_minimal_readme_sample.txt TXT 100 B Pobierz

Macierz fixtures

Use the curated PDF matrix to move from this pack into the exact single-fixture variants behind it.

Open Primary Library

This pack is anchored to the PDF sample library and works best when paired with individual fixture downloads.

Open PDF Library