Fixture do ekstrakcji dokumentow

Fixture PDF i TXT do analizy ukladu, ekstrakcji w stylu OCR, obslugi dokumentow chronionych i normalizacji tekstu.

Why This Workflow Matters

  • Lacz czyste PDF, skany, pliki chronione i uszkodzone dokumenty w jednym zestawie.
  • Paruj przypadki PDF z fixture TXT dla fallbacku plain text i normalizacji.
  • Uzyj pakietu ekstrakcji do powtarzalnych zestawow parsera, OCR i mapowania pol.

Recommended Packs

Pakiet fixtures do ekstrakcji dokumentow

Pakiet realnych fixture PDF i TXT do ekstrakcji, analizy ukladu, walidacji OCR, dokumentow chronionych i uszkodzonych plikow.

document_extraction_fixture_pack.zip · 18.9 KB

Image Extraction Fixture Pack

Bundle of real PNG, JPEG, TIFF, and scan-style PDF fixtures for OCR, scan ingestion, and document-photo extraction workflows.

image_extraction_fixture_pack.zip · 382.3 KB

Macierze fixtures

Macierz fixtures do ekstrakcji PDF

Uzyj macierzy PDF, aby wybierac pomiedzy fixture bogatymi w tekst, o stalych ukladach, formularzami i plikami uszkodzonymi.

TXT Encoding Fixture Matrix

Choose TXT fixtures for smoke tests, encoding detection, newline handling, long-line stress, and text-processing validation.

Suggested Fixtures

Filename Format Size Actions
pdf_invoice_layout_sample.pdf PDF 774 B
pdf_scan_like_image_sample.pdf PDF 3.7 KB
pdf_ocr_noise_sample.pdf PDF 7.9 KB
pdf_multi_column_report_sample.pdf PDF 3.3 KB
pdf_password_protected_sample.pdf PDF 3.2 KB
txt_utf8_multilingual_sample.txt TXT 94 B
txt_utf16le_sample.txt TXT 176 B