Dokumentenextraktions-Fixture-Paket

Paket mit echten PDF- und TXT-Fixtures fuer Extraktion, Layout-Analyse, OCR-aehnliche Validierung, geschuetzte Dokumente und beschaedigte Dateien.

Paket herunterladen

document_extraction_fixture_pack.zip · 18.9 KB

Am besten geeignet fuer

  • Feldextraktion und Fixed-Layout-Analyse auf sauberen, gescannten und geschuetzten PDFs.
  • Textextraktion und Kodierungsvalidierung mit UTF-8-, UTF-16- und minimalen TXT-Dateien.
  • Reproduzierbares Setup fuer OCR, Parser und Dokument-QA.

Enthaltene Fixtures

Dateiname Format Groesse Herunterladen
pdf_invoice_layout_sample.pdf PDF 774 B Herunterladen
pdf_form_like_sample.pdf PDF 773 B Herunterladen
pdf_scan_like_image_sample.pdf PDF 3.7 KB Herunterladen
pdf_ocr_noise_sample.pdf PDF 7.9 KB Herunterladen
pdf_multi_column_report_sample.pdf PDF 3.3 KB Herunterladen
pdf_password_protected_sample.pdf PDF 3.2 KB Herunterladen
pdf_truncated_edge_case_sample.pdf PDF 701 B Herunterladen
txt_utf8_multilingual_sample.txt TXT 94 B Herunterladen
txt_utf16le_sample.txt TXT 176 B Herunterladen
txt_minimal_readme_sample.txt TXT 100 B Herunterladen

Fixture-Matrix

Verwenden Sie die kuratierte PDF-Matrix, um von diesem Paket zu den exakten Einzel-Fixture-Varianten dahinter zu wechseln.

Primaerbibliothek oeffnen

Dieses Paket ist an die PDF-Beispielbibliothek gebunden und funktioniert am besten zusammen mit einzelnen Fixture-Downloads.

PDF-Bibliothek oeffnen