Fixtures fuer Dokumentenextraktion

PDF- und TXT-Fixtures fuer Layout-Analyse, OCR-aehnliche Extraktion, Umgang mit geschuetzten Dokumenten und Textnormalisierung.

Warum dieser Workflow wichtig ist

  • Kombinieren Sie saubere PDFs, scan-aehnliche Seiten, geschuetzte Dateien und beschaedigte Dokumente in einer Suite.
  • Verknuepfen Sie PDF-Extraktion mit TXT-Fixtures, um Fallback auf Klartext und Normalisierung zu pruefen.
  • Nutzen Sie das Extraktionspaket fuer reproduzierbare Parser-, OCR- und Feld-Mapping-Setups.

Empfohlene Pakete

Dokumentenextraktions-Fixture-Paket

Paket mit echten PDF- und TXT-Fixtures fuer Extraktion, Layout-Analyse, OCR-aehnliche Validierung, geschuetzte Dokumente und beschaedigte Dateien.

document_extraction_fixture_pack.zip · 18.9 KB

Image Extraction Fixture Pack

Bundle of real PNG, JPEG, TIFF, and scan-style PDF fixtures for OCR, scan ingestion, and document-photo extraction workflows.

image_extraction_fixture_pack.zip · 382.3 KB

Fixture-Matrizen

Fixture-Matrix fuer PDF-Extraktion

Nutzen Sie die PDF-Matrix, um zwischen textreichen, fixed-layout-, formularartigen oder beschaedigten Fixtures in Preview- und Extraktions-Pipelines zu waehlen.

Fixture-Matrix fuer TXT-Kodierung

Waehlen Sie TXT-Fixtures fuer Basistests, Kodierungserkennung, Zeilenenden, Long-Line-Stress und Textvalidierung.

Empfohlene Fixtures

Dateiname Format Groesse Aktionen
pdf_invoice_layout_sample.pdf PDF 774 B
pdf_scan_like_image_sample.pdf PDF 3.7 KB
pdf_ocr_noise_sample.pdf PDF 7.9 KB
pdf_multi_column_report_sample.pdf PDF 3.3 KB
pdf_password_protected_sample.pdf PDF 3.2 KB
txt_utf8_multilingual_sample.txt TXT 94 B
txt_utf16le_sample.txt TXT 176 B