Pack de fixtures pour l'extraction de documents

Pack de fixtures PDF et TXT reelles pour l'extraction, l'analyse de mise en page, la validation de type OCR, la gestion des documents proteges et des fichiers endommages.

Telecharger le pack

document_extraction_fixture_pack.zip · 18.9 KB

Ideal pour

  • Extraction de champs et analyse de mise en page fixe sur des PDF propres, scannes et proteges.
  • Extraction de texte et validation d'encodage avec des fichiers TXT UTF-8, UTF-16 et minimaux.
  • Configuration reproductible pour OCR, parseurs et workflows de QA documentaire.

Fixtures inclus

Nom du fichier Format Taille Telecharger
pdf_invoice_layout_sample.pdf PDF 774 B Telecharger
pdf_form_like_sample.pdf PDF 773 B Telecharger
pdf_scan_like_image_sample.pdf PDF 3.7 KB Telecharger
pdf_ocr_noise_sample.pdf PDF 7.9 KB Telecharger
pdf_multi_column_report_sample.pdf PDF 3.3 KB Telecharger
pdf_password_protected_sample.pdf PDF 3.2 KB Telecharger
pdf_truncated_edge_case_sample.pdf PDF 701 B Telecharger
txt_utf8_multilingual_sample.txt TXT 94 B Telecharger
txt_utf16le_sample.txt TXT 176 B Telecharger
txt_minimal_readme_sample.txt TXT 100 B Telecharger

Matrice de fixtures

Utilisez la matrice PDF selectionnee pour passer de ce pack aux variantes unitaires exactes qui le composent.

Ouvrir la bibliotheque principale

Ce pack est rattache a la bibliotheque d'echantillons PDF et fonctionne au mieux avec des telechargements unitaires.

Ouvrir la bibliotheque PDF