Fixtures pour l'extraction de documents

Fixtures PDF et TXT pour l'analyse de mise en page, l'extraction de type OCR, la gestion des documents proteges et la normalisation de texte.

3 Pourquoi ce flux de travail compte
7 Fichiers
Use workflow pages to move from a job to the exact fixtures, packs, and supporting references.
Pourquoi ce flux de travail compte

About This Workflow

  • Melangez PDF propres, pages de type scan, fichiers proteges et documents endommages dans une seule suite.
  • Associez les cas d'extraction PDF aux fixtures TXT pour valider le repli en texte brut et la normalisation.
  • Utilisez le pack d'extraction pour des configurations reproductibles de parser, OCR et mappage de champs.
Packs recommandes

Fixture Packs

Pack de fixtures pour l'extraction de documents

Pack de fixtures PDF et TXT reelles pour l'extraction, l'analyse de mise en page, la validation de type OCR, la gestion des documents proteges et des fichiers endommages.

document_extraction_fixture_pack.zip · 18.9 KB

Pack de fixtures pour extraction d images

Pack de fixtures PNG, JPEG, TIFF, PDF et TXT reelles pour OCR, extraction de texte et capture documentaire.

image_extraction_fixture_pack.zip · 382.3 KB

Matrices de fixtures

Fixture Matrices

Matrice de fixtures pour l'extraction PDF

Utilisez la matrice PDF pour choisir entre des fixtures riches en texte, a mise en page fixe, de type formulaire ou endommages dans des pipelines d'apercu et d'extraction.

Matrice de fixtures TXT pour l'encodage

Choisissez des fixtures TXT pour des tests basiques, la detection d'encodage, la gestion des sauts de ligne, le stress sur lignes longues et la validation de texte.

Fixtures suggeres

Files

Nom du fichier Format Taille Actions
pdf_invoice_layout_sample.pdf
.pdf SHA256 45c10f35ba18...
PDF 774 B
pdf_scan_like_image_sample.pdf
.pdf SHA256 22a2cb26d64c...
PDF 3.7 KB
pdf_ocr_noise_sample.pdf
.pdf SHA256 19097c94fe1a...
PDF 7.9 KB
pdf_multi_column_report_sample.pdf
.pdf SHA256 6c5d36e07e3d...
PDF 3.3 KB
pdf_password_protected_sample.pdf
.pdf SHA256 37f22291ff8b...
PDF 3.2 KB
txt_utf8_multilingual_sample.txt
.txt SHA256 1e219cd0bddf...
TXT 94 B
txt_utf16le_sample.txt
.txt SHA256 9033cba7c418...
TXT 176 B
Pages de strategie liees

Related Guides