Donut：无需OCR的端到端文档理解Transformer模型

版权申诉

108 浏览量更新于2024-10-03 收藏 62.73MB ZIP 举报

资源摘要信息:"Donut是文档理解领域的一项新技术，其核心为OCR-free端到端Transformer模型。Donut的主要优点在于它不依赖于现成的OCR引擎或API，就能够实现文档理解任务中的视觉文档分类或信息提取（也称为文档解析）等操作，并且在这方面展示出领先的技术性能。此外，Donut项目还包括SynthDoG（Synthetic Document Generator），这是一个用于模型预训练的合成文档生成器，它使得模型预训练过程更加灵活。" 知识点一：OCR技术与OCR-free OCR（Optical Character Recognition，光学字符识别）是一种将图像中的文字转换为机器编码文本的技术。它广泛应用于文档数字化、票据自动处理等领域。然而，传统的OCR方法通常需要复杂的预处理和后处理步骤，且对图像质量有一定的要求，容易受到字体、布局复杂性的影响。 OCR-free指的是在文档理解任务中不使用OCR技术。这通常意味着模型需要直接从原始图像中提取文本信息，这要求模型拥有更高级的特征提取能力和理解能力，以处理不同格式和布局的文档。知识点二：Transformer模型 Transformer模型是在自然语言处理（NLP）领域中提出的一种架构，它在处理序列数据时表现出了极其强大的能力。Transformer模型通过自注意力（self-attention）机制让序列中的每个元素都可以直接关注序列中的其他所有元素，以此捕捉长距离依赖关系。 Donut采用了Transformer架构，这使得模型能够处理复杂的文档结构并从中抽取信息。Transformer模型的自注意力机制能够帮助模型在没有OCR辅助的情况下，直接对图像中的文字进行理解。知识点三：端到端学习端到端学习（End-to-End Learning）是一种机器学习范式，它直接从输入数据映射到输出结果，中间不需要人工设计的特征提取步骤。在文档理解任务中，端到端学习意味着模型从原始图像开始，一直学习到最终的分类或信息提取结果。 Donut作为一个OCR-free端到端模型，能够从图像直接到分类或信息提取，无需借助OCR技术来提取文字。这大大简化了处理流程，并且可能在某些情况下提高准确率和效率。知识点四：视觉文档理解任务视觉文档理解任务指的是通过计算机视觉和机器学习技术来理解文档内容。这通常涉及到文档图像的预处理、布局分析、文字识别、信息抽取和理解等多个环节。 Donut在视觉文档理解任务中表现突出，特别是在视觉文档分类和信息提取（文档解析）方面。这意味着Donut能够处理包括合同、发票、表格等多种格式的文档，并从中抽取和理解关键信息。知识点五：合成文档生成器（SynthDoG） SynthDoG是一个合成文档生成器，用于帮助模型进行预训练。合成文档是指通过计算机生成的虚拟文档，它们可以模拟真实世界中的各种文档格式和内容。这样的工具对于模型预训练非常有用，因为它们可以生成大量带有标注数据的训练样本。 SynthDoG的使用使得模型在预训练阶段不需要依赖大量真实世界的数据，能够有效地进行训练。此外，合成数据的使用还可以提高模型的泛化能力，因为它提供了比真实数据更为多样和复杂的训练场景。知识点六：Transformer架构在文档理解中的应用 Transformer架构在文档理解任务中的应用，主要是通过其自注意力机制来处理文档内容。由于文档通常包含复杂的布局和多种元素，如标题、正文、图片和表格等，传统的序列模型可能难以捕捉这些元素之间的关系。 Transformer模型的并行化处理能力和全局上下文捕捉能力，使它非常适合处理文档数据。Donut正是利用了Transformer的这些优点，在没有OCR辅助的情况下，依然能够有效地理解文档内容。通过上述知识点的介绍，可以看出Donut项目在文档理解领域代表了一种新的技术趋势，即利用先进的深度学习模型直接从文档图像中提取信息，同时减少对OCR技术的依赖，从而提高文档理解的准确性和效率。

收起资源包目录

Official Implementation of OCR-free Document Understanding Trans （66个子文件）

cream_124.jpg 2.14MB

train_zhtrainticket.yaml 578B

kowiki.txt 1.01MB

template.py 5KB

paper_3.jpg 2.4MB

eagle_110.jpg 216KB

LICENSE 1KB

paper_2.jpg 1.8MB

train_rvlcdip.yaml 659B

content.py 3KB

NotoSerifSC-Regular.otf 10.7MB

README.md 2KB

overview.png 669KB

config_zh.yaml 2KB

textbox.py 1KB

_version.py 87B

sample_image_cord_test_receipt_00004.png 1.57MB

NotoSans-Regular.ttf 390KB

document.py 2KB

__init__.py 169B

paper_6.jpg 1.62MB

README.md 18KB

config_ko.yaml 2KB

NotoSerifJP-Regular.otf 5.88MB

NotoSansKR-Regular.otf 4.52MB

config_ja.yaml 2KB

crater_141.jpg 1.73MB

app.py 2KB

grid.py 2KB

model.py 25KB

__init__.py 323B

jawiki.txt 1.66MB

sample_image_donut_document.png 739KB

train.py 6KB

bedroom_83.jpg 70KB

farm_25.jpg 688KB

.gitignore 2KB

.gitkeep 1B

train_docvqa.yaml 647B

screenshot_gradio_demos.png 1.33MB

hiking_18.jpg 503KB

paper_1.jpg 2.27MB

test.py 3KB

grid_stack.py 2KB

train_cord.yaml 940B

sample_synthdog.png 1.37MB

lightning_module.py 8KB

paper_4.jpg 1.83MB

__init__.py 313B

paper_5.jpg 3.2MB

NotoSerif-Regular.ttf 366KB

setup.py 2KB

.gitkeep 1B

enwiki.txt 2.54MB

coffee_18.jpeg 1.7MB

NotoSansSC-Regular.otf 8.09MB

bob+dylan_83.jpg 409KB

NotoSerifKR-Regular.otf 7.09MB

NotoSansJP-Regular.otf 4.34MB

paper.py 391B

util.py 12KB

config_en.yaml 2KB

coffee_122.jpg 57KB

zhwiki.txt 1.46MB

background.py 608B

NOTICE 9KB

共 66 条

UnknownToKnown

粉丝: 1w+
资源: 773

Donut：无需OCR的端到端文档理解Transformer模型

Java开发案例-springboot-49-整合Easy-Trans搞定数据翻译-源代码+文档.rar

Raman Spectroscopy a Promising Technique for Quantification and Monitoring Heat-induced Formation of Trans Fatty Acids in Oil

Truncated Painleve expansion and Auto-B腶cklund trans- formation for a kind of generalized variable-coffcient Kadomtsev-Petviashvili equations

Synthesis, Structure and Norbornene PolymerizationActivity of a Novel Palladium(Ⅱ) Complex withN,N'-bis(2-benzoyl-3-oxobutane)-trans-,2-diaminocyclohexane Ligand (2014年)

vue-i18n-trans-loader:一个配合i18n全自动生成语言库并翻译的loader

bin-dec-hex-trans.py

cc1200-中英文手册，CC1200 低功率、 高性能射频 (RF) 收发器，Sub-1 GHz RF Trans类比lora

Lewis-acids assisted living ROMP of trans-2,3-dicyanonorborn-5-ene

A 3D metal-organic framework formed through hydrogen bonding interactions with cobalt (Ⅱ) assembled from mixed organic ligands pyridine-2,4-dicarboxylic acid and trans-1,2-bis(4-pyridyl)ethylene

ocr-translator：[alpha版本] Python后台脚本的工作方式类似于剪切工具，可“获取”和“翻译”单词而无需转录文本

最新资源

cc1200-中英文手册，CC1200 低功率、高性能射频 (RF) 收发器，Sub-1 GHz RF Trans类比lora