深入分析PubLayNet数据集与MaskRCNN的结合应用

需积分: 50 182 浏览量更新于2024-12-20 1 收藏 627KB ZIP 举报

资源摘要信息:"PubLayNet: PubLayNet数据集上的MaskRCNN。段落检测，表格检测，图形检测，.." 该标题提到的核心知识点是PubLayNet数据集及其在MaskRCNN模型上的应用。 PubLayNet是一个大型文档图像数据集，它包含了大量布局标注的文档图片。这些文档图片使用边框和多边形来标注文本段落、表格、图形等不同的元素。数据集为文档布局分析领域提供了丰富的实例和基准，这对于训练和评估文档图像识别模型至关重要。文档布局分析的目标是识别文档图像中的不同元素，并理解它们在页面上的排列方式。这通常包括识别文本段落、表格、图形以及其他可能存在的布局组件。准确的文档布局分析能够极大提升文档图像的可读性和可搜索性，这对于数字图书馆、档案管理、学术出版物处理等应用场景尤为重要。 MaskRCNN是一种先进的深度学习模型，它在目标检测和实例分割领域有着广泛应用。MaskRCNN能够在图像中检测并识别多个对象，并提供每个对象的精确掩码（mask），即每个对象的像素级轮廓。在PubLayNet数据集上应用MaskRCNN模型能够实现在文档图像中检测段落、表格、图形等元素，并清晰地分割出它们的边界。在描述中提到了一些关键信息，如数据集的更新记录和基准测试结果。例如，2020年2月和9月的更新分别引入了训练代码和基准测试，以及预训练的Mask-RCNN模型。这些更新对研究人员和开发者非常有用，因为它们为评估和改进模型提供了重要的基线和起点。描述中也列举了一些基准测试的结果，包括各种AP（Average Precision）的值，这些是衡量模型性能的重要指标。AP值越高，表示模型在给定类别的检测精度越高。这些指标包括了不同尺度的对象检测准确度，如AP小（small objects）、AP中（medium objects）、AP大（large objects）。此外，还包括了Iter num（迭代次数）和MD5SUM，后者是确保数据集文件完整性和一致性的校验和。标签中包含了多个关键术语，如pytorch（一个广泛使用的深度学习框架）、object-detection（目标检测）、pretrained-models（预训练模型）、mask-rcnn（模型名称）、document-layout-analysis（文档布局分析）、table-detection（表格检测）、figure-detection（图形检测）、paragraph-detection（段落检测）、Python（编程语言）。这些术语强调了PubLayNet数据集在目标检测和文档布局分析领域的应用，并且与Python编程语言和PyTorch框架紧密相关。最后，压缩包子文件的文件名称列表中的"PubLayNet-master"表明所提及的资源包含了一个master版本的代码库，这通常意味着它是项目的主版本，包含了完整的功能和最新的更新。总结来说，PubLayNet数据集结合了MaskRCNN模型，在文档图像的段落、表格、图形检测领域提供了新的基准和工具。这些资源对于研究人员和开发者来说是宝贵的，可以用来训练和评估他们的文档布局分析模型。

收起资源包目录

PubLayNet:PubLayNet数据集上的MaskRCNN。段落检测，表格检测，图形检测，.. （46个子文件）

coco.py 4KB

send.sh 0B

input_config.json 253B

coco_eval.py 12KB

transform.py 9KB

infer.py 4KB

install_pycocotools.sh 162B

utils.py 12KB

keypoint_rcnn.py 17KB

__init__.py 0B

faster_rcnn.py 16KB

models.py 7KB

run_sagemaker.py 0B

backbone_utils.py 5KB

utils.py 2KB

package_Docker.sh 0B

PMC4334925_00006.jpg 204KB

_utils.py 13KB

layout.py 3KB

README.md 2KB

main_publaynet.py 19KB

pen.py 2KB

engine.py 4KB

roi_heads.py 33KB

__init__.py 0B

tb_detection.py 7KB

image_list.py 872B

wait_sagemaker.py 216B

rpn.py 20KB

Dockerfile 2KB

mask_rcnn.py 17KB

generalized_rcnn.py 3KB

.gitignore 2KB

training_params.json 547B

requirements.txt 92B

PMC538274_00004.jpg 371KB

group_by_aspect_ratio.py 7KB

coco_utils.py 9KB

config.py 58B

evaluate.py 13KB

infer.py 3KB

teenet.py 15KB

transforms.py 2KB

start_training.py 0B

publaynet.py 2KB

__init__.py 81B

共 46 条

鑨鑨

粉丝: 30
资源: 4653

深入分析PubLayNet数据集与MaskRCNN的结合应用

PubLayNet_tfrecords

image_extractor：查找学术论文的缩略图。 用于DocumentCard和Mini-Conf会议系统

mask rcnn标注转化工具

文档：文档：Jupyter Notebook（标题，段落，表格，图形等），数学（矩阵，方程式等），Mkdock网站创建

SQuAD 2.0 数据集.zip

ICDAR2015数据集.zip

批量提取Word表格数据.xlsm

enMarkify:检测段落中的英语单词并将它们推送到

一种基于高频词和段落匹配的论文抄袭检测系统设计.pdf

DistilBERT问答模型：在SQUAD数据集上的训练与评估

最新资源

image_extractor：查找学术论文的缩略图。用于DocumentCard和Mini-Conf会议系统