OpenJERE：EMNLP2020会议的联合关系与实体提取研究

下载需积分: 10 | ZIP格式 | 164KB | 更新于2024-12-16 | 24 浏览量 | 举报

在信息时代，自然语言处理（NLP）领域的发展迅猛，尤其是在关系和实体提取技术方面。OpenJERE是一个开源项目，旨在联合关系和实体提取（Joint Relation and Entity extraction），这一领域在EMNLP2020（Conference on Empirical Methods in Natural Language Processing，自然语言处理的经验方法会议）上有所突破。 OpenJERE是基于Python编程语言构建的，并且针对EMNLP2020的研究成果进行了详细的介绍。为了运行OpenJERE，要求使用Python 3.7或Python 3.8版本。此外，它依赖于PyTorch框架，具体要求为PyTorch 1.6版本。PyTorch是一个开源的机器学习库，基于Torch，并且支持广泛的应用，从计算机视觉到自然语言处理。安装OpenJERE和它的依赖项，可以通过运行`pip install -r requirements.txt`命令来实现。在OpenJERE中，引入了多个创新的模型和技术，例如多头选择（Multi-head Selection），CopyMTL，WDec和Seq2UMTree。这些模型和技术代表了当前NLP领域的一些前沿技术和研究方向。 - 多头选择（Multi-head Selection）可能是对多头注意力机制的一种扩展或变体，这是Transformer模型的一个关键组成部分，其允许模型在不同的表示子空间中并行地学习信息。 - CopyMTL可能是一个多层次的转移学习方法，用于更好地捕捉和利用来自不同任务的信息，以提高模型性能。 - WDec可能与序列解码（Sequence Decoding）有关，涉及将输入序列转换为输出序列的最优问题。 - Seq2UMTree可能是一种特定的序列到树状结构的转换方法，这在解析语义关系时特别有用。使用OpenJERE的用户需要先进行安装操作，通过`pip install -e .`命令在开发模式下安装这个包，这样用户可以实时修改源代码并立即看到改动效果。该项目还涉及到了数据集的处理。用户需要从指定位置下载DuIE数据集，并将其解压到`./raw_data/chinese/`目录下。关于New York Times (NYT)的数据集，用户需要查看`raw_data/nyt/README.md`以获取相关指令。解压数据集通常使用命令行工具，如`unzip`，并指定正确的文件路径。完成后，用户需要运行`python data_split.py`来为两个数据集进行数据分割处理，这个过程可能包括划分训练集、验证集和测试集。在所有依赖项安装、数据集处理和分割完成后，通过命令`bash train_all.sh`来运行训练脚本，这将会启动模型训练过程。对于具体的模型训练和参数调整，可能需要深入了解每个模型的具体实现细节和配置。如果想要进行更细粒度的实验，用户还可以单独执行`python main.py`来运行特定的实验步骤，这可能包括模型的训练、验证和测试等。文件标题中提到的“调查结果文件”可能意味着OpenJERE包含了对实验结果的详细分析，这可能包括模型在不同数据集上的表现，比如DuIE和NYT，以及可能的错误分析、改进方法和未来的研究方向。 OpenJERE项目与一系列重要的NLP主题相关，包括自然语言处理、机器学习、深度学习、实体识别、关系抽取等。它的成果对于那些希望了解或利用最新技术进行实体和关系提取的开发人员和研究人员来说，具有重要的价值和意义。通过了解和应用OpenJERE项目，开发者和研究人员不仅能够掌握当前在NLP领域内实体和关系抽取的先进技术，还能更好地理解这些技术是如何在实际的文本分析任务中得到应用和优化的。对于那些希望将这些方法应用于特定领域或提高特定任务性能的人来说，OpenJERE项目提供了一个强有力的起点和工具箱。

展开

资源目录

收起资源包目录

OpenJERE：EMNLP2020会议的联合关系与实体提取研究（123个子文件）

train_test_overlap_duie.py 4KB

seq2umt.py 18KB

README.md 2KB

nyt_seq2umt_pso.json 805B

main.py 12KB

wdec_loader.py 4KB

.gitignore 276B

twotagging_loader.py 5KB

nyt_seq2umt_sop.json 805B

chinese_selection.json 1001B

copymtl.py 17KB

nyt_seq2umt_pos.log 4KB

chinese_seq2umt_sop.json 938B

split_recitatiton.py 6KB

nyt_seq2umt_ops.log 4KB

nyt_selection.log 36B

README.md 57B

selection_loader.py 4KB

nyt_recitation.png 20KB

utils.py 147KB

chinese_seq2umt_pso.log 4KB

copymtl.py 3KB

chinese_seq2umt_ops.log 4KB

chinese_seq2umt_spo.log 4KB

nyt_seq2umt_osp.log 4KB

chinese_seq2umt_ops.json 1KB

chinese_seq2umt_spo.json 942B

nyt_seq2umt_osp.log 34B

mutli_triplet_nyt.py 2KB

README.md 255B

chinese_seq2umt_ops.log 4KB

const.py 3KB

data_split.py 8KB

nyt_copymtl.log 4KB

reader.py 13KB

chinese_seq2umt_pso.json 942B

nyt_seq2umt_sop.log 4KB

seq2umt_loader.py 6KB

README.md 2KB

order_ana.py 3KB

chinese_copymtl.json 943B

nyt_seq2umt_pos.log 34B

train_test_overlap_nyt.py 4KB

nyt_seq2umt_spo.json 805B

chinese_seq2umt_pos.log 4KB

wdec.py 3KB

nyt_wdec.log 4KB

nyt_copymtl.log 34B

PKG-INFO 182B

wdec.py 14KB

copymtl_loader.py 4KB

chinese_selection.log 1KB

crf.py 14KB

nyt_seq2umt_spo.log 4KB

multi_triplet_duie.py 3KB

nyt_seq2umt_ops.log 34B

chinese_seq2umt_pos.log 4KB

chinese_seq2umt_pos.json 942B

chinese_seq2umt_pso.log 4KB

attention.py 3KB

nyt_seq2umt_pos.json 978B

nyt_seq2umt_pso.log 4KB

chinese_selection.log 1KB

chinese_copymtl.log 34B

chinese_wdec.log 0B

nyt_seq2umt_osp.json 1KB

nyt_seq2umt_sop.log 0B

nyt_selection.log 4KB

chinese_seq2umt_osp.log 34B

nyt_copymtl.json 932B

abc_preprocessor.py 4KB

train_test_overlap.py 4KB

seq2umt.py 10KB

nyt_seq2umt_ops.json 1KB

nyt_wdec_abtest.log 268B

chinese_wdec.json 1KB

overlap_all.py 4KB

chinese_wdec.log 2KB

chinese_seq2umt_osp.json 1KB

nyt_wdec.json 967B

chinese_seq2umt_sop.log 4KB

selection.py 4KB

nyt_seq2umt_pso.log 4KB

chinese_seq2umt_osp.log 4KB

ana_noise_in_nyt.py 6KB

selection.py 8KB

F1_score.py 4KB

two_tagging.py 2KB

chinese_copymtl.log 4KB

nyt_selection.json 939B

chinese_seq2umt.json 938B

twotagging.py 9KB

duie_recitation.png 16KB

hyper.py 2KB

nyt_seq2umt_spo.log 4KB

nyt_wdec_abtest.json 887B

chinese_seq2umt_sop.log 34B

chinese_seq2umt_spo.log 4KB

chinese_twotagging.json 892B

nyt_wdec.log 31B

共 123 条

身份认证购VIP最低享 7 折!

30元优惠券

梦小露

粉丝: 28

OpenJERE：EMNLP2020会议的联合关系与实体提取研究

HyperGAT_TextClassification:EMNLP2020的实施——事半功倍

AGIF：EMNLP 2020调查结果论文的开放源代码“ AGIF：用于联合多目标检测和插槽填充的自适应图交互式框架”

DialogRPT:EMNLP 2020

OTE-MTL:EMNLP 2020研究结果的代码和数据集，标题为“意见三重态提取的多任务学习框架”

interpretability-tutorial-emnlp2020:EMNLP 2020教程“解释NLP模型的预测”的材料

vokenization:EMNLP 2020论文“ Vokenization的PyTorch代码

KGPT:EMNLP2020论文“ KGPT的代码和数据

CSE517课程项目：EMNLP 2020研究复现与验证

HERO:EMNLP 2020研究论文“ HERO”的研究代码

HybridQA:EMNLP2020论文“ HybridQA”的数据集和代码

最新资源