复旦大学项目：使用Attention-Based Siamese TextCNN进行立场检测

需积分: 29 70 浏览量更新于2024-11-19 2 收藏 14.59MB ZIP 举报

资源摘要信息:"Attention-Based-Siamese-Text-CNN-for-Stance-Detection:复旦大学自然语言处理专业（DATA130006）的最终项目" 该项目是复旦大学自然语言处理专业课程（课程编号DATA130006）的最终项目，旨在解决假新闻挑战问题。项目工作主要包括以下几部分： 1. 数据预处理项目首先提供了多种数据预处理方法，包括BoW（词袋模型）、TF-IDF、word2vec和doc2vec。这些预处理方法能够帮助从原始文本数据中提取有用的信息，将文本转换为适合机器学习模型处理的形式。预处理的结果将生成文档表示（x_1）、标题表示（x_2）和标签（y）。这些数据可以输出为间谍数据（spying data），以便在后续的模型中使用。 2. 常规机器学习方法项目中还提供了使用传统机器学习方法（如支持向量机SVM和随机森林）对数据实例进行分类的py文件。这些代码是在sklearn库上实现的，需要使用sklearn和numpy环境。 3. Seq2seq注意模型项目包括基于注意力机制的序列到序列模型，这类模型通常用于文本摘要等任务。代码使用了预训练模型，可以通过运行`python3 run_summarization.py -`来生成文本摘要。 4. TextCNN和暹罗网络此外，项目还涵盖了使用TextCNN（卷积神经网络）和暹罗网络（Siamese Network）来解决立场检测（stance detection）问题。TextCNN可以捕捉到文本数据中的局部特征，而暹罗网络则用于比较两个输入样本的相似性。 5. 其他相关工作和未来工作项目文档还提到了比赛中的相关工作，以及项目未来可能的拓展方向。标签信息反映了该项目是复旦大学（fudan-university）的成果，运用了注意力模型（attention-model），暹罗网络（siamese-network），TextCNN以及自然语言处理中的立场检测（stance-detection）。此外，代码是用Python（Python）编写的。压缩包子文件的文件名称列表中只有一个条目“Attention-Based-Siamese-Text-CNN-for-Stance-Detection-master”，这表明项目可能是一个包含多个文件和文件夹的复杂工程，文件夹名称中的"master"可能表示它是该工程的主要版本或分支。项目所涉及的关键技术点包括： - **词袋模型（BoW）**：一种用于文本数据的表示方法，将文本中的每个单词转换为一个特征向量。 - **TF-IDF**：一种统计方法，用于评估单词对于一个文档集或语料库中的一个文档的重要性。 - **word2vec**：一种将单词转换为向量的模型，可以捕捉单词之间的语义关系。 - **doc2vec**：在word2vec的基础上扩展，用于将整个文档转换为向量。 - **支持向量机（SVM）**：一种监督学习方法，常用于分类问题。 - **随机森林**：一种集成学习算法，通过构建多个决策树来进行决策。 - **注意力机制（Attention Mechanism）**：一种深度学习中的机制，可以使模型在处理序列数据时更加关注重要的部分。 - **序列到序列模型（Seq2seq）**：一种用于序列转换任务的模型，常用于文本摘要、机器翻译等领域。 - **TextCNN**：一种用于文本分类的卷积神经网络，通过卷积操作捕获文本中的局部特征。 - **暹罗网络（Siamese Network）**：一种神经网络结构，用来比较两个输入样本的相似性或差异性，常用于一对一双重任务中。在自然语言处理领域，假新闻的检测和立场检测是当前研究热点，因为这些问题关系到信息的真实性和用户的观点倾向性判断，对于维护网络环境的清朗和促进健康的信息交流具有重要意义。通过上述技术的应用，该项目在假新闻和立场检测方面提供了新的解决方案。

收起资源包目录

复旦大学项目：使用Attention-Based Siamese TextCNN进行立场检测（50个子文件）

siameseTextCNN.py 5KB

train_1.txt 217KB

TokenizeSentences.py 182B

util.py 2KB

data.py 11KB

model.checkpoint.meta 52KB

model.py 25KB

decode.py 11KB

untitled0.py 2KB

main_v5.py 8KB

cnn_loaddata.py 3KB

siameseTextCNN_v3.py 5KB

README.md 954B

doc2vec.py 69B

write_txt.py 1KB

data_handle.py 2KB

main_v5_FullDoc.py 8KB

data_preprocessing.py 3KB

main_v5_FineGrain.py 8KB

beam_search.py 8KB

TokenizeSentences.py 182B

model.checkpoint.index 533B

read_data.py 564B

cnn_loaddata_v2.py 3KB

write_doc2vec.py 674B

util.py 1KB

readme.md 2KB

util.py 11KB

final_pj.pdf 810KB

naive_ml.py 11KB

LICENSE 1KB

pred.py 4KB

LICENSE.txt 11KB

train_stances_origin.csv 4.06MB

batcher.py 18KB

checkpoint 89B

attention_decoder.py 12KB

untitled1.py 3KB

main_v5_FullDoc_FineGrain.py 8KB

data_pre_v2.py 3KB

siameseTextCNN_v2.py 5KB

doc2vec_readdata.py 2KB

model.checkpoint.data-00000-of-00001 11.45MB

__init__.py 0B

run_summarization.py 16KB

inspect_checkpoint.py 1KB

train_bodies_origin.csv 3.58MB

eval.py 964B

README.md 8KB

read_data.py 564B

共 50 条

男爵兔

粉丝: 45
资源: 4592

复旦大学项目：使用Attention-Based Siamese TextCNN进行立场检测

Facial-Similarity-with-Siamese-Networks-in-Pytorch

pytorch-siamese-master_siamese_siamesenetwork_神经网络_空间映射.zip

pytorch-siamese-master_siamese_siamesenetwork_神经网络_空间映射_源码.zip

deep-siamese-text-similarity:基于siamese-lstm的中文句子相似度计算

Fine-tuning-BERT-with-Siamese-network-and-Triplet-Loss

Offline-Signature-Verification-using-Siamese-Network:使用在Keras中实现的卷积暹罗网络识别伪造签名

Siamese-based-BERT-FAQ-retrieval

Siamese-network-master.zip_Siamese网络_purplejj5_siamese_suddenlyc

Siamese-neural-network-for-change-detection.zip_PYTHON 孪生网络_espe

A fast inference networks for SAR target few-shot learning based on improved siamese networks

最新资源