使用监督学习识别重复问题：Siamese CNN 实验与演示

需积分: 5 189 浏览量更新于2024-08-03 收藏 370KB PDF 举报

"藏经阁-Supervised similarity_Learning.pdf，主要探讨了监督相似性学习，特别是在处理重复问题数据中的应用。文章由Matthew Honnibal在2017年撰写，介绍了一种使用Siamese卷积神经网络（CNN）的方法，用于识别文本对之间的对称关系，特别适用于检测重复内容的任务，如论坛和问答平台上的问题合并。" 在监督相似性学习中，我们训练模型来为两个文本分配一个标签，这个标签基于它们之间存在的某种关系。当这种关系是对称的，即如果A与B的关系满足某种条件，那么B与A的关系同样满足该条件，比如“问题A是问题B的重复”和“问题B是问题A的重复”，这时将对称性约束纳入模型可以提高效率和准确性。文章以Siamese CNN为例，这是一种特殊类型的神经网络，它使用共享权重的两个分支来分别处理输入的两个文本，然后比较其特征表示的相似度。在处理重复问题的场景下，Siamese CNN可以捕捉到问题间的细微差异，帮助系统识别出重复的问题，避免重复回答或讨论。实验结果显示，Siamese CNN在两个大型社区问答网站的重复问题数据集上表现良好。这些数据集为开发和评估文本重复检测算法提供了宝贵的资源。通过这样的模型，可以有效地减少社区论坛上的冗余信息，提高用户查找答案的效率，并减轻维护者的负担。此外，文章还提供了一个交互式演示，让读者能够直观地理解模型如何工作以及其效果。这种实践性的展示有助于深化对监督相似性学习的理解，特别是对于希望在实际应用中解决类似问题的开发者和研究人员来说。 "藏经阁-Supervised similarity_Learning.pdf"提供的内容深入探讨了监督学习在文本相似性任务中的应用，特别是利用Siamese CNN进行对称关系学习，对于处理重复问题的数据集具有很高的实用价值。这种方法不仅可以应用于问答平台，还有可能扩展到其他领域，如文本匹配、相似文档检索等。

2017/5/5 Supervisedsimilarity:Learningsymmetricrelationsfromduplicatequestiondata|Blog|ExplosionAI

https://explosion.ai/blog/supervisedsimi laritysiamesecnn 3/13

d_vec1,d_vec2=bp_sim(d_sim,optimize)

d_text1=bp_vec1(d_vec1,optimize)

d_text2=bp_vec2(d_vec2,optimize)

returnd_text1,d_text2

returnsim,backward

returnforward

The Siamese function above takes two functions, text2vec and similarity_metric . It uses the

text2vec function to separately encode each text in the input, and then uses similarity_metric to

compare them. Each function is assumed to return a callback to complete its backward pass. Given this,

the backpropagation logic of the Siamese network is very simple. Each callback returns the gradient with

respect to the original function's inputs, given the gradient of the original function's output. For the

similarity metric, I've been using a distance function taken from Chen (2013), which he terms Cauchy

Similarity:

CAUCHYSIMILARITY

defChenCauchy(length):

'''Createatrainablesimilarityfunction,thatwillreturnthesimilarity

andacallbacktocomputethebackwardpassgiventhegradient.



Anoptimizercanbepassedtothecallbacktoupdatetheweights,e.g.

Adam,SGDmomentum,etc.

'''

weights=numpy.ones((1,length,))



defforward(x1,x2):

diff=x1‑x2

dist_vec=diff**2

weighted_dist=weights.dot(l1_vector)

weighted_dist*=weighted_dist>0

sim=1./(1+weighted_dist)



defbackward(d_sim,optimize):

d_weighted_dist=d_sim*(‑1/(weighted_dist+1)**2)

d_weighted_dist*=weighted_dist>0

d_weights=d_weighted_dist*dist_vec

d_dist_vec=d_weighted_dist*weights

d_diff=2*d_dist_vec*diff

d_x1=d_diff

d_x2=‑d_diff

optimize(weights,d_weights)

returnd_x1,d_x2

returnsim,backward

returnforward

剩余12页未读，继续阅读

weixin_40191861_zj

粉丝: 83
资源: 1万+

使用监督学习识别重复问题：Siamese CNN 实验与演示

cheatsheet-supervised-learning.pdf

python active_sampling/generate_random_supervised_seed_yolo.py --dataset_name 'coco_2017_train' --random_seeds 0,1,2,3,4,5,6,7,8,9 --random_file ./data_processing/COCO_supervision.txt --random_percent 10.0 --output_file ./dataseed/COCO_supervision_10.json

ALBERT_A_Lite_BERT_for_Self-supervised_Learning_o_albert.zip

unsupervised_and_semi-supervised_anomaly_detection_in_videos.pdf

A_LITE_BERT_FOR_SELF-SUPERVISED_LEARNING_OF_LANGUA_albert_zh.zip

FLOWPRINT-Semi-Supervised Mobile-App.pdf

再介绍一篇最新的Contrastive Self-supervised Learning综述论文 .pdf

Self-supervised_Attention_Mechanism_for_Pediatric_Bone_Age_Assessment_with_Efficient_Weak_Annotation.pdf

Sanet.st_Deep_Learning,_Vol._2_From_Basics_to_Practice_-_Andrew_Glassner_带书签.pdf

Semi-supervised_Learning_in_Gigantic_Image_Collections

最新资源