分布式相似性： Distributional Similarity 的概念与模型

需积分: 9 43 浏览量更新于2024-07-17 收藏 1.22MB PDF 举报

词汇相似度 - 分布式相似度（一）在自然语言处理（NLP）领域中，词汇相似度是指两个词汇之间的相似度，衡量它们在语言中的含义和关系。分布式相似度是词汇相似度的一种方法，通过分析词汇在语言环境中的分布来计算相似度。在斯坦福大学的NLP课程中，Dan Jurafsky教授详细讲解了分布式相似度的概念和计算方法。在这节课中，Jurafsky教授首先讨论了基于词典的meaning问题，指出词典-based方法存在一些问题，例如语言的限制、回忆率不高、词汇缺失、短语缺失、词义之间的连接缺失等。然后，Jurafsky教授引入了分布式模型，例如向量空间模型，来解决基于词典的方法的缺陷。分布式模型可以提供更高的回忆率，但可能会牺牲一些精度。分布式模型的思想来源于Zellig Harris（1954）和Firth（1957）的研究工作。 Harris认为，如果两个词汇在几乎相同的环境中出现，那么它们可以被认为是同义词。Firth则认为，通过分析词汇在语言环境中的分布，可以了解词汇的含义。在分布式模型中，词汇的相似度是通过分析词汇在语言环境中的分布来计算的。例如，通过分析两个词汇在文本中的共现情况，可以计算它们之间的相似度。这种方法可以捕捉到词汇之间的微妙关系，并且可以处理大量的词汇数据。分布式模型的优点包括： * 高回忆率：分布式模型可以捕捉到大量的词汇关系，从而提高回忆率。 * 可扩展性：分布式模型可以处理大量的词汇数据，且可以扩展到不同的语言和领域。 * 灵活性：分布式模型可以捕捉到词汇之间的微妙关系，并且可以处理多义词和同义词。然而，分布式模型也存在一些缺陷，例如： * 精度不高：分布式模型可能会牺牲一些精度，以换取高回忆率。 * 计算复杂度高：分布式模型的计算复杂度可能很高，需要大量的计算资源。分布式相似度是词汇相似度的一种重要方法，通过分析词汇在语言环境中的分布来计算相似度。分布式模型可以提供高回忆率和灵活性，但也存在一些缺陷。

.*3%71#*8/9,%

Intui6on)of)distribu6onal)w or d)similarity)

•  Z'$*%:[*(B):-%

A bottle of tesgüino is on the table!

Everybody likes tesgüino!

Tesgüino makes you drunk!

We make tesgüino out of corn.!

•  From context words humans can guess tesgüino means

•  *3%*)D"<")'D%0:=:#*>:%)'9:%beer)

•  53+1'2"3%8"#%*)>"#'+<(-%%

•  E@"%@"#$/%*#:%/'(')*#%'8%+<:,%<*=:%/'(')*#%@"#$%D"3+:[+/S%

剩余19页未读，继续阅读

HiAloha_

粉丝: 11
资源: 3

分布式相似性： Distributional Similarity 的概念与模型

05_Word_Similarity-_Distributional_Similarity_II_8-15.pdf

PyPI 官网下载 | tensorflow_similarity-0.13.10-py3-none-any.whl

Improving Distributional Similarity with Lessons Learned from Word Embeddings

Matching the Blanks- Distributional Similarity for Relation Lear

入门，从一个按钮和灯开始学PLC吧！（三）

param-1.12.2-py2.py3-none-any.whl

财务系统学生更改密码和绑卡操作方法.zip

基于MATLAB实现旅行推销员问题(TSP)代码+项目说明(课程大作业)+测试数据.zip

Python360翻译网页版GUI工具

最新资源