CCKS2016教程：理解短文本解析

需积分: 0 15 浏览量更新于2024-07-01 收藏 10.17MB PDF 举报

"王忠远-Understanding Short Texts1" 本次教程主要关注的是对短文本的理解，由王忠远（Microsoft Research）和Haixun Wang（Facebook Inc.）共同讲解。教程网站为：http://www.wangzhongyuan.com/tutorial/ACL2016/Understanding-Short-Texts/，内容涵盖了短文本理解的挑战、明确表示法、隐含表示法以及结论。短文本的类型多样，包括搜索查询、广告关键词、锚文本、图像标签、文档标题、标题、问题、推文/微博等。这些文本具有显著的特点，如篇幅短小，信息量有限。以Bing在2016年6月的查询日志为例，单个词的查询占比高达39.72%，而包含8个或以上单词的查询只占9.67%。此外，短文本往往呈现“电报式”特征，没有明确的词序、功能词，且不区分大小写，这为理解和处理带来了困难。挑战主要有两个方面： 1. **有限上下文**：由于短文本的长度限制，其包含的语境信息非常有限。例如，一个仅包含一两个单词的查询可能无法提供足够的背景信息来准确理解用户的意图。比如，“how far”这个短语，它可以询问地球到太阳的距离，也可以是太阳到地球的距离，甚至可能是询问两者之间的距离。因此，理解和处理这类查询需要更高级的推理和背景知识。 2. **“电报式”语言**：短文本通常省略了词序、功能词和大小写等语法结构，这使得传统的自然语言处理技术难以直接应用。例如，"how far"、"sun earth"和"earth sun"虽然字面相同，但语义可能截然不同。处理这种无规则的表达方式需要新的算法和技术，以捕捉到语义的细微差别。针对这些挑战，短文本理解的研究提出了两种主要的表示方法： - **明确表示法(Explicit representation)**：这种方法旨在通过词汇、语法和句法分析来建立文本的结构化表示，以便更好地捕获文本的含义。例如，利用词性标注和依存关系分析来恢复部分丢失的语法信息，或者使用词向量模型（如Word2Vec或GloVe）来捕捉词汇的语义关联。 - **隐含表示法(Implicit representation)**：这种方法则侧重于从上下文和语境中推断出短文本可能隐藏的含义。例如，通过深度学习模型，如循环神经网络（RNN）或Transformer，来学习连续的上下文表示，从而捕捉到序列中的动态信息和潜在的关系。理解短文本是一个复杂的问题，需要结合各种技术手段，包括但不限于自然语言处理、信息检索、机器学习和深度学习，以解决有限上下文和“电报式”语言带来的挑战。随着技术的发展，对短文本的理解将更加深入，这对于提高搜索引擎、智能助手、社交媒体分析等领域的性能至关重要。

Implicit Knowledge Representation:

Embedding

https://code.google.com/p/word2vec/

Input units: word

Training size: > 100B sequence (Freebase)

Vocabulary: > 2M

Deep Structured Semantic Model (DSSM)

Input units: Tri-letter

Training size: ~20B clicks (Bing + IE log)

Vocabulary: 30K Parameter: ~10M

CW08

(SENNA)

Input units: word

Vocabulary: 130k

Collobert, Ronan, et al. "Natural

language processing (almost) from

scratch." The Journal of Machine

Learning Research 12 (2011):

2493-2537.

Tomas Mikolov, Kai Chen, Greg Corrado, and

Jeffrey Dean. Efficient Estimation of Word

Representations in Vector Space. In

Proceedings of Workshop at ICLR, 2013.

KNET

GloVe

Input units: word

Training size: > 42B tokens

Vocabulary: > 400K

J Pennington, R Socher, CD Manning “Glove:

Global Vectors for Word Representation.”

EMNLP 2014.

Huang, Po-Sen, et al. "Learning deep

structured semantic models for web

search using clickthrough data." in CIKM.

ACM, 2013.

Predict

Count + Predict

Pros:

• Dense semantic encoding

• A good representation framework

• Facilitates computation (similarity measure)

Cons:

• Perform poorly for rare words and new words

• Missing relations (e.g, isA, isPropertyOf)

• Hard to tune since it’s not nature for human beings

剩余210页未读，继续阅读

狼You

粉丝: 26
资源: 324

CCKS2016教程：理解短文本解析

Engh-business-texts完整版ppt全套教学教程最全电子课件整本书ppt.pptx

Combining Bi-gram of Character and Word to Classify Two-Class Chinese Texts

backbone-localizable-texts:在 Backbone 模型中具有本地化字段的简单方法

for i in range(1:len(texts)): for word in texts[i-1]: text.append(word)

import jieba.posseg as pseg texts1 = [] for text in texts: pairs = pseg.cut(text) result = [[pair.word, pair.flag] for pair in pairs] texts1.append(result)

print(texts2) texts3 =[[word for word in text if len(word)>1]for text in texts2] print(texts3) texts5 = [' '.join(text)for text in texts3] df['textcut'] = texts5 print(df) file = [] for word in texts5: file.extend(word) print(file)

<el-rate v-model="value1" :texts=this.texts show-text></el-rate>

最新资源