"汇报1：n-gram方法与标点句意影响分析；DL中是否需要中文分词？"

需积分: 0 109 浏览量更新于2024-01-17 收藏 2.47MB PDF 举报

190814_王鹏汇报1；前段时间我在阅读关于fastText的相关资料时，了解到一种叫做n-gram的方法。这种方法将句子标记为n个连续的词组，以捕捉词组内的上下文信息。与此同时，我注意到关于标点符号和句意对文本处理的影响，并发现我的论文中没有涉及到这个问题。经过进一步阅读，我了解到了一些相关的领域知识。下面是我在2019年8月16日的汇报中分享的内容： 1. 论文阅读：在论文《Is word segmentation necessary for DL of Chinese representations?》中，作者指出了词库稀疏性对深度学习中文表示的影响。词库的稀疏性可能导致过拟合，并且未登录词（OOV）会限制模型的学习能力。此外，不同的分词标准可能会产生不同的分词结果。另外，分词后，词中保留了多少语义信息也不明确。 2. 关于Commonsense Transformers for Automatic Knowledge Graph Construction (COMET)：这是一篇在ACL2019会议上发表的论文。该论文介绍了一种基于Transformer的模型，用于自动构建常识知识图谱。这个研究领域是自然语言处理（NLP）中的一个重要方向，对于构建智能对话系统具有重要意义。 3. 关于Fine-Grained Entity Typing in Hyperbolic Space：这是一篇关于实体类型细分的论文。它提出了一种在超几何空间中进行实体类型细分的方法。这个研究领域也是NLP中的一个重要方向，可以应用于各种任务，比如实体识别、关系抽取等。除了论文的阅读，我还参加了达观杯NER比赛。通过比赛，我对命名实体识别有了更深入的理解，并学会了如何应用自然语言处理技术解决实际问题。另外，我在Github上创建了一个仓库，用于学习和实践word2vec模型。对于我来说，这是一种非常有效的学习方式，可以通过实践来加深对算法的理解，并与其他人分享我的学习成果。总的来说，我在过去一段时间内进行了大量学习和实践，从阅读论文到参加比赛，不断提升自己在自然语言处理领域的技术水平。未来，我将继续努力学习，深入研究相关算法和方法，并将所学应用于实际项目中。

1.1 Is word segmentation necessary for DL of Chinese representations?

然后，文章说明对于词向量模型不如字向量的原因，有稀疏性，库外词，

过拟合三个方面。最后通过一个图形象对比词和字对于语义匹配的不同，

在这例子上，字向量模型更容易准确的揣测文本的意思。

剩余20页未读，继续阅读

型爷

粉丝: 23
资源: 337

"汇报1：n-gram方法与标点句意影响分析；DL中是否需要中文分词？"

王鹏汇报_word2vec1

190903汇报_王鹏1

基于ssm的二手车交易网站设计与实现.docx

zotero 6 插件,包含茉莉花、DOI、绿青蛙、sci-hub等11个常用插件

linux_命令_tail_的升级版，可使用_tails_同时跟踪多个文件并格式化输出成更方便查看的_tails.zip

基于ssm的房屋出租出售系统设计与实现.docx

jdk9 免安装包，配置环境变量即可

吉他谱_Sonne - Rammstein.pdf

思科合作伙伴工程师技术参考手册_V2_20080228.pdf

Java项目-基于SSM+Jsp的彩妆小样售卖商城的设计与实现（源码+数据库脚本+部署视频+代码讲解视频+全套软件）

最新资源