"汇报1:n-gram方法与标点句意影响分析;DL中是否需要中文分词?"

需积分: 0 0 下载量 109 浏览量 更新于2024-01-17 收藏 2.47MB PDF 举报
190814_王鹏汇报1;前段时间我在阅读关于fastText的相关资料时,了解到一种叫做n-gram的方法。这种方法将句子标记为n个连续的词组,以捕捉词组内的上下文信息。与此同时,我注意到关于标点符号和句意对文本处理的影响,并发现我的论文中没有涉及到这个问题。 经过进一步阅读,我了解到了一些相关的领域知识。下面是我在2019年8月16日的汇报中分享的内容: 1. 论文阅读:在论文《Is word segmentation necessary for DL of Chinese representations?》中,作者指出了词库稀疏性对深度学习中文表示的影响。词库的稀疏性可能导致过拟合,并且未登录词(OOV)会限制模型的学习能力。此外,不同的分词标准可能会产生不同的分词结果。另外,分词后,词中保留了多少语义信息也不明确。 2. 关于Commonsense Transformers for Automatic Knowledge Graph Construction (COMET):这是一篇在ACL2019会议上发表的论文。该论文介绍了一种基于Transformer的模型,用于自动构建常识知识图谱。这个研究领域是自然语言处理(NLP)中的一个重要方向,对于构建智能对话系统具有重要意义。 3. 关于Fine-Grained Entity Typing in Hyperbolic Space:这是一篇关于实体类型细分的论文。它提出了一种在超几何空间中进行实体类型细分的方法。这个研究领域也是NLP中的一个重要方向,可以应用于各种任务,比如实体识别、关系抽取等。 除了论文的阅读,我还参加了达观杯NER比赛。通过比赛,我对命名实体识别有了更深入的理解,并学会了如何应用自然语言处理技术解决实际问题。 另外,我在Github上创建了一个仓库,用于学习和实践word2vec模型。对于我来说,这是一种非常有效的学习方式,可以通过实践来加深对算法的理解,并与其他人分享我的学习成果。 总的来说,我在过去一段时间内进行了大量学习和实践,从阅读论文到参加比赛,不断提升自己在自然语言处理领域的技术水平。未来,我将继续努力学习,深入研究相关算法和方法,并将所学应用于实际项目中。