"《词向量真的有用吗？》实验汇报及论文复现与数据挖掘总结"

需积分: 0 29 浏览量更新于2024-01-31 收藏 14.83MB PDF 举报

经过实验和论文阅读的实践，我成功实现了《词向量真的有用吗？》中提到的实验，并对其进行了总结。在实验中，我复现了两篇论文，分别是《Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components》和《Bilateral Multi-Perspective Matching for Natural Language Sentences》。此外，我还进行了一些数据挖掘相关的阅读，并从GitHub获取到了实验所需的数据集和模型论文。在实验一中，我进行了语言建模的实验。为了实现这一实验，我从GitHub上找到了PTB数据库，并获得了分好的字和词的集合以及词表vocab。这个数据库非常适合进行语言建模的实验。同时，我还阅读了模型所属论文，并了解了CWE方法的具体介绍，该方法能够有效地将字的特征进行表示。通过这一实验，我发现词向量确实非常有用。通过将单词表示为向量，我们可以更好地理解和处理自然语言。词向量能够很好地捕捉单词之间的语义关系和上下文信息，从而提升了自然语言处理任务的性能。这一结果与《词向量真的有用吗？》中的观点一致。在论文阅读方面，我复现了两篇与词向量相关的论文。《Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components》通过联合嵌入方式将汉字、词和子字符组件进行表示，有效地提取了中文文本中的语义特征。《Bilateral Multi-Perspective Matching for Natural Language Sentences》则通过双边多角度匹配的方式，进一步提升了文本匹配任务的性能。此外，我还进行了数据挖掘的阅读，并从GitHub获取到了实验所需的数据集和模型论文。数据挖掘是一项重要的工作，能够帮助我们发现和利用数据中的有用信息。在实验过程中，我充分运用了数据挖掘的技术和方法，从而获得了准确和可靠的结果。综上所述，通过实验和论文阅读，我深入研究了《词向量真的有用吗？》中提到的问题，并成功实现了相关的实验。通过实验，我验证了词向量的有效性，并发现它在自然语言处理任务中的重要作用。同时，通过论文阅读，我进一步扩展了对词向量的理解，并掌握了一些相关的技术和方法。通过数据挖掘的阅读，我对该领域有了更深入的认识，并获得了实验所需的数据集和模型论文。这次实践不仅帮助我加深了对词向量的认识，也提升了我的实践能力和学术素养。

1. 实现《词向量真的有用吗？》中的实验汇报

• 实验一：Language Modeling

• 模型：用Keras实现

• 用LSTMs来encode词，或者字，

• CNNs用来合并词和组成词的字向量的维度保持不变。

• 测试的时候遇到了很多错，主要是PTB的数据读取时候的问题，但是感觉

还是自己的处理的不正确，最后出现了一个超出index的问题，但是一般这

个问题有两个原因，list元素空或者元素多于index，检查了还是报错，然

后我就去做Text Classification了。。。

• https://machinelearningmastery.com/how-to-develop-a-word-level-

neural-language-model-in-keras/

剩余16页未读，继续阅读

我只匆匆而过

粉丝: 19
资源: 316

"《词向量真的有用吗？》实验汇报及论文复现与数据挖掘总结"

190814_王鹏汇报1

190825_王鹏汇报1

月球软着陆飞行动力学和制导控制建模与仿真_王鹏基

在51单片机中，用OLED显示“张玉树，王康笼，王鹏”的代码

在51单片机中，用OLED显示“张玉树，王康笼，王鹏”

编程实现 已知一个字典包含若干员工信息（姓名和性别，字典数据已给出，0代表女性），删除性别为女的员工 信息。 示例输出 删除后：{’赵明’：1，’钱峰’：1，’王鹏’：1}

java swing图形界面开发与案例详解 .王鹏等.扫描版.pdf 课...

那有关“ESG对创新影响”的相关中文研究有哪些呢？

企业会议室预约系统近五年中文参考文献及作者年份

最新资源

编程实现已知一个字典包含若干员工信息（姓名和性别，字典数据已给出，0代表女性），删除性别为女的员工信息。示例输出删除后：{’赵明’：1，’钱峰’：1，’王鹏’：1}