维基百科语料库 xml有哪些标签,标签结构是什么样的
时间: 2024-04-25 20:27:56 浏览: 163
维基百科语料库 XML 文件中包含的标签有:
1. <mediawiki>:最外层的标签,包含整个维基百科的内容。
2. <page>:表示一篇维基百科文章,包含 <title>、<ns>、<id>、<revision> 等子标签。
3. <title>:表示文章的标题。
4. <ns>:表示文章所属的命名空间,如0表示主命名空间,14表示类别命名空间等。
5. <id>:表示文章的唯一标识符。
6. <revision>:表示文章的修订版本,包含 <id>、<timestamp>、<contributor>、<comment>、<text> 等子标签。
7. <timestamp>:表示文章修订的时间戳。
8. <contributor>:表示文章贡献者的信息,包含 <username> 和 <id> 两个子标签。
9. <comment>:表示文章修订的注释。
10. <text>:表示文章的正文内容。
标签结构大致如下:
```
<mediawiki>
<page>
<title></title>
<ns></ns>
<id></id>
<revision>
<id></id>
<timestamp></timestamp>
<contributor>
<username></username>
<id></id>
</contributor>
<comment></comment>
<text></text>
</revision>
</page>
...
</mediawiki>
```
阅读全文