用Tinyxml2实习获取html纯文本内容

Tinyxml2是一个轻量级的XML解析库，不能直接处理HTML文档。但可以通过其他的库，如libxml2来处理HTML文档，然后使用Tinyxml2来解析和处理解析后的文本内容。下面给出一个获取HTML文本内容的示例代码： ```c++ #include <iostream> #include <fstream> #include <string> #include <libxml/HTMLparser.h> #include "tinyxml2.h" using namespace std; using namespace tinyxml2; void parseHtml(xmlNode *node, XMLDocument& doc); int main() { // 读取HTML文件 string htmlFilePath = "example.html"; ifstream htmlFile(htmlFilePath); if (!htmlFile.is_open()) { cout << "Failed to open file: " << htmlFilePath << endl; return 1; } string htmlContent((istreambuf_iterator<char>(htmlFile)), istreambuf_iterator<char>()); htmlFile.close(); // 解析HTML文档 HTMLParserCtxtPtr parserCtxt = htmlCreatePushParserCtxt(NULL, NULL, "", 0, "", XML_CHAR_ENCODING_NONE); htmlParseChunk(parserCtxt, htmlContent.c_str(), htmlContent.size(), 0); htmlParseChunk(parserCtxt, "", 0, 1); xmlDocPtr docPtr = parserCtxt->myDoc; xmlNode *rootNode = xmlDocGetRootElement(docPtr); // 使用Tinyxml2解析文本内容 XMLDocument doc; parseHtml(rootNode, doc); cout << doc.FirstChildElement("body")->GetText() << endl; // 释放资源 xmlFreeDoc(docPtr); htmlFreeParserCtxt(parserCtxt); xmlCleanupParser(); xmlMemoryDump(); return 0; } void parseHtml(xmlNode *node, XMLDocument& doc) { for (xmlNode *curNode = node; curNode; curNode = curNode->next) { if (curNode->type == XML_TEXT_NODE) { doc.InsertEndChild(doc.NewText((const char *)curNode->content)); } else if (curNode->type == XML_ELEMENT_NODE && strcmp((const char *)curNode->name, "script") != 0) { XMLElement *newNode = doc.NewElement((const char *)curNode->name); for (xmlAttr *attr = curNode->properties; attr; attr = attr->next) { newNode->SetAttribute((const char *)attr->name, (const char *)attr->children->content); } parseHtml(curNode->children, newNode->ToDocument()); doc.InsertEndChild(newNode); } } } ``` 该示例代码将HTML文档解析为一个DOM树，然后使用递归的方式将文本内容提取出来，并使用Tinyxml2构建新的XML文档。其中，在解析HTML文档时，排除了`<script>`标签，因为`<script>`标签中的内容不应该被解析为文本内容。最终，可以使用`doc.FirstChildElement("body")->GetText()`获取HTML文档中`<body>`标签中的纯文本内容。

用Tinyxml2实习获取html纯文本内容

相关推荐

tinyxml2 (TinyXML-2)

tinyxml2 version 9.0.0下载地址

基于tinyxml2的xml操作库再封装

C++ tinyxml2 如何判断节点中一头没有文本内容

tinyxml2怎么将document文本对象 序列化

tinyxml2怎么修改xml文件内容

tinyxml2怎么对 文本对象赋一个初值

tinyXML2 获取指定属性名的值

tinyxml2中怎么用指针获得文本对象中的元素

在tinyxml2 如果 xml文件中不知道根元素跟子元素怎么能够获取子元素的文本内容

tinyxml2创建xml

tinyxml2 遍历

使用tinyxml库获取xml根节点下的所有子节点

tinyxml2 源码分析

c++中tinyxml2

tinyxml2::XMLDocument::Parse怎么使用

怎么用tinyxml2那个函数来接收对象名

tinyxml2内存泄漏

TinyXml2 socket

最新推荐

TinyXml中文使用指南

XML解释器TinyXml使用

麦肯锡-年月―中国xx集团战略咨询项目建议书.ppt

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

2． 通过python绘制y=e-xsin(2πx)图像

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

实现实时监控告警系统：Kafka与Grafana整合

tinyxml2怎么将document文本对象序列化

tinyxml2怎么对文本对象赋一个初值

2．通过python绘制y=e-xsin(2πx)图像