PHP正则表达式提取HTML标签内容及示例

需积分: 28 188 浏览量更新于2024-09-13 1 收藏 1KB TXT 举报

"在PHP编程中，处理HTML内容时经常需要提取特定标签内的文本。本篇文章将介绍如何使用正则表达式 preg_match 函数来实现这一目标，以及结合 preg_match_all 函数来更全面地获取匹配的结果。首先，理解`preg_match`函数的基本语法和参数： 1. `preg_match(pattern, subject, matches, flags)`： - `pattern` 是一个正则表达式模式，用于定义要查找的模式。在这个例子中，模式是 `/(<([\w]+)[^>]*>)(.*)(<\/\2>)/`，它匹配 HTML 的开始标签 `<tag>`, 其中`[\w]+`表示标签名，`[^>]*`匹配标签内容直到遇到关闭标签。 - `subject` 是要搜索的目标字符串，通常是从HTML页面中获取的内容。 - `matches` 是一个数组，其中`matches[0]` 存储所有找到的完整匹配，`matches[1]`、`matches[3]` 和 `matches[4]` 分别对应模式中的第一个捕获组（标签名）、第三个捕获组（标签内容）和第四个捕获组（关闭标签）。接着，`preg_match_all` 函数提供了更强大的功能，它可以返回所有匹配项，而不是仅限于第一个。这对于处理可能有多个相同标签的情况非常有用。函数原型如下： ```php preg_match_all(pattern, subject, matches, flags) ``` 在提供的示例代码中，我们有一个HTML片段，通过`file_get_contents`函数获取网页内容，然后使用`json_decode`解析JSON数据。在处理数据之前，先通过`preg_match_all`提取所有的标签内容： ```php $text = file_get_contents("http://www.mmbang.com/api/get_ads_statics.php?date=20130228"); $data = json_decode($text, true); // 解析JSON数据 if (!isset($data["data"][$index]["registers"])) { $d_register[] = 0; // 如果某个字段不存在，初始化为0 } else { $d_register[] = $data["data"][$index]["registers"]; // 否则，获取并存储字段值 ``` 这段代码首先读取指定URL的HTML内容，然后检查`registers`字段是否存在，如果存在，则将其添加到数组`$d_register`中。如果不存在，就用0填充数组。这样，通过PHP的正则表达式处理，我们就可以有效地从HTML文档中提取所需的信息，并根据需要进一步处理或存储这些数据。总结来说，这个PHP代码段展示了如何利用正则表达式从HTML中提取内容，特别是标签内的文本，以及如何使用`preg_match_all`函数处理可能存在多个相同标签的情况。这在爬虫程序、数据抓取以及数据分析等场景中非常实用。

preg_match("/(<([\w]+)[^>]*>)(.*)(<\/\\2>)/",$string,$match);
$content=trim($match[3]);
分享一个正则表达式，上述这个表达式可以提取字符串中两个尖括号之间的内容，用来提取HTML标签中的内容很方便；
目前我还没搞清楚这个正则的原理，不过$match[3]中存放的就是尖括号中的内容，比如
<td>你好</td>
$match[3]就等于"你好"。

int preg_match_all ( string pattern, string subject, array matches [, int flags] )

array matches 是一个数组，matches[0]表示匹配的字符串数组，为第一个括号中的子模式所匹配的字符串组成的数组，为第二个括号中的子模式所匹配的字符串组成的数组，和perl的正则里面的$1,$2,$3 类似

<?php
// \\2 是一个逆向引用的例子，其在 PCRE 中的含义是
// 必须匹配正则表达式本身中第二组括号内的内容，本例中
// 就是 ([\w]+)。因为字符串在双引号中，所以需要
// 多加一个反斜线。

$html = "<b>bold text</b><a href=howdy.html>click me</a>";
preg_match_all ("/(<([\w]+)[^>]*>)(.*)(<\/\\2>)/", $html, $matches);
for ($i=0; $i< count($matches[0]); $i++) {
echo "matched: ".$matches[0][$i]."\n";
echo "part 1: ".$matches[1][$i]."\n";
echo "part 2: ".$matches[3][$i]."\n";
echo "part 3: ".$matches[4][$i]."\n\n";
}
?>

下载后可阅读完整内容，剩余1页未读，立即下载

w171432511

粉丝: 3

PHP正则表达式提取HTML标签内容及示例

提取html标签img

php读取html并截取字符串的简单代码

PHP实现正则匹配所有括号中的内容

PHP提取字符串中的图片地址[正则表达式]

php 正则表达式提取网页超级链接url的函数

PHP 采集程序中常用的函数

PHP与MySQL程序设计

PHP常用函数大全.pdf

[PHP]实用函数3

php获取twitter最新消息的方法

最新资源