网页直接提取股票数据技巧：Sina股价一键保存

需积分: 34 7 浏览量更新于2024-09-11 收藏 2KB TXT 举报

在互联网上，有时候我们需要从网页上直接复制特定的文字信息，例如财经数据。本文提供了一个方法，通过编程脚本（如Perl或类似工具）实现从新浪财经网页（如"http://finance.sina.com.cn/realstock/company/sh000001/nc.shtml"）抓取股票价格。以下是详细的步骤： 1. **获取网页内容**: 首先，你需要通过输入URL并利用`http`库或`curl`命令获取网页的HTML源代码。例如，对于指定的中国联通、西单商场和青岛海尔的页面，可以通过`inputfile`变量指向这些链接，并使用正则表达式模式匹配股票代码及其对应的数值。 2. **设置搜索和替换模式**: - 使用正则表达式`(йͨ|̳| Onion)(.*?\n){7}`，这个模式会匹配到包含股票代码（"йͨ"、"̳" 或 " Onion"）及其后7行文本。这里的`(*?`是非贪婪匹配，确保只取到每个股票代码后的数值。 - 替换模式则是`lines($match,1)`和`lines($match,3)`，分别代表取出第一行（即股票代码）和第三行（即数值）。 3. **执行搜索与替换**: 在Perl或其他支持正则表达式的语言中，使用`preg_replace`或类似函数执行搜索和替换操作。这里假设已经定义了搜索和替换的正则表达式，将找到的结果替换为只包含股票代码和数值的字符串。 4. **输出结果**: 通过`print`函数将处理过的文本输出到控制台，或者保存到一个文件中，比如`a.txt`。如果使用批处理模式，可以读取多个URL，依次执行上述操作。 5. **注意事项**: - 该方法依赖于目标网页结构不变，如果网站结构调整，可能需要更新正则表达式以适应新的布局。 - 实际操作时，可能需要处理JavaScript渲染的内容，因为直接抓取HTML可能会获取到未加载的动态数据。如果存在这种情况，可能需要模拟浏览器行为（如使用Selenium）来获取完整内容。 6. **脚本使用场景**: ReplacePioneer（可能是一个工具或脚本名称）可用于自动化数据抓取，适用于需要定期更新股票价格或其他固定格式数据的情况。它可以节省手动复制和粘贴的时间，提高工作效率。通过编程技术，我们可以有效地从网页上抓取特定格式的数据，但需要注意版权和隐私问题，遵循网站的使用条款，并尊重数据的来源。

怎么直接从网页上保存文字

例如，用户需要从sina网页直接提取关心的股票值：
中国联通12.120
西单商场16.600
青岛海尔23.100

打开ReplacePioneer,操作如下：

1.按ctrl-h,打开replace窗口,设置如下：
(1)在inputfile下的窗口输入"@网页名称"，比如@http://finance.sina.com.cn/realstock/company/sh000001/nc.shtml
(2)在searchforpattern输入：
(中国联通|西单商场|青岛海尔)(.*?\n){7}
--表示只保留"中国联通"等开始的7行"
(3)在replacewithpattern输入：
lines($match,1)lines($match,3)
--表示只打印第1，3行
(4)去掉[]printunmatchedunit和[]EnhanceRegularExpression前面的勾
--表示不显示未匹配的内容，并使用标准的正则表达式。

2.点击Replace,得到结果如下：

中国联通12.120
西单商场16.600
青岛海尔23.100

======================
用ReplacePioneer批量提取网页上文章或小说中的文字，并一次保存在一个文件中，也很方便。

下载后可阅读完整内容，剩余1页未读，立即下载

fdcwz2a4863

粉丝: 0
资源: 12

网页直接提取股票数据技巧：Sina股价一键保存

如何复制网页上不能复制的文字

怎么把网页上不能复制的文字复制下来

免费获取网页文本内容或源代码

新起点一拖即存 V1.3.2002.820 绿色版(保存网页上的文字及图片)

复制无法保存下来的网页文字的方法

保存图片及文字

vue项目或网页上实现文字转换成语音播放功能

图片保存能手批量保存网页图片

Dreamweaver怎么新建网页并保存?

如何采集网页图片和文字

最新资源