用 VC++编程实现 WEB 文本资料的抓取
马创新
(南京师范大学 文学院,南京 )
提要:本文用 VC++编程实现了 WEB 文本资料的抓取。它能够获取指定网页上
的所有链接,并把这些链接的网页抓取下来,以文本文件形式保存在指定文件
夹中。实验证明:该方法具有优良的性能,能够满足使用者抓取 WEB 文本的
需求。
关键词:VC++;文本资料采集;网页抓取;
Realization of the web literature collection Using VC++
Ma Chuangxin
(College of Liberal Arts, Nanjing Normal University , Nanjing 210097,China )
【Abstract】We realized web literature collection using VC++. It can get all the links on the
page specified, and these linked pages crawled down to save as text files. Experiments
show: It has an excellent performance, to meet the needs of the user's literature collection.
【Key words】 VC++; literature collection; web crawling;
概述
在互联网应用得到普及的今天,网络上的文本资源十分丰富。为了增加网站的点击率,
网站管理人员通常会把这些文献资料以网页的形式保存在网站上供使用者浏览,而不会提
供直接地下载。为了能够离线阅读或者对文献资料做其他处理,有时需要把这些资料下载
下来保存在文本文件里。我们用 编程实现了 文本资料的采集,指定程序一个
网址,它就能够获取这个页面上的所有链接;并且把这些链接所指向的页面内容下载到指
定的文件夹中。
本程序所能实现的功能
本程序的可视界面如图 所示,使用这个程序时,首先在地址栏中输入要采集的网页
地址;然后点击“定位网页”命令按钮,就会在对话框中间的 浏览器中显示该网页;之
后再指定保存文本文件的文件夹,可以直接输入文件夹路径,也可以通过“浏览”按钮来选
择;最后点击“采集网页文本”命令按钮,程序能够自动获得这个页面上的所有链接;把这
些链接所指向的页面内容下载到指定文件夹中,并且在最下面的列表控件中显示“链接名
称”和“链接路径”。