写个爬虫,爬取“https://www.tjnu.edu.cn/kyjz.htm”上面的文章标题,链接,发表时间和内容
时间: 2023-03-14 20:03:30 浏览: 149
我可以提供一个简单的Python爬虫示例,可以帮助您实现上述功能:import requests
from bs4 import BeautifulSoupurl = "https://www.tjnu.edu.cn/kyjz.htm"# 获取网页
response = requests.get(url)# 分析网页
soup = BeautifulSoup(response.text, 'html.parser')# 提取文章标题,链接,发表时间与内容
for element in soup.find_all('div', {'class': 'listtitle'}):
title = element.find('a').text
link = element.find('a').get('href')
time = element.find('span').text
content = element.find('p').text
print(title, link, time, content)
相关问题
basedir='/home/tjnu_fmri/wangqiang/zhangbin/task97' for c in 203 205 do SUB=SUB${c} echo $SUB cd $basedir/$SUB/analysis/ if [ ! -d WQsgroup_DL.gfeat ] then sed -e "s/SUB201/$SUB/g" ../../SUB201/WQsgroup_DL.gfeat/design.fsf > group_DL.fsf feat group_DL.fsf & fi done
这段代码是一个简单的 Bash 脚本,用于在指定路径下进行循环操作。它首先设置了一个变量 `basedir`,指定了脚本的基准目录。
然后,通过一个 for 循环,遍历了两个值,203 和 205。每次循环中,它将 SUB 的值设置为 "SUB" 加上当前循环的值,例如 SUB203 和 SUB205。
接下来,它使用 `cd` 命令切换到指定路径下的 `analysis` 目录。
在 `analysis` 目录中,它使用条件判断语句 `if [ ! -d WQsgroup_DL.gfeat ]` 来检查是否存在一个名为 `WQsgroup_DL.gfeat` 的目录。如果该目录不存在,则执行下面的操作。
使用 `sed` 命令来替换 `../../SUB201/WQsgroup_DL.gfeat/design.fsf` 文件中的 "SUB201" 字符串为当前的 SUB 值,并将结果输出到名为 `group_DL.fsf` 的文件中。
最后,它使用 `feat` 命令来运行 `group_DL.fsf` 文件。
总的来说,这段代码的作用是根据循环变量的不同,在指定路径下执行一些特定的操作。
basedir='/home/tjnu_fmri/wangqiang/zhangbin/task97' for c in 801 do SUB=SUB${c} echo $SUB cd $basedir/$SUB/analysis/ for run in 1 2 3 do echo $run if [ ! -d CVrun${run}.feat ] then sed -e "s/SUB201/$SUB/g" ../../SUB201/analysis/CVrun${run}.feat/design.fsf > CVrun${run}.fsf feat CVrun${run}.fsf & fi done done
这段代码是一个Shell脚本,根据给定的basedir和c的值,循环执行一系列操作。
首先,根据c的值构建变量SUB,然后在终端打印出SUB的值。
接下来,进入指定目录$basedir/$SUB/analysis/。
然后,在一个嵌套的for循环中,对run的值进行迭代,即1、2、3。
在循环体中,首先打印出run的值。
然后,使用if条件语句判断CVrun${run}.feat目录是否存在。如果不存在,则执行下面的操作。
使用sed命令将../../SUB201/analysis/CVrun${run}.feat/design.fsf文件中的"SUB201"替换为$SUB,并将结果输出到CVrun${run}.fsf文件中。
最后,使用feat命令执行CVrun${run}.fsf文件,并放入后台运行。
整个过程会重复执行801次,每次循环根据不同的c值进行操作。
阅读全文