import requests as rq from bs4 import BeautifulSoup url = input("Enter Link: ") if ("https" or "http") in url: data = rq.get(url) else: data = rq.get("https://" + url) soup = BeautifulSoup(data.text, "html.parser") links = [] for link in soup.find_all("a"): links.append(link.get("href")) # 将输出写入文件(myLinks.txt) # 可以将“a”更改为“w”以每次覆盖文件 with open("myLinks.txt", 'a') as saved: print(links[:10], file=saved)
时间: 2024-02-23 08:03:10 浏览: 199
这段代码可以从一个输入的 URL 中提取出所有的链接,并将前10个链接写入到一个名为 myLinks.txt 的文件中。以下是每行代码的注释:
```python
# 导入 requests 和 BeautifulSoup 库
import requests as rq
from bs4 import BeautifulSoup
# 获取用户输入的 URL
url = input("Enter Link: ")
# 判断 URL 是否包含 http 或 https
if ("https" or "http") in url:
data = rq.get(url) # 如果包含,则直接使用该 URL 请求网页内容
else:
data = rq.get("https://" + url) # 如果不包含,则在 URL 前添加 https:// 并请求网页内容
# 使用 BeautifulSoup 解析网页内容
soup = BeautifulSoup(data.text, "html.parser")
# 从网页中提取所有的链接,并将其存储在一个列表中
links = []
for link in soup.find_all("a"):
links.append(link.get("href"))
# 将前10个链接写入到 myLinks.txt 文件中
with open("myLinks.txt", 'a') as saved: # "a" 表示以追加模式打开文件
print(links[:10], file=saved) # 将前10个链接写入文件中,每个链接占一行
```
阅读全文