5.什么是升维和降维,什么情况下需要升维和海降处理,分别举例子说明一下 6.什么是监督学习和无监督学习,分别举例子说明? 7. 试用正则表达式匹配字符串中的所有非字母字符,并用空格替换 8. 某公司生产的产品从A厂与B厂采购的占比为40%和60%。 已知A厂生产的产品有1.5% 的不合格率,B厂生产的产品有1.8的不台格率,某批次公司检测到件取疵品, 则此石变 品由B厂生产的根率为多少 9 爬虫是获取信息的重要手段,简要描述爬虫的具体过程,一名合格的网络爬虫工程师应 该遵循哪些规范?
时间: 2024-03-09 16:45:25 浏览: 20
5. 升维和降维是指在数据处理过程中,增加或减少特征的维度。升维一般用于解决特征提取不足的问题,例如使用多项式特征扩展来提高模型的复杂度;而降维则用于减少数据的复杂度,例如使用主成分分析(PCA)来压缩数据的维度。举例来说,升维可以是将二维坐标转化为三维坐标,而降维可以是将高维数据降为二维或三维以便可视化。
6. 监督学习和无监督学习是机器学习中的两种主要方法。监督学习是指已知数据的标签,通过学习建立一个能够对未知数据进行准确分类或回归的模型。例如,给定一些猫和狗的图片,并标注它们的类别,通过学习建立一个能够对新照片进行分类的模型。无监督学习则是指没有数据标签,通过学习从未标记的数据中发现其内在结构和模式。例如,使用聚类算法对一堆图片进行分类,但没有明确的标签。
7. 可以使用正则表达式“\W”匹配所有的非字母字符,例如空格、标点符号等。代码示例:
```python
import re
text = "This is a sentence with @non-alphabetic characters! 1 2 3"
result = re.sub(r'\W+', ' ', text)
print(result) # 输出:This is a sentence with non alphabetic characters 1 2 3
```
8. 假设共有100件产品,其中40件来自A厂,60件来自B厂。A厂的不合格率为1.5%,即有0.015 * 40 = 0.6件不合格品;B厂的不合格率为1.8%,即有0.018 * 60 = 1.08件不合格品。因此,共有 0.6 + 1.08 = 1.68 件不合格品。如果这些不合格品都来自B厂,则 B 厂生产的不合格率为 1.08 / 60 = 1.8%。
9. 爬虫的具体过程一般包括以下几个步骤:首先确定爬取的目标网站和需要获取的信息,然后编写程序模拟浏览器行为,通过发送 HTTP 请求获取网页内容,使用 HTML 解析库对网页进行解析提取信息,存储数据或进行分析。合格的网络爬虫工程师应该遵循网站的 robots.txt 协议,避免对网站造成过大的负担,同时尊重网站的版权和隐私,不进行非法爬虫行为。