SPAM/HAM dataset介绍
时间: 2023-09-03 14:09:45 浏览: 267
SPAM/HAM数据集是用于垃圾邮件分类的英文数据集,可以用于机器学习模型的训练。这个数据集包含一个名为spam.csv的文件,其中包含用于对垃圾邮箱进行分类的数据。
如果你对这个数据集感兴趣,你可以在Kaggle上找到它,地址是https://www.kaggle.com/c/ds100fa19。在这个链接中,你可以找到相关的博文和一些关于垃圾邮件分类的练习。
当你读入数据时,可以使用pandas库来读取spam.csv文件,并将它分为训练集和测试集。具体的代码如下:
```python
import pandas as pd
import numpy as np
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")
train.head()
```
如果你想了解数据集中是否存在无效的单元格,可以使用numpy库中的sum函数来计算train和test中无效单元格的数量。具体代码如下:
```python
print(np.sum(np.array(train.isnull()==True), axis=0))
print(np.sum(np.array(test.isnull()==True), axis=0))
```
这样就可以得到train和test中无效单元格的数量了。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* [spam-and-ham-dataset.zip](https://download.csdn.net/download/qq_32742431/12129001)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *2* *3* [[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(RNN/GRU/LSTM)](https://blog.csdn.net/qq_21201267/article/details/111059250)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文