def load_data(data_file, usecols): ''' 读取数据文件,加载数据 ''' data = [] with open(data_file, 'r') as csvfile: data_reader = csv.DictReader(csvfile) # === 数据处理 === for row in data_reader: # 取出每行数据,组合为一个列表放入数据列表中 row_data = [] # 注意csv模块读入的数据全部为字符串类型 for col in usecols: str_val = row[col] # 数据类型转换为float,如果是'NA',则返回nan row_data.append(float(str_val) if str_val != 'NA' else np.nan) # 如果行数据中不包含nan才保存该行记录 if not any(np.isnan(row_data)): data.append(row_data) # 将data转换为ndarray data_arr = np.array(data) return data_arr
时间: 2024-02-14 11:17:13 浏览: 218
这也是一个从数据文件中加载数据的函数定义,但与之前的函数实现方式不同。它使用了Python标准库的csv模块读取数据,而不是pandas库。该函数将每行数据读取为一个字典类型的对象,并使用usecols参数指定需要读取的列。读取完成后,将数据转换为一个二维ndarray数组并返回。
具体实现中,将每行数据中指定的列转换为float类型,如果值为'NA',则转换为numpy库中的nan值。如果该行数据中不包含nan值,则将其加入到待返回的数据列表中。最后,将数据列表转换为ndarray并返回。
需要注意的是,该函数中使用了numpy库,因此需要在函数开头引入该库。
示例调用方式如下:
```python
data = load_data("data.csv", ["col1", "col2"])
```
该示例代码将从名为"data.csv"的文件中加载"col1"和"col2"两列数据,并返回一个包含这两列数据的ndarray数组。
相关问题
def load_data(data_file,usecols): ''' 读取数据文件,加载数据 ''' data=[] with open(data_file,'r') as csvfile: data_reader=csv.DictReader(csvfile)#用于按行读取csv文件,并且每一行都会被转化成一个字典类型,其中字典的键值对分别对应着csv文件的表头和该行的数据 # === 数据处理 === for row in data_reader: # 取出每行数据,组合为一个列表放入数据列表中 row_data=[] # 注意csv模块读入的数据全部为字符串类型 for col in usecols: str_val=row[col] #数据类型转换为float,如果是'NA',则返回nan row_data.append(float(str_val) if str_val!='NA' else np.nan) # 如果行数据中不包含nan才保存该行记录 if not any(np.isnan(row_data)): data.append(row_data) # 将data转换为ndarray data_arr=np.array(data) return data_arr
这段代码的作用是读取一个csv文件,并将指定的列转换为浮点数,不包含缺失值('NA')的行数据保存为ndarray类型并返回。其中参数data_file是数据文件路径,usecols是要转换为浮点数的列。代码中使用了csv模块按行读取csv文件,并将每行数据转换为字典类型,然后根据usecols获取指定列的值并转换为浮点数,最后将该行数据保存为一个列表,如果该行数据中包含缺失值则不保存。最终将所有保存的数据转换为ndarray类型并返回。
def get_cve_data(project_type="java"): cve_data = None if project_type == "java": cve_data = getattr(g, '_java_cve_data', None) if cve_data is None: with open(java_vul_fixing_file) as fin: cve_data = g._java_cve_data = json.load(fin) elif project_type == "c": cve_data = getattr(g, '_c_cve_data', None) if cve_data is None: with open(c_vul_fixing_file) as fin: cve_data = g._c_cve_data = json.load(fin) return cve_data
这段代码定义了一个名为 `get_cve_data` 的函数,用于获取特定项目类型的 CVE 数据。函数接受一个可选的参数 `project_type`,默认值为 `"java"`。
函数首先定义了一个变量 `cve_data` 并将其初始化为 `None`。然后,根据 `project_type` 的值,它会从全局对象 `g` 中获取对应项目类型的 CVE 数据。如果 `cve_data` 为 `None`,则说明还没有加载过该项目类型的数据,函数会从相应的文件中读取 JSON 数据,并将其保存到 `g` 对象中。
最后,函数返回获取到的 CVE 数据。
这段代码假设在全局对象 `g` 中存在用于存储 Java 和 C 项目的 CVE 数据的属性 `_java_cve_data` 和 `_c_cve_data`。它还假设有两个文件路径 `java_vul_fixing_file` 和 `c_vul_fixing_file` 分别指向存储 Java 和 C 项目的 CVE 数据的 JSON 文件。
你可以根据需要,修改文件路径和属性名称以适应你的代码结构和数据存储方式。
阅读全文