# stock_basic = pro.stock_basic() # 获取上市公司信息 stock_basic = pd.read_pickle("stock_basic.pkl") # 获取上市公司信息 stock_sample = stock_basic.sample(n=100, axis=0) # 随机抽取十家上市公司 file = "新浪财经上市公司高管任职数据.csv" df = stock_managers_info(stocks=stock_sample)
时间: 2024-04-05 11:34:12 浏览: 19
这段代码中的第一行被注释掉了,实际上是通过tushare库的pro接口获取所有上市公司信息,可以直接调用pro.stock_basic()方法。由于该方法需要在tushare官网上注册并获取token,因此这里使用了一个本地的pickle文件(stock_basic.pkl)来存储之前已经获取过的上市公司信息,以便于调试和运行。接着使用pandas库的sample()方法随机抽取了指定数量(100)的上市公司。最后调用stock_managers_info()函数,使用抽取的上市公司作为参数,获取这些公司的股票经理信息,并将其存储到一个名为“新浪财经上市公司高管任职数据.csv”的CSV文件中。
相关问题
if __name__ == "__main__": BMES = [] #emit_mat = pd.DataFrame(index=['B','M','E','S']) #new_sentence = input("请输入你要分词的句子:") #new_sentence = "商品和货币" print("正在读取本地模型矩阵...") with open(r'mat_pickle/init_mat.pkl', "rb") as f0: init_mat = np.array(list(pickle.load(f0).values()))
这是一个 Python 代码片段,它的作用是:
1. 判断当前代码是否在主程序中运行,如果是则执行以下代码;
2. 定义一个空列表 `BMES`;
3. 注释掉了一行代码 `emit_mat = pd.DataFrame(index=['B','M','E','S'])`,该代码应该是定义了一个名为 `emit_mat` 的 Pandas 数据框,并设置其索引为 ['B','M','E','S'];
4. 注释掉了一行代码 `new_sentence = input("请输入你要分词的句子:")`,该代码应该是从用户输入中获取需要分词的句子;
5. 定义了一个字符串变量 `new_sentence` 并赋值为 "商品和货币";
6. 打印一行信息 "正在读取本地模型矩阵...";
7. 使用 Python 内置的 `open` 函数打开一个文件 "mat_pickle/init_mat.pkl",并以二进制模式打开;
8. 通过 Python 内置的 `pickle` 模块的 `load` 函数,将打开的文件中的数据反序列化为 Python 对象,并转换为列表类型,并将该列表转换为 NumPy 数组,并赋值给变量 `init_mat`。
def load_data(cfg_dict): # df_1 = pd.read_pickle('sample/easy_sample_pos_std.pickle') # df_1 = pd.read_pickle('sample/easy_sample_pos.pickle') df_1 = pd.DataFrame() for root, dirs, files in os.walk('sample/tmp_zq_yf_easy_sample_pos/'): files = [f for f in files if not f[0] == '.'] for file in files: print('read from => %s%s' % (root, file)) tmp = pd.read_csv('sample/tmp_zq_yf_easy_sample_pos/' + file, header=None, encoding='utf-8') df_1 = df_1.append(tmp) df_1.columns = ['号码', '用户状态', '用户星级',
这段代码是用来加载数据的函数。根据配置字典 cfg_dict 中的设置,从指定目录中读取数据文件并将其合并为一个数据框 df_1。
首先,函数创建一个空的数据框 df_1。
然后,通过 os.walk 函数遍历指定目录下的文件,获取文件列表。在遍历过程中,排除以点开头的隐藏文件。
接下来,对于每个文件,函数使用 pd.read_csv 函数读取文件内容,并将其追加到 df_1 数据框中。
最后,函数给 df_1 数据框添加列名,列名为 ['号码', '用户状态', '用户星级', ...]。
这段代码的作用是从指定目录中读取多个数据文件,并将它们合并为一个数据框。这样可以方便后续对数据进行处理和分析。
相关推荐
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)