df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)}) df pd.get_dummies(df['key']) pd.get_dummies(df['key'], prefix='key')

运行这段代码。报错’ Unable to allocate 28.9 TiB for an array with shape (1866, 4259567003) and data type float32‘，如何解决：“smiles = data['SMILES'] fps = [] for smi in smiles: mol = Chem.MolFromSmiles(smi) fp = AllChem.GetMorganFingerprint(mol, 2) fps.append(fp.GetNonzeroElements()) fps_array = np.zeros((len(fps), max(max(fp.keys()) for fp in fps) + 1), dtype=np.float32) for i, fp in enumerate(fps): for key, value in fp.items(): fps_array[i][key] = value fps_df = pd.DataFrame(fps_array, columns=[f'Fingerprint_{i+1}' for i in range(fps_array.shape[1])])”

fps_df = pd.DataFrame(fps_array.toarray(), columns=[f'Fingerprint_{i+1}' for i in range(fps_array.shape[1])]) 在这个示例中，我使用了scipy.sparse.csr_matrix来创建稀疏矩阵，并在每个非零元素的位置...

import pandas as pd ser=pd.Series(range(5),index = ["a","b","c","d","e"]) (1)写出ser.values的结果? (2)写出(ser * 2)的结果? (3)写出(ser[ser >= 3])的值? ( 4 ) df = pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'], 'data': [0,5,10,5,10,15,10,15,20]}) 写出df.groupby('key').sum()的结果?

(1) ser.values的结果为array([0, 1, 2, 3, 4]) (2) (ser * 2)的结果为: a 0 b 2 c 4 d 6 e 8 dtype: int64 (3) (ser[ser >= 3])的值为: d 3 e 4 dtype: int64 (4) df.groupby('key').sum()的结果为: data ...

spark-submit运行Python代码的结构如下，出现了数据倾斜问题，即每次访问接口，得到的json数据量不同，该如何修改代码结构：a = [] b = [] for url in url_list: response = requests.get(url, params=params) html = response.text data = json.loads(html) # 对Data做相关数据处理 ...... a.append(data['data']['key1']) b.append(data['data']['key2']) answer_pd= pd.DataFrame() answer_pd['a'] = a answer_pd['b'] = b conf = SparkConf().setAppName("APP").setMaster("yarn").setSparkHome("/usr/xxx/xx/xxx") sc = SparkContext(conf=conf) hc = HiveContext(sc) dt = 'database.table' # 数据库和表名 hc.setConf("hive.exec.dynamic.partition.mode", "nonstrict") hc.createDataFrame(answer_pd).write.mode("append").insertInto(dt)

df = result_rdd.toDF(["a", "b"]) # 将DataFrame写入Hive表 dt = 'database.table' # 数据库和表名 df.write.mode("append").insertInto(dt) spark.stop() 在上述代码中，我们将URL列表进行分片，并使用...

pandas，pd.DataFrame参数

df = pd.DataFrame(data) print(df) 输出结果为： name age gender 0 Alice 25 F 1 Bob 30 M 2 Charlie 35 M 其中，data 参数为一个字典，字典的 key 是列名，value 是列的数据。由于没有指定行索引...

import numpy as np import csv import pandas as pd import numpy as npjk import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei']#解决图标中汉字显示问题 plt.rcParams['axes.unicode_minus']=False#解决图标中汉字显示问题 from urllib.request import urlopen,Request from bs4 import BeautifulSoup #云计算2113方宇-2021058226 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} url = 'https://search.jd.com/Search?keyword=%E8%93%9D%E7%89%99%E9%BC%A0%E6%A0%87&enc=utf-8&wq=%E8%93%9D%E7%89%99%E9%BC%A0%E6%A0%87&pvid=405a663911e84dd3822389ef5b97c147' response = Request(url,headers=headers) res = urlopen(response) data = res.read().decode('utf-8') soup = BeautifulSoup(data,'html.parser') ddd=soup.find('ul',class_="gl-warp clearfix") bbb=ddd.select('li>.gl-i-wrap>.p-price>strong>i')#价格 ccc=ddd.select('li>.gl-i-wrap>.p-shop>span>a')#店名 #云计算2113方宇2021058226 get_rmb_date = [] for i in bbb: get_rmb_date.append(i.text) get_shop_date = [] for i in ccc: get_shop_date.append(i.text) data = [] for i in range(len(get_shop_date)): temp = [] temp.append(get_shop_date[i]) temp.append(get_rmb_date[i]) data.append(temp) print(data) #云计算2113-方宇2021058226 f = open('D:/mypython/mycode/2021058226.csv','w',encoding='utf-8') csv_write = csv.writer(f) csv_write.writerow(['商品店家','商品价格']) for i in data: csv_write.writerow(i) f.close() #云计算2113方宇-2021058226 csv_file ='D:/mypython/mycode/2021058226.csv' csv_data=pd.read_csv(csv_file,low_memory=False) csv_df=pd.DataFrame(csv_data) dfl=csv_df.head(n=10) print(dfl) plt.figure(figsize = (10,6)) x = np.arange(10) y = np.array(dfl['商品店家']) xticks = list(dfl['商品价格']) print(x,y,xticks) p=[0,1,2,3,4,5,6,7,8,9] plt.xticks(p,y,rotation=20) plt.bar(p,xticks,color='red') plt.show()如何将词云柱状图按序排列

csv_df=pd.DataFrame(csv_data) dfl=csv_df.head(n=10) print(dfl) plt.figure(figsize = (10,6)) x = np.arange(10) y = np.array(dfl['商品店家']) xticks = list(dfl['商品价格']) print(x,y,xticks) p = [0,1...

解释代码：data=pd.read_excel('评论内容.xlsx') a=list(data['评论内容']) # 将所有文本连接成一个字符串 su='' for i in a: su+=str(i) # for l in range(30,300,30) # 进行分词处理 seg = jieba.lcut(su,cut_all=False) # 构建word2vec模型，该模型用于转换词向量 model = word2vec.Word2Vec(seg, min_count=1,vector_size=100) index2word_set = set(model.wv.index_to_key) # 词向量转换函数 def avg_feature_vector(sentence, model, num_features, index2word_set): # 定义词向量数量 feature_vec = np.zeros((num_features, ), dtype='float32') n_words = 0 # 分析句子中每一个词在词库中的情况 for word in str(sentence): word=str(word) if word in index2word_set: n_words += 1 feature_vec = np.add(feature_vec, model.wv[word]) # 进行向量转换 if (n_words > 0): feature_vec = np.divide(feature_vec, n_words) return feature_vec # 将训练集的数据转换为词向量 df=[] for i in range(len(a)): s1_afv = avg_feature_vector(a[i], model=model, num_features=100, index2word_set=index2word_set) df.append(s1_afv) X=pd.DataFrame(df) # 使用nlp为评论设置初始标签 y=[] for i in range(len(a)): # print(i) s = SnowNLP(str(a[i])) if s.sentiments > 0.7: y.append(1) else: y.append(0) y=pd.DataFrame(y) # 将文本转换为onehot向量 def gbdt_lr(X, y): # 构建梯度提升决策树 gbc = GradientBoostingClassifier(n_estimators=20,random_state=2019, subsample=0.8, max_depth=5,min_samples_leaf=1,min_samples_split=6) gbc.fit(X, y) # 连续变量离散化 gbc_leaf = gbc.apply(X) gbc_feats = gbc_leaf.reshape(-1, 20) # 转换为onehot enc = OneHotEncoder() enc.fit(gbc_feats) gbc_new_feature = np.array(enc.transform(gbc_feats).toarray()) # 输出转换结果 print(gbc_new_feature) return gbc_new_feature

这段代码主要是用于文本分类的，首先通过pd.read_excel函数读取一个Excel文件中的评论内容，并将其转换成一个列表a。然后将所有的评论内容连接成一个字符串su，并使用jieba库对其进行分词处理。接下来使用...

df_with_dummies = df['data1'].join(dummies)#'Series' object has no attribute 'join'

df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)}) # 对key列进行one-hot编码 dummies = pd.get_dummies(df['key'], prefix='key') # 将编码结果与原始数据框进行连接 df_with_...

使用以下代码，在当前文件夹中生成某商场营业额模拟数据文件 data.csv。数据文件有两列，分别为“日期”和“营业额”。日期从2022-1-1开始，共365天，365条营业数据。 import csv import random import datetime fn = 'data.csv' with open(fn, 'w') as fp: # 创建 csv 文件写入对象 wr = csv.writer(fp) # 写入表头 wr.writerow(['日期', '营业额']) # 生成模拟数据 startDate = datetime.date(2022, 1, 1) # 生成 365 个模拟数据 for i in range(365): # 生成一个模拟数据，写入 csv 文件 amount = 500 + i*5 + random.randrange(100) wr.writerow([str(startDate), amount]) # 下一天 startDate = startDate + datetime.timedelta(days=1) 依据以上生成的模拟数据文件，完成下面的任务：（1）使用pandas读取文件data.csv中的数据，创建DataFrame对象，并删除其中所有缺失值。（2）绘制折线图，显示该商场每天的营业额情况，并把图形保存为本地文件 Te.jpg；（3）绘制柱状图，显示每个月份的营业额，并把图形保存为本地文件 Ye.jpg；（4）按月份进行统计，找出相邻两个月最大涨幅，并把涨幅最大的月份写入文件maxMonth.txt；（5）按季度统计该商场 2022年的营业额数据，绘制饼状图显示2022年4个季度的营业额分布情况，并把图形保存为本地文件Je.jpg。 ## 四、实验结果

quarterly_sales = df.groupby(pd.Grouper(key='日期', freq='Q'))['营业额'].sum() # 绘制饼状图显示季度营业额分布情况 plt.pie(quarterly_sales.values, labels=quarterly_sales.index, autopct='%1.1f%%') plt....

爬取完成，已将结果保存至./扶贫-KY/ 0it [00:00, ?it/s] 0it [00:00, ?it/s] Traceback (most recent call last): File "C:\Users\Administrator\PycharmProjects\pythonProject\2.py", line 120, in <module> main() File "C:\Users\Administrator\PycharmProjects\pythonProject\2.py", line 115, in main df_r = df_r.explode("参考文献") ^^^^^^^^^^^^^^^^^^^^ File "C:\Users\Administrator\AppData\Local\Programs\Python\Python311\Lib\site-packages\pandas\core\frame.py", line 8881, in explode result = df[columns[0]].explode() ~~^^^^^^^^^^^^ File "C:\Users\Administrator\AppData\Local\Programs\Python\Python311\Lib\site-packages\pandas\core\frame.py", line 3761, in getitem indexer = self.columns.get_loc(key) ^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\Administrator\AppData\Local\Programs\Python\Python311\Lib\site-packages\pandas\core\indexes\range.py", line 349, in get_loc raise KeyError(key) KeyError: '参考文献'

这样做将使得 DataFrame 的列索引为整数，你可以通过索引来访问列数据，例如 df[0]、df[1] 等等。如果问题仍然存在，请提供更多关于你的 Excel 文件结构和示例数据的信息，以便我可以更好地帮助你解决问题。

python 使用pandas库，使用 pandas 库中的 read_excel 函数和 MultiIndex 类型来读取合并单元格表头，操作excel文件“data\推送名单.xlsx”,遍历循环读取所有sheet表，读取表头“接收人工号”的所在列数据data1和读取合并单元格表头“推送内容”的所在的合并列的所有数据data2（示列：B列，C列，D列的第一行是合并单元格，是‘推送内容’表头），合并data1，data2为一个总数据data，定义一个字典dictext，定义一个字符串strtext，对data做遍历循环，其中包含的data1表头“接收人工号”的列单元格数据为字典的key值，其中包含的data2的表头为“推送内容”的合并列数据做字符串拼接strtext（表头为“推送内容”的合并列的单元格数据有转行，有特殊符号），strtext做字典的value值，每行遍历都重置strtext 相关所有代码

data2 = pd.concat([df.iloc[:, i] for i in range(1, 4)], ignore_index=True) # 合并 data1 和 data2 为一个总数据 data = pd.concat([data, pd.concat([data1, data2], axis=1)], ignore_index=True) # ...

python将数据中相邻间隔为1日的多条数据分别合成多个dataframe

groups = df.groupby(pd.Grouper(key='date', freq='D')) # 遍历每个分组 for date, group in groups: # 如果分组中只有一条数据，则跳过 if len(group) == 1: continue # 合并相邻间隔为1日的多条数据 for i ...

python 使用pandas库，使用 pandas 库中的 read_excel 函数和 MultiIndex 类型来读取合并单元格表头，操作excel文件“data\推送名单.xlsx”,遍历循环读取所有sheet表，读取表头“接收人工号”的所在列数据data1和读取合并单元格表头“推送内容”的所在的合并列的所有数据data2（示列：B列，C列，D列的第一行是合并单元格，是‘推送内容’表头），合并data1，data2为一个总数据data，表头还是之前读取的数据表头“接收人工号”，和合并表头“推送内容”，定义一个字典dictext，定义一个字符串strtext，对data做遍历循环，表头“接收人工号”的列单元格数据为字典的key值，表头为“推送内容”的合并列数据做字符串拼接strtext（表头为“推送内容”的合并列的单元格数据有转行，有特殊符号），strtext做字典的value值，每行遍历都重置strtext 相关所有代码

data2 = pd.concat([df.iloc[:, i] for i in range(1, 4)], ignore_index=True) # 合并 data1 和 data2 为一个总数据 data = pd.concat([data, pd.concat([data1, data2], axis=1)], ignore_index=True) # ...

已知dataframe有一列为列表，对应一个字典的key，如何根据key将这一列的value输出

data = {'col1': [['A', 'B'], ['C', 'D', 'E'], ['F']], 'col2': ['key1', 'key2', 'key3']} df = pd.DataFrame(data) # 根据键从列表列中提取值 key_column = 'col2' output = [df.loc[i, 'col1'][df.loc[i, key...

数据集合并python

df1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'],'data1': range(7)}) df2 = pd.DataFrame({'key':['a','b','d'],'data2':range(3)}) # 使用merge函数进行合并 merged = pd.merge(df1, df2) # 或者使用...

df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)}) df pd.get_dummies(df['key']) pd.get_dummies(df['key'], prefix='key')

df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)}) pd.get_dummies(df['key']) pd.get_dummies(df['key'], prefix='key') df_with_dummies = df[['data1']].join(dummies) df_with_dummies 错误显示NameError: name 'dummies' is not defined

相关推荐

df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)}) df pd.get_dummies(df['key']) pd.get_dummies(df['key'], prefix='key')

df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)}) pd.get_dummies(df['key']) pd.get_dummies(df['key'], prefix='key') df_with_dummies = df[['data1']].join(dummies) df_with_dummies 错误显示NameError: name 'dummies' is not defined

相关推荐

pandas通过字典生成dataframe的方法步骤

pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

pd.DataFrame统计各列数值多少的实例

pandas，pd.DataFrame参数

df_with_dummies = df['data1'].join(dummies)#'Series' object has no attribute 'join'

python将数据中相邻间隔为1日的多条数据分别合成多个dataframe

已知dataframe有一列为列表，对应一个字典的key，如何根据key将这一列的value输出

数据集合并python

最新推荐

利用迪杰斯特拉算法的全国交通咨询系统设计与实现

管理建模和仿真的文件

【实战演练】基于TensorFlow的卷积神经网络图像识别项目

CD40110工作原理

全国交通咨询系统C++实现源码解析

"互动学习：行动中的多样性与论文攻读经历"

【实战演练】使用Seaborn和Plotly进行数据可视化项目

Python的六种数据类型

DFT与FFT应用：信号频谱分析实验

关系数据表示学习