数据字段说明: 时间:投资事件发生的时间,格式为:年/月/日。 公司名称:被投资的公司名称。 公司网址:被投资公司在信息披露网站的主页URL。 融资轮次:融资轮次。 投资金额:融资金额,单位有人民币、美元等不同货币。该字段的值有多种类型,包括:明确金额、金额范围、未披露。(读入数据后应换算成统一单位,金额范围按中值记录,未披露按0记录) 投资人:投资人,有单个投资人、多个投资人、未披露。 最新估值(估算):投资后,被投资公司的估值。估值=投资人投资金额/投资人所占股权比例。 字段1:被投资公司所在的领域(一级)。 字段2:被投资公司所在的领域(二级)。 字段3:被投资公司所在的领域(三级)。 请统计 筛选出所有投资方未透露,且投资金额也未透露的投资事件信息,然后按照一级领域统计这些投资在每个领域的总投资次数和金额,按照次数降序输出,次数相同按照金额降序,然后将结果写入result.txt文件中。
时间: 2024-01-24 09:20:41 浏览: 20
以下是代码实现:
```python
import pandas as pd
# 读取数据
data = pd.read_csv('investments.csv', encoding='gbk')
# 筛选投资金额和投资方均未透露的数据
data = data[(data['投资金额'].isin(['未透露', ''])) & (data['投资人'].isin(['未透露', '']))]
# 按一级领域进行分组,并统计总投资次数和金额
result = data.groupby('字段1').agg({'时间': 'count', '投资金额': 'sum'})
# 按次数降序,金额降序排序
result = result.sort_values(by=['时间', '投资金额'], ascending=[False, False])
# 将结果写入文件
result.to_csv('result.txt', sep='\t', header=['总投资次数', '总投资金额'])
```
需要注意的是,由于投资金额和投资方都有可能未透露,因此需要将这两个条件都作为筛选条件。在统计总投资金额时,需要将金额范围按中值记录,并转换成统一货币单位。此外,为了方便查看结果,将结果按制表符分隔,并在第一行添加表头。
相关问题
# 数据集为2015-2020年在线教育市场的投资事件信息汇总 # 数据字段说明: # ▪ 时间:投资事件发生的时间,格式为:年/月/日。 # ▪ 公司名称:被投资的公司名称。 # ▪ 公司网址:被投资公司在信息披露网站的主页URL。 # ▪ 融资轮次:融资轮次。 # ▪ 投资金额:融资金额,单位有人民币、美元等不同货币。该字段的值有多种类型,包括:明确金额、金额范围、未披露。(读入数据后应换算成统一单位,金额范围按中值记录,未披露按0记录) # ▪ 投资人:投资人,有单个投资人、多个投资人、未披露。 # ▪ 最新估值(估算):投资后,被投资公司的估值。估值=投资人投资金额/投资人所占股权比例。 # ▪ 字段1:被投资公司所在的领域(一级)。 # ▪ 字段2:被投资公司所在的领域(二级)。 # ▪ 字段3:被投资公司所在的领域(三级)。 # 请统计:筛选出所有投资方未透露,且投资金额也未透露的投资事件信息,然后按照一级领域统计这些投资在每个领域的总投资次数和金额,按照次数降序输出,次数相同按照金额降序。最后将结果写入result.txt文件中。
好的,这是一个数据处理任务。你需要使用Python编写代码来完成该任务。以下是一个可能的解决方案:
```python
import pandas as pd
# 读入数据
df = pd.read_excel('data.xlsx')
# 将金额转换为统一单位(以万元为单位)
df.loc[df['投资金额'].str.contains('万'), '投资金额'] = df.loc[df['投资金额'].str.contains('万'), '投资金额'].str.extract('(\d+\.?\d*)')['投资金额'].astype(float)
df.loc[df['投资金额'].str.contains('亿'), '投资金额'] = df.loc[df['投资金额'].str.contains('亿'), '投资金额'].str.extract('(\d+\.?\d*)')['投资金额'].astype(float) * 10000
df.loc[df['投资金额'] == '未透露', '投资金额'] = 0
# 筛选出投资金额和投资方均未透露的投资事件
df = df[(df['投资金额'] == 0) & (df['投资人'] == '未透露')]
# 按一级领域统计投资次数和金额
result = df.groupby('字段1').agg({'公司名称': 'count', '投资金额': 'sum'}).sort_values(by=['公司名称', '投资金额'], ascending=False)
# 写入文件
result.to_csv('result.txt', sep='\t')
```
说明:
1. 首先读入数据,并将金额转换为统一单位(以万元为单位)。如果投资金额中包含“万”或“亿”等单位,则提取其中的数字,并乘以相应的倍数转换为万元。
2. 然后筛选出投资金额和投资方均未透露的投资事件,使用逻辑运算符“&”将两个条件连接起来。
3. 最后按照一级领域统计投资次数和金额,并按照题目要求进行排序。注意,如果出现次数相同的情况,需要按照金额降序排列。
4. 将结果写入文件,使用制表符作为字段分隔符。
帮我写一个测试用例,“上级单位”改为“业主/投资方” 新增、详情、导出页同步修改
当“上级单位”被改为“业主/投资方”时,需要对新增、详情和导出页进行同步修改,以确保修改后的页面能够正确显示业主/投资方信息。下面是一个可能的测试用例:
测试用例名称:修改“上级单位”为“业主/投资方”后,新增、详情、导出页同步修改测试
测试目的:测试当“上级单位”被修改为“业主/投资方”时,新增、详情和导出页能否正确显示业主/投资方信息。
测试条件:
1. 测试环境已搭建完毕。
2. 系统已经升级,将“上级单位”改为“业主/投资方”。
测试步骤:
1. 打开新增页面,输入业主/投资方信息,保存并提交。
2. 打开详情页面,查看业主/投资方信息是否正确显示。
3. 导出业主/投资方信息,查看导出的Excel表格中是否正确显示业主/投资方信息。
测试结果:
1. 如果新增页面、详情页面和导出的Excel表格中的业主/投资方信息都正确显示,测试用例通过。
2. 如果其中任何一个页面中的业主/投资方信息不正确,测试用例不通过。
备注:
在测试用例设计之前,需要先确定“业主/投资方”字段的数据类型、长度、有效值域等信息,并且需要对修改后的页面进行充分的测试和验证,确保修改后的页面能够正常工作。