代码审查的数据集有哪些
时间: 2023-05-30 15:07:35 浏览: 106
以下是代码审查的数据集示例:
1. CodeReview Stack Exchange 数据集
2. Google 开源项目的代码审查历史
3. GitHub 上的开源项目
4. Apache 开源项目的代码审查历史
5. Mozilla 开源项目的代码审查历史
6. Eclipse 开源项目的代码审查历史
7. Microsoft 开源项目的代码审查历史
8. CodeClimate 数据集
9. GitLab 数据集
10. BitBucket 数据集
相关问题
中文代码审查的数据集有哪些
目前,常用的中文代码审查数据集包括以下几种:
1. Sina Weibo:新浪微博上的用户评论数据集,可用于情感分析和文本分类。
2. THUCNews:清华大学提供的新闻文本数据集,可用于文本分类和情感分析。
3. Tencent AI Lab Chat Corpus:腾讯AI实验室提供的对话语料库,可用于对话系统和情感分析。
4. LCQMC:清华大学提供的中文文本匹配数据集,可用于文本相似度和匹配模型。
5. CCKS 2019:第六届中国中文信息处理会议提供的数据集,包括事件抽取、关系抽取、实体识别等任务。
6. Chinese NER Corpus:清华大学提供的中文命名实体识别数据集。
7. Chinese Word Segmentation Dataset:中文分词数据集,可用于中文分词算法评估。
8. Chinese Gigaword Corpus:中文新闻文本语料库,包括多种新闻主题和领域,可用于文本分类和情感分析。
以上是一些常用的中文代码审查数据集,但随着技术和应用的不断发展,还有很多其他类型和领域的数据集在不断涌现。
sas数据集A有变量卡号、账号、金额、响应码、审查员,数据集B变量有规则 日期 金额商户名称 审查员,现在需要将数据合并在一起,并将三天的金额求和,累计金额大于五万的数据提取出来、请写出代码
以下是将两个数据集合并并计算三天金额并提取累计金额大于五万的数据的代码:
```python
import pandas as pd
# 读取数据集A和数据集B
df_a = pd.read_sas('dataset_A.sas7bdat')
df_b = pd.read_sas('dataset_B.sas7bdat')
# 合并数据集A和数据集B
df = pd.merge(df_a, df_b, on='审查员')
# 将日期转换为datetime类型
df['日期'] = pd.to_datetime(df['日期'])
# 计算三天金额
df['三天金额'] = df.groupby(['卡号', '账号', '商户名称'])['金额'].rolling(window=3, min_periods=1).sum().reset_index(drop=True)
# 提取累计金额大于五万的数据
df = df[df['三天金额'] > 50000].reset_index(drop=True)
# 输出结果
print(df)
```
注意:以上代码仅供参考,具体实现可能需要根据数据集的具体情况进行调整。