优先使用Spark SQL对event_attendees.csv数据进行观察、统计,包含但不限于行数,主外键,null,各字段值范围,可能越界等情况
时间: 2023-06-05 21:05:04 浏览: 94
好的,关于观察和统计event_attendees.csv数据,我可以使用Spark SQL来进行操作。我可以计算出数据集的行数,并且查看每个字段的值范围和是否存在 null 值。我还可以检查主键和外键是否正确,并且判断是否有越界的情况出现。请问还有什么其他的问题需要我帮忙解答吗?
相关问题
CREATE TABLE `visitor_tracking` ( `id` int NOT NULL AUTO_INCREMENT COMMENT 'ID', `org_id` varchar(8) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '机构Id', `customer_manager` varchar(64) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '客户经理', `manager_id` varchar(64) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '员工编号', `customer_id` varchar(64) COLLATE utf8mb4_general_ci NOT NULL COMMENT '客户Id', `customer_name` varchar(64) COLLATE utf8mb4_general_ci NOT NULL COMMENT '客户姓名', `company` varchar(64) COLLATE utf8mb4_general_ci NOT NULL COMMENT '访客公司', `visit_date` varchar(16) COLLATE utf8mb4_general_ci NOT NULL COMMENT '访问日期', `visit_location` varchar(255) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '拜访地点', `attendees` varchar(255) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '拜访人员', `visit_description` text COLLATE utf8mb4_general_ci COMMENT '拜访情况', `create_by` varchar(64) COLLATE utf8mb4_general_ci DEFAULT '' COMMENT '创建者', `create_time` datetime DEFAULT NULL COMMENT '创建时间', `update_by` varchar(64) COLLATE utf8mb4_general_ci DEFAULT '' COMMENT '更新者', `update_time` datetime DEFAULT NULL COMMENT '更新时间', PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci COMMENT='访客跟踪表';
这是一个创建名为 `visitor_tracking` 的表的 SQL 语句,它包含了以下字段:
- `id`:整数类型,自增,作为主键。
- `org_id`:字符串类型,可为空,用于存储机构ID。
- `customer_manager`:字符串类型,可为空,用于存储客户经理。
- `manager_id`:字符串类型,可为空,用于存储员工编号。
- `customer_id`:字符串类型,不能为空,用于存储客户ID。
- `customer_name`:字符串类型,不能为空,用于存储客户姓名。
- `company`:字符串类型,不能为空,用于存储访客公司。
- `visit_date`:字符串类型,不能为空,用于存储访问日期。
- `visit_location`:字符串类型,可为空,用于存储拜访地点。
- `attendees`:字符串类型,可为空,用于存储拜访人员。
- `visit_description`:文本类型,用于存储拜访情况。
- `create_by`:字符串类型,默认为空,用于存储创建者。
- `create_time`:日期时间类型,默认为空,用于存储创建时间。
- `update_by`:字符串类型,默认为空,用于存储更新者。
- `update_time`:日期时间类型,默认为空,用于存储更新时间。
该表使用 InnoDB 引擎,默认字符集为 utf8mb4。它的注释是 '访客跟踪表'。
如何用SQL统计 团课次数 一起上课总人数 和谁一起上课最多?
可以使用以下 SQL 语句来统计团课次数、一起上课的总人数以及谁一起上课最多:
```
-- 统计团课次数
SELECT COUNT(*) FROM class WHERE type = 'group';
-- 统计一起上课总人数
SELECT SUM(num_attendees) FROM class;
-- 谁一起上课最多
SELECT attendee, COUNT(attendee) as times_attended
FROM class
GROUP BY attendee
ORDER BY times_attended DESC
LIMIT 1;
```
其中需要注意: 表名称和字段名称要换成你所使用的真实数据表, 这里给出的只是参考.
阅读全文