2021字节跳动安全AI挑战赛：ECNU_ICA技术解析

需积分: 0 31 浏览量更新于2024-06-30 收藏 867KB PDF 举报

"这篇文档详细介绍了2021字节跳动安全AI挑战赛中ECNU_ICA技术的各个方面，包括用户基础信息、用户投稿信息和用户行为信息的数据字段，以及赛题的理解、数据概况、判别指标和基础数据分析。" 在本次比赛中的数据主要分为三类： 1. **用户基础信息**：这部分数据包含了用户的基本属性，如用户ID（id）、性别（gender_str）、个性签名（signature，以字符映射为int值）、账户创建时间（create_time）、关注人数（follow_num_all）、粉丝数（fans_num_all）、投稿总数（publish_cnt_all）以及评论总数（server_comment_cnt_all）。这些信息有助于了解用户的活跃度和社交影响力。 2. **用户投稿信息**：这部分数据专注于用户发布的视频内容，包括用户ID（id）、视频标题（item_title，同样以字符映射为int值）、视频的地点信息（poi_name）、省份（item_province_cn）以及创建时间（item_create_time）。这些字段揭示了用户的创作行为和内容偏好。 3. **用户行为信息**：这部分数据记录了用户与平台的互动行为，如播放次数（video_play）、完整播放次数（video_play_finish）、播放时长（play_time）、点击播放次数（click_video_play）、feed请求（feed_request）、上滑和下滑feed页的次数、点赞数（like）、点不喜欢数（dislike）、评论数（post_comment）、搜索次数（search）和分享次数（share_video）。这些行为数据能反映用户的参与度和偏好。在**赛题理解**部分，任务是预测色情导流用户，即通过分析用户数据来识别可能从事不良活动的账户。由于正常用户与黑产用户数量差距大，所以评估标准采用了F-beta，它更重视预测错误的正常用户，以适应真实的风控场景。 **数据分析**阶段，注意到训练集和测试集中可能存在相同ID，但它们表示不同的用户。因此，在分析时，ID和标签列可以作为唯一标识样本的关键依据。此外，文档中还暗示了数据存在缺失值，这需要在预处理阶段进行处理。这个挑战赛的核心在于利用用户的基础信息、投稿信息和行为模式来构建模型，以准确预测潜在的色情导流用户。为了达到这个目标，参赛者需要深入理解数据，进行有效的特征工程，选择合适的模型，并优化评估指标以适应实际业务需求。

在用户行为信息表中，一行记录代表 id 列所指的用户的统计行为信息，且 id 唯一。

其中，用户基础信息表与用户行为信息表根据 id 属于一对一的关系，因此可做直接拼

接。

用户基础信息表与用户投稿信息表根据 id 属于一对多的关系，因此可在用户投稿信息中

根据 id 聚合并生成有益的统计信息，随后与基础信息表拼接。

3. 特征分析与构建

3.1 特征分析

考虑特征主要分为离散特征，连续特征与文本特征：

⚫ 离散特征（例如：性别、省份等）中类别与类别间一般认为它们之间相互独立，无有

序性。

⚫ 连续特征（例如：年龄、粉丝数）中值与值之间存在着明显的有序性，即大小关系。

⚫ 文本特征（例如：个签，视频标题）中含有短网址，联系方式，或诱导性词句，每条

数据的该特征之间相互独立。

3.1.1 用户基础特征

在用户基础特征中，主要包括：

⚫ gender_str，性别，离散型特征

⚫ signature，个性签名，序列型特征

⚫ create_time，账户创建时间，连续型特征

⚫ follow_num_all，关注人数，连续型特征

⚫ fans_num_all，粉丝数，连续型特征

⚫ publish_cnt_all，投稿数，连续型特征

⚫ server_comment_cnt_all，评论数，连续型特征

3.1.2 时间特征

本赛题中时间特征主要有两类：

⚫ 用户账户创建时间 create_time

⚫ 视频投稿时间 item_create_time

剩余19页未读，继续阅读

代码深渊漫步者

粉丝: 21
资源: 320

2021字节跳动安全AI挑战赛：ECNU_ICA技术解析

ECNU_SE_project:ECNU软件工程实践课程项目

ECNU_ITers:ECNU CS＆SE信息收集

ECNU_Helper:ECNU软件工程实践课程项目

ECNU_Helper: 提升ECNU学生学习管理效率的软件工具

ECNU 1-100 部分AC程序

XSL的PPT @ECNU

基于Python和Java的ECNU G3S1 STV课程项目心理服务热线平台设计源码

Ecnu-DB2Club-Member-List

ECNU-Online-Judge:http

ECNU2021移动应用开发期末例题.zip

最新资源