2021字节跳动安全AI挑战赛:ECNU_ICA技术解析

需积分: 0 0 下载量 32 浏览量 更新于2024-06-30 收藏 867KB PDF 举报
"这篇文档详细介绍了2021字节跳动安全AI挑战赛中ECNU_ICA技术的各个方面,包括用户基础信息、用户投稿信息和用户行为信息的数据字段,以及赛题的理解、数据概况、判别指标和基础数据分析。" 在本次比赛中的数据主要分为三类: 1. **用户基础信息**:这部分数据包含了用户的基本属性,如用户ID(id)、性别(gender_str)、个性签名(signature,以字符映射为int值)、账户创建时间(create_time)、关注人数(follow_num_all)、粉丝数(fans_num_all)、投稿总数(publish_cnt_all)以及评论总数(server_comment_cnt_all)。这些信息有助于了解用户的活跃度和社交影响力。 2. **用户投稿信息**:这部分数据专注于用户发布的视频内容,包括用户ID(id)、视频标题(item_title,同样以字符映射为int值)、视频的地点信息(poi_name)、省份(item_province_cn)以及创建时间(item_create_time)。这些字段揭示了用户的创作行为和内容偏好。 3. **用户行为信息**:这部分数据记录了用户与平台的互动行为,如播放次数(video_play)、完整播放次数(video_play_finish)、播放时长(play_time)、点击播放次数(click_video_play)、feed请求(feed_request)、上滑和下滑feed页的次数、点赞数(like)、点不喜欢数(dislike)、评论数(post_comment)、搜索次数(search)和分享次数(share_video)。这些行为数据能反映用户的参与度和偏好。 在**赛题理解**部分,任务是预测色情导流用户,即通过分析用户数据来识别可能从事不良活动的账户。由于正常用户与黑产用户数量差距大,所以评估标准采用了F-beta,它更重视预测错误的正常用户,以适应真实的风控场景。 **数据分析**阶段,注意到训练集和测试集中可能存在相同ID,但它们表示不同的用户。因此,在分析时,ID和标签列可以作为唯一标识样本的关键依据。此外,文档中还暗示了数据存在缺失值,这需要在预处理阶段进行处理。 这个挑战赛的核心在于利用用户的基础信息、投稿信息和行为模式来构建模型,以准确预测潜在的色情导流用户。为了达到这个目标,参赛者需要深入理解数据,进行有效的特征工程,选择合适的模型,并优化评估指标以适应实际业务需求。