短视频不重复推荐：布隆过滤器的高效实现

需积分: 0 132 浏览量更新于2024-08-03 收藏 561KB PDF 举报

"刷短视频总是不重复，技术如何实现？" 在短视频平台中，为了确保用户在浏览时不会看到重复的内容，通常需要采用特定的技术手段。本文主要探讨了两种实现方式：一种是基于Redis Set的数据结构，另一种是利用布隆过滤器（Bloom Filter）。首先，我们来看基于Redis Set的解决方案。当用户观看一个短视频后，其对应的唯一标识（feedsid）会被添加到用户的Redis Set中。推荐系统在推荐新视频时，会先检查这个Set，如果视频ID已经存在，那么就不会再推荐给用户。这种方法简单直观，但存在一些问题。由于Redis是内存数据库，大规模用户下的存储成本高昂，并且随着用户观看视频数量的增加，Set查询效率会逐渐下降。以一个日活跃用户数为3千万，每人每天平均刷200条视频为例，每条视频ID长度为32字节。使用Redis Set的话，每日需要存储的空间约为288GB，一年下来将高达103TB，这将带来巨大的存储成本和维护开销。因此，为了优化这种方案，文章引入了布隆过滤器。布隆过滤器是一种概率型数据结构，它通过多个哈希函数将数据映射到位数组中，用于判断元素是否存在，但可能会有误判的情况（即可能报告某个元素存在，但实际上不存在）。它的优点在于空间效率高，适合处理海量数据。布隆过滤器的工作原理如下： 1. 写入：将数据通过k个不同的哈希函数映射到位数组的多个位置，将这些位置设为1。 2. 查询：再次使用相同的哈希函数计算，如果所有对应位置都是1，则可能存在于过滤器中；如果发现任一位是0，则肯定不在过滤器中。由于布隆过滤器存储的是数据的哈希值而非原始数据，所以空间占用远小于Redis Set。然而，它无法删除已添加的数据，一旦数据被添加，位数组中的对应位被置1，即使后来想删除，也会导致其他数据的误判。虽然Redis Set提供了一种直接的解决方案，但在面对海量用户和视频时，成本和效率问题突出。相比之下，布隆过滤器在空间和查询效率方面更具优势，尽管可能会有误判的风险，但可以有效地减少重复内容的展示，同时降低了存储和计算资源的需求。对于短视频平台来说，通过合理设置布隆过滤器的大小和哈希函数数量，可以在误判率可接受的范围内，实现高效且经济的去重策略。

刷短视频总是不重复，技术如何实现？

这个方案简单粗暴，就是每个用户用一个集合，存储看过的所有

feedsid。每次推荐系统要出新的 feeds 时，去 set 中 check

一下是否存在，如果存在的话，就过滤掉这条 feeds。

一般来说，像是短视频推荐的场景下，对 feeds

的实时性要求相对较高，一般会使用 Redis 作为曝光打击的载体。

不了解 Redis Set

的同学可以参考下：https://redis.io/commands/set/

这种方案的问题是，在海量用户的场景下，一是成本会很高(像 Redis

是纯内存数据库)；二是随着 feeds 数量越来越多，set

查询会随之变慢(像短视频的场景下，1晚上刷个上百条还是不成问题的)。

我们来简单试算一下，假设国民级 App 的日活跃用户在

3kw，每人每天平均刷 200 条视频 feeds，每条 feeds 的 id 长度为

32B。

如果以 Redis Set 的方案来计算：3kw * 200 * 32 * 1.5(Redis

数据结构自身存储) ~ 288G，每天需要消耗存储

288G，1个月呢？8.6T，1年呢？103T。以腾讯云 keewiDB

的持久内存来估计 64元/GB/月，1月成本大约

55w，有钱也不能这么造啊。

那有没有更优惠的实现方案呢？这就要说到本文的主角，布隆过滤器了。

2方案二：Bloom Filter

下载后可阅读完整内容，剩余7页未读，立即下载

毕业小助手

粉丝: 2743
资源: 5583

短视频不重复推荐：布隆过滤器的高效实现

UNH-IOL-NVMe-ZNS-Command-Set-Conformance-v19.0-2023.01.04.pdf

啊哈算法系列-2023-10-11.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

IEC 61189-2-804-2023.pdf

卡士妥 卡斯托绿色技术手册Gogreen-Technical-Handbook-2023.pdf

人工智能行业专题：AIGC投资框架-西南证券-2023.5.21-66页.pdf

IEC 60966-3 - 2023.pdf

ISO 4210-1-2023.pdf

IEC 62368-1-2023.pdf

BS 1363-1-2023.pdf

最新资源

卡士妥卡斯托绿色技术手册Gogreen-Technical-Handbook-2023.pdf