电信科学
20
年第
期
随机森林在运营商大数据补全中的应用
王铮, 任华, 方燕萍
(中国电信股份有限公司上海研究院,上海
200122
)
摘 要: 电信 运 营商 有 大量 数 据,但是鉴 于多种 原因,数据 的 质量 不 够理 想 ,出 现大量 数据不完 整甚至 缺失。 对
于已 有数据 的挖掘 ,必 须 在数 据 满足 质 量要 求 且达 到 足够 采 样比 例 的 前 提 下 开 展 。 依 托 现 有 的 全 国 日 志 留 存
系统,设 计 完 整 数 据 的 模 板 样 库 ,鉴 别 不 能 满 足 质 量 要 求 的 数 据 ,使 用 随 机 森 林 算 法 ,找 到 最 符 合 的 相 同 或 相
关数 据,补 全数 据 并提 升 数据 质 量;用回溯 反馈的 方法优 化并扩 充模板 样库。 在 全国日 志 留存系 统中构 建数据
补全 子系统 ,实 现 端到 端 的数 据 质量 保 障和 提 升,补全并 改善历 史数据 甚 至 实 时 数 据 的 质 量 ,最 终 满 足 数 据 处
理和 挖掘的 要求,提升 运 营商 数 据质 量 和价 值 。
关键 词 : 大 数据 ;随机 森林;机器 学 习;数据补 全
中图分类号:
文献标识码:
’
--
-
收稿 日 期:
;修 回 日期 :
引言
电信 运营 商是 天然 的 大数 据拥 有者 ,拥 有着 基 于 用 户
的信令 、上 网、位置等多 种类型的 数据。 随着近 年 大数据技
术发展 和 应用推广 ,电 信运 营 商 也 愈发 重视 数 据 这 一战 略
资 产
,研 发 了 多 种 基 于 大 数 据 技 术 的 平 台 和 系 统 , 用 来 收
集
、存 储 、处 理 、开 放 和 应 用 电 信 运 营 商 的 数 据 ,体 现 电 信
运营商 的 数据价值 。 但由 于 历 史 的原 因,电信 运营 商 的各
种设备 和 系统
,设计和建 设 的 年 代不 同、承建 的厂 商 不同 、
不 同 省 份的 需 求 不 同 、后 期 的 升 级 状 况 不 同 等 ,造 成 了 数
专题:大数据