360王峰分享:Cassandra应用优化与数据可靠性提升
需积分: 9 181 浏览量
更新于2024-07-22
收藏 830KB PDF 举报
在DTCC 2014中国数据库技术大会上,360公司的王峰分享了关于Cassandra应用和改进的深度见解。Cassandra是一款分布式NoSQL数据库,以其Dynamo和BigTable的特性著称,强调高可用性和可扩展性。其在360大数据项目中的应用涉及到大规模集群,包括存储规模(达到70PB),主机数量超过8000台,以及备份规模达到400TB。
王峰首先介绍了Cassandra集群的现状,展示了不同规模的集群配置,从150台主机到1000台,每台拥有24个节点和3-4TB的存储空间,支持的分区数达到18P和84P。Cassandra的应用方式涉及到了预先划分范围的RandomPartitioner和OrderPreservingPartitioner,以及文件I/O的不同策略。
然而,集群在运行过程中面临的问题主要集中在数据可靠性上,如扇区或磁盘故障导致的副本丢失,以及新写入数据副本不足的情况。原生的系统机制如读修复、Hinthandoff和Repair操作在应对这些挑战时存在局限。针对这些问题,王峰提出了一系列改进措施:
1. 数据可靠性方面,通过实现本地自检修复,对故障磁盘或文件进行自动摘除,并在接入节点增加对新写入数据副本的检查。这包括定期扫描数据节点的全量数据,以及在接入节点进行增量数据的检查和修复,通过创建辅助表proxycheck来监控副本状态,确保数据完整性。
2. 远程备份检查是另一个关注点,因为跨机房的数据容灾和流量切换需要考虑消息队列的局限性。改进方案包括建立数据同步与检查机制,利用辅助表作为缓冲队列,实现节点间的主动式同步,以保证数据一致性并降低运维复杂度。
Cassandra在360的应用和改进旨在提升数据的健壮性,降低运维成本,并优化跨区域数据处理能力。通过这些改进,Cassandra在大规模数据处理场景中能够更好地服务于360的大数据内容需求。
2018-01-17 上传
2019-08-28 上传
2017-02-22 上传
2011-12-27 上传
2014-03-13 上传
2021-01-23 上传
2017-01-11 上传
2010-04-01 上传
zju_shihuolong
- 粉丝: 1
- 资源: 7
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案