阿里云数据库专家玄惭:云数据库超大流量峰值保障最佳实践

  • 时间:
  • 浏览:2

高峰期间集群的总QPS达到了近60 W每秒;

大流量高并发互联网应用实践在线峰会官网:https://yq.aliyun.com/activity/112

“2014年的双11,阿里云数据库在经历了两年的心智心智心智成熟的句子 图片 图片 图片 图片 期期期图片 图片 图片 图片 并且 现在结速迎来心智心智心智成熟的句子 图片 图片 图片 图片 期期期图片 图片 图片 图片 。汲取了2013年数据链路改造的惨痛教训,亲们儿在双11前统一了所有集群的数据链路访问。在支持灵活数据链路访问模式,高安全链路访问模式下,实现了SQL注入的拦截功能,帮助用户更简单地防护数据库的安全,出理 数据库被注入攻破。双11当天表现平稳。承担了天猫96%的订单量。集群QPS峰值达到142W。集群RDS实例数也达到了历史新高。”2014年是可能性地处的一年,玄惭点评到。

这位经过四年双十一沉淀的阿里技术专家还表示,这个 议题对开发、运维、DBA、架构师都具有非常好的参考指导意义,“当然可能性你是另另1个 公司的技术负责人,我也希望你不能学习。”

百万商家在AliCloudDB上稳定运行,全网实现了0故障,0丢单。

这麼 的成就,在当初是如保实现技术突破的?

其所在团队的亮眼成绩如下:

议题简介本次演讲分发分发了自RDS成立至今,在历次大流量峰值中如保保障活动中云数据库备战的最佳实践,包括并且 的改造,压测和扩容;期间的监控,预案执行和应急出理 ;并且 的收容和总结。力求全链路地帮助客户安全稳定地渡过超大流量峰值,让在你备战过程中少走许多弯路,多许多从容。

他建议,对于许多安全程度要求较低的数据,对应的安全策略是:配置了HA高可用;每月一次验证备份的可靠性,备份保留60 天;同去关闭公网访问可能性采用VPC、IP白名单;涉及到用户隐私的高级数据,云数据库的安全策略进一步升级:首先云数据数据库密码是1-3月更换一次;同去打开TDE加密;数据备份完全存储在OSS中,可保留90天之久;此外数据库还应该支持同城容灾。对于核心数据而言,云数据库首先在应用层加密,支持SSL加密传输,备份可保留720天,同去支持跨地域容灾和两地三中心的部署土妙招(完全可参考“你的数据在云上,安全吗”)。

:《云数据库超大流量峰值保障最佳实践》

1)了解历次超大流量峰值时云数据库备战保障中再次老出过程的哪几种的疑问;

罗龙九(花名:玄惭),阿里云DBA专家,有着富于的DBA经验,经历阿里历年双11考验,负责阿里云RDS线上稳定以及专家服务团队,积累了6年对阿里云数据库用户的运维、调优、诊断等富于的经验。

玄惭称,具备责任心和敬畏心是优秀DBA的基础,“另另1个 企业最宝贵的资产在你手上,前要要具备哪几种主次。”其次,出理 线上的故障时,前要有大心脏去扛住外界的压力,同去还前要细心,给你在多样化多乱的环境下抓住哪几种的疑问的本质,快速出理 哪几种的疑问;“最后,还前要有另另1个 乐于总结分享的心态,我见到好多好多 业界Top专家都具备这个 特点。”

玄惭在本次技术峰会上分享的是《云数据库超大流量峰值保障最佳实践》议题,该议题分发分发了自RDS成立至今,在历次大流量峰值中如保保障活动中云数据库备战的最佳实践,包括并且 的改造,压测和扩容;期间的监控,预案执行和应急出理 ;并且 的收容和总结。力求全链路地帮助客户安全稳定地渡过超大流量峰值,让在你备战过程中少走许多弯路,多许多从容。

说到大流量高并发互联网应用实践,就不得不提下阿里云DBA核心专家玄惭。他在数据库领域,连续4年支持天猫双11。

关于分享者

在稳定性上,玄惭补充到:“多样化的系统的稳定运行离不开另另1个 必不可少的系统,即全链路的监控系统和巡检系统。”巡检系统帮助你把系统各个组件日常运行过程中再次老出的哪几种的疑问暴露出理 ,把哪几种的疑问消灭在萌芽阶段,防范于蔚然,巡检规则前要你不断地去完善,这前要另另1个 过程;全链路监控系统帮助管理者不能清晰地判断哪几种的疑问再次老出在那里,系统的各个部件清晰地展示在你的面前,当哪几种的疑问地处并且 不能快速定位哪几种的疑问,降低故障再次老出的时间。他认为,怪怪的是在多样化的系统中,有十几二十多个部件,这麼 全链路的监控系统,根本就无法掌控。

而在一名优秀的DBA如保修炼上,他认为责任和敬畏心非常重要。

这四年的双十一支持,也给你沉淀下来不少经验。

他认为,安全和稳定是另另1个 全链路的事情,从客户的应用端访问,到里边链路层,最后到底层的数据存取,要构建另另1个 安全和稳定体系十分多样化。“以ApsaraDB MySQL安全能力的构建思路与土妙招,安全的哪几种的疑问前要从事前、事中、事后另另1个 时间轴,以及存储层、网络层、访问层、应用层1个层面,立体化地构建出理 方案。于企业而言,不同的数据前要不同安全策略。”

2)掌握历次超大流量峰值时云数据库备战保障的最佳实践

采访正文:

听众收益:

“2012年双11备战,记忆犹新。双11的前另另1个 月,阿里云数据库团队白天要准备资源和双11所有工作,夜深 还前要协助用户将数据库迁移上云。弹性升级前要对实例逐个进行升级,商家的数据库也前要逐个进行优化,并为商家提出优化建议。天猫双11里可不能不能 扛过零点高峰?我的心里是打鼓的,但结果让亲们儿深受鼓舞,完全OK。”在采访中,玄惭说。

峰会统一报名链接:http://yq.aliyun.com/webinar/join/49

是我不好,2013年主好多好多 指数增长和数据链路改造迁移。“2013年是阿里云数据库支撑双11商家后台核心数据库的第二年。其承担了天猫60 %的订单量。可能性用另另1个 关键词来形容2013年的双11,那好多好多 变化。第一年双11实例规模量有的是很大,然而2013年的双11实例数规模则是成指数级别增长。这麼 的数据访问链路层的容量可能性可不能不能 再支持这麼 规模的用户量。好多好多 亲们儿现在结速对数据链路访问层进行改造迁移。改造迁移过程的时间点与双11的备战时间点重合,由此触发了非常多的变化,给双11的备战工作造成了很大的压力。一路拼搏,终于在双11并且 把链路架构稳定下来。双11当天,记忆尤深的是下午6点左右再次老出的惊心动魄的场面。可能性另另1个 用户发送了超大长度的SQL到阿里云数据库,同去可能性Proxy一种生活哪几种的疑问,好多好多 整个proxy集群再次老出异常。人太好哪几种的疑问减慢得到了出理 ,影响可控,但给亲们儿敲响了警钟——2014年要重点把数据链路里边层稳定下来。”

单个商家最高出理 订单的能力超过60 万单;

“2015年集群的规模这麼 大,双11亲们儿为集群预备党员了2-3倍容量资源供用户弹性升级使用。为了使新上线的机器得到资源最大化利用,以保障系统的稳定,前要将老机器上的实例离散到新机器上。同去双11活动并且 亲们儿前要把这个 批扩容的主机下线,将其补充到许多业务集群进行售卖,以实现资源利用率最大化。针对里边的另另1个 应用场景,RDS启动了移山项目。移山离散策略着力于对主机以及实例最近的性能数据进行计算,得出前要迁移离散的实例列表。移山收容策略则对集群和主机的性能数据进行计算,进而得出前要收容的主机实例列表。”

更多峰会议题,请参见官网:https://yq.aliyun.com/activity/112