• 走近华佗,解析自动化故障处理系统背后的秘密

    MaxCompute:阿里云数加-大数据计算服务,华佗用MaxCompute进行大规模系统故障的数据挖掘,用以提高故障检测准确率和预测故障发生。阿里云数加-大数据计算服务MaxCompute产品地址:...
    文章 2016-12-18 4692浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    于运行态或已有应用可以通过 AHAS 探针形态(除AHAS SDK外更轻的方案)在不修改代码的情况下进行业务洪峰的流量强力控制、消息场景的削峰填谷,而对于结构复杂的可以将系统内或外不稳定的因素迅速降级让业务保持稳定...
    文章 2020-02-18 4571浏览量
  • 阿里云双11访谈之云数据库

    第二点就是稳定性,阿里云的服务得保证稳定性,无论是小到一个网卡的故障,大到一个机房的故障都能保证数据库的稳定性要求。第三点是用户的可用性。用户只需要在控制台上点击鼠标,就可以完成以前需要几个人甚至是...
    文章 2017-11-01 6794浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    于运行态或已有应用可以通过 AHAS 探针形态(除AHAS SDK外更轻的方案)在不修改代码的情况下进行业务洪峰的流量强力控制、消息场景的削峰填谷,而对于结构复杂的可以将系统内或外不稳定的因素迅速降级让业务保持稳定...
    文章 2020-02-18 4969浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    3.做扁鹊:在系统发生问题时快速解决问题 2.自动化、系统化、数据化SRE不是在做一种收尾型、擦屁股的工作,而是在做一种探索性、前瞻性的工作,但SRE不可避免的,会面对很多重复性的工作,所以除了要在组织和机制上...
    文章 2020-10-26 4468浏览量
  • 21世纪了还愚公移山?数据库这么迁移更稳定

    2、稳定性保障,迁库是大事,改造过程中,稳定性重中之重,主要有系统压测,线上流量回放,故障演练。系统压测:主要针对新库进行性能测,防止新库有意外情况。线上流量回放:Edsger W.Dijkstra说过如果调试程序是一...
    文章 2019-03-14 10546浏览量
  • 阿里云新品发布会周刊第...该怎么保护我们的数据信息安全

    服务器具有维护成本低,安全稳定,高可扩展性和 7 X 24 小时的售后支持的优势,因此云服务器成为中小企业建站的首要选择。国内的云服务器竞争也进入了跑马圈地的时代,以阿里云、腾讯云、百度云三大BAT为首,不断...
    文章 2020-05-16 255浏览量
  • 阿里云新品发布会周刊第...该怎么保护我们的数据信息安全

    服务器具有维护成本低,安全稳定,高可扩展性和 7 X 24 小时的售后支持的优势,因此云服务器成为中小企业建站的首要选择。国内的云服务器竞争也进入了跑马圈地的时代,以阿里云、腾讯云、百度云三大BAT为首,不断...
    文章 2020-05-16 1881浏览量
  • 2017QCon分享:从淘宝到云端的高可用架构演进

    这个给我们带来的启示是什么,云服务本身也是会发生故障的,比如买了云数据库,我们没有办法假设它是100%可用的,当它出现问题我们怎么办,是给云厂商提工单说什么时候能恢复,还是我自己能够有一个容灾的方案解决这...
    文章 2017-10-25 2947浏览量
  • 纯干货|从淘宝到云端的高可用架构演进

    这个给我们带来的启示是什么,云服务本身也是会发生故障的,比如买了云数据库,我们没有办法假设它是100%可用的,当它出现问题我们怎么办,是给云厂商提工单说什么时候能恢复,还是我自己能够有一个容灾的方案解决这...
    文章 2017-06-19 2151浏览量
  • 信息系统项目管理01——信息化和信息系统

    (2)MMTR——平均维护时间,可维护性用此度量,这是系统发生故障后维修和恢复正常花费的平均时间。1.4 软件工程 1 需求 1 好的需求应该具有无二义性、完整性、一致性、可测试性、确定性、可跟踪性、正确性、必要性...
    文章 2020-12-11 117浏览量
  • 车联网上云最佳实践(二)

    由于在高并发环境下,系统来不及同步处理,请求往往会发生堵塞,比如说,大量的insert,update之类的请求同时到达MySQL,直接导致无数的行锁表锁,甚至最后请求会堆积过多,从而触发too many connections错误。...
    文章 2018-08-22 2591浏览量
  • 如何改变Redis用不好的误区

    对于安全的命令可以直接使用,对于不安全的命令需要分析和审批后才能打开,这也是由配置中心控制的,这样就解决了研发人员使用Redis时的规范问题,并且将Redis定位为缓存角色,除非有特殊需求,否则一律以缓存角色...
    文章 2017-12-20 5027浏览量
  • 救火必备!问题排查与系统优化手册

    如果想从根源上规避问题,必须从系统本身出发:按照性能、稳定性和可维护性三个方向,持续优化你的系统实现,扼杀问题于摇篮之中,让自己每天都能睡个安稳觉。老板:既要快,又要稳,还要好。哦,工资的事你别担心,...
    文章 2020-07-13 2118浏览量
  • 车联网上云最佳实践(一)

    消息队列集群:由于在高并发环境下,系统来不及同步处理,请求往往会发生堵塞,比如说,大量的insert,update之类的请求同时到达MySQL,直接导致无数的行锁表锁,甚至最后请求会堆积过多,从而触发too many ...
    文章 2018-08-31 2929浏览量
  • [QCon讲稿实录]谈高质量架构产品化输出

    尤其是去年发生了多起IDC故障,用户对高可靠系统架构的需求格外高。所以针对这种情况,我们又推出了EWS服务,目的让用户能够简单的获取高质量架构的能力。首先来看一下EWS 的业务架构,EWS的全称是Enterprise ...
    文章 2016-04-25 5151浏览量
  • 2.0解析系列|一文详解新一代OceanBase云平台

    OCP 2.0对安全问题非常重视,引入了流量控制保证系统运行时安全,引入了租户隔离保证业务之间数据安全。同时,系统引入全链路跟踪机制,监控完整的服务流转路径,尽可能缩短异常诊断路径,降低运维对人工介入的需求...
    文章 2018-10-10 1812浏览量
  • Kubernetes新版本又来了 如何跟上变化“合理更新”?

    Google Cloud本身将其GKE Kubernetes即服务控制面板与实时迁移的外部虚拟化VM一起运行,以避免组件故障(而不是集群控制面板中的“自主驱动”)。一个可行的策略是部署后就不管Kubernetes了,祈祷底层操作系统或...
    文章 2018-12-12 1997浏览量
  • DAS 解决延时突高的案例分享

    去年公司有一个使用了 DAS 的对接外部系统的应用,应用开发人员反映系统会时不时地发生数据库慢查询。我们通过日志系统发现这些慢查询发生的比率极低,甚至低于千分之一。如果这是个普通的应用,低于千分之一的慢...
    文章 2020-03-27 642浏览量
  • 作为开发者,视频的生产、分发和消费三大环节,你该...

    第三,稳定可靠,避免故障等情况的发生;第四,可扩展性,随业务增长具有可扩展能力。在视频传输分发这一环节,阿里视频云又是怎么保证高覆盖、高稳定的呢?从传输地区覆盖方面来看,依托阿里云CDN的1200+全球节点,...
    文章 2017-10-17 2753浏览量
  • 2.0 解析系列|一文详解新一代OceanBase云平台

    OCP 2.0对安全问题非常重视,引入了流量控制保证系统运行时安全,引入了租户隔离保证业务之间数据安全。同时,系统引入全链路跟踪机制,监控完整的服务流转路径,尽可能缩短异常诊断路径,降低运维对人工介入的需求...
    文章 2018-10-10 2509浏览量
  • 阿里云数据库,破解大型网站架构设计中的数据存储难题

    最下层是阿里云的数据中心,其上层是阿里云的操作系统和文件系统,再上一层就是服务部署和资源调度,再上面一层就是任务系统安全管理以及集群监控。在飞天技术栈最上面的这一层就是用户可见的云服务,这一层大致...
    文章 2017-04-19 7449浏览量
  • 腾讯最赚钱的部门是怎么做运维的?

    因为大家知道游戏行业,有些游戏类道具非常值钱,说不准哪个同学手一抖给自己加个几十万,所以我们成立了内部安全团队,做安全监控,其中也包括权限控制,大家都知道,自动化系统权限控制非常重要,如果这个没控制好...
    文章 2017-05-02 2119浏览量
  • 规模化落地云原生,阿里云即将重磅亮相 KubeCon China

    议题简介在云时代,企业中基于容器的应用激增,由于人工操作、硬件故障等,发生容器故障的可能性大幅增加。因此,如何在不增加资源投入的情况下保证大规模容器的可靠性成为云平台面临的一个巨大挑战。阿里巴巴运行着...
    文章 2019-06-12 11445浏览量
  • 规模化落地云原生,阿里云即将重磅亮相 KubeCon China

    演讲人阿里云容器平台技术专家 熊欢(宁拙)议题简介在云时代,企业中基于容器的应用激增,由于人工操作、硬件故障等,发生容器故障的可能性大幅增加。因此,如何在不增加资源投入的情况下保证大规模容器的可靠性...
    文章 2019-06-12 2364浏览量
  • Kubernetes Operator深入详解

    更高级的 Operator 可以处理其他一些特性,如响应负载的自动伸缩、备份和恢复、与 Prometheus 等度量系统的集成,甚至可以进行故障检测和自动调优。任何具有传统“运行手册”文档的操作都可以被自动化、测试和依赖,...
    文章 2020-12-24 537浏览量
  • 从架构演进的角度聊聊Spring Cloud都做了些什么?

    服务层是SOA的基础,可以直接被应用调用,从而有效控制系统中与软件代理交互的人为依赖性。服务化架构是一套松耦合的架构,服务的拆分原则是服务内部高内聚,服务之间低耦合。下面是服务化架构图: 在这个阶段可以...
    文章 2016-09-26 1693浏览量
  • 【合集】规模化落地云原生,阿里云亮相 KubeCon China...

    在云时代,企业中基于容器的应用激增,由于人工操作、硬件故障等,发生容器故障的可能性大幅增加。因此,如何在不增加资源投入的情况下保证大规模容器的可靠性成为云平台面临的一个巨大挑战。阿里巴巴运行着数百万个...
    文章 2019-06-24 10199浏览量
  • 音频开发中常见的四个错误

    音频系统容易出现的故障还有很多&xff0c;例如逻辑错误或者只是要求太多的设备功能&xff0c;但是以上四个问题属于比较容易发现且被解决的。违反这些规则可能导致一些无关痛痒的错误&xff0c;也可能将整个音频系统推向崩溃...
    文章 2021-03-17 100浏览量
  • 喧哗的背后:Serverless 的概念及挑战

    到了 Serverless 模式下,我们说用户不需要关心服务器了,也就是说默认情况下是看不到服务器了,那么这个时候如果系统出现异常了,而且平台无法完成自愈怎么办呢?用户还是需要有丰富的排查诊断工具,能够观测到包括...
    文章 2020-06-16 170浏览量
1 2 3 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化
http://www.vxiaotou.com