• 硬盘故障巧维修

    总的来说,硬盘一般不会轻易出现什么故障,但一旦出现就是不可估量的损失。因此希望朋友们还是平时注意系统的备份和维护,同时加强病毒监测,最大限度的保证硬盘工作的稳定性。本文转自 song8575 51CTO博客,原文...
    文章 2017-11-12 968浏览量
  • 图解故障服务器下线:关于阿里云MongoDB高可用的探秘

    服务器容灾一直是云服务运维过程中无法避开的问题,我们常常讨论如何对出现故障的机器进行数据库方面的恢复,却很少考虑到在机器出现故障后,是用一套怎样的处理流程将三节点副本集恢复如初的。MongoDB采用的是...
    文章 2017-03-28 8118浏览量
  • 超全总结|阿里如何应对电商故障?神秘演练细节曝光

    限流降级参考:对于弱依赖,一般都要配置限流或是自动降级策略,比起通过拍脑袋或是经验值来设定,倒不如通过实际的故障测试来进行微调,比如对于下游出现超时情况,就可以通过实验得出基于线程池限流到底要填写多少...
    文章 2017-06-19 3724浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    在磁盘进入SLOW或WARNING状态时,在线应用一般会选择不再使用此磁盘,因为此时磁盘可能已经出现损坏的迹象,会造成延时大规模增加,但对于理想的应用则可以继续使用。一旦磁盘进入ERROR状态,则表明此磁盘可能马上...
    文章 2016-12-18 4692浏览量
  • 中小型企业运维之路

    不管是前期的产品研发体系设计,还是业务上线后的安全稳定、性能的保障,其实答案显而易见,不管是从成本考虑,还是从专业度考虑,大部分企业已经没有必要什么事情都亲力亲为,专业的人做专业的事,企业应该将更多...
    文章 2019-09-12 1190浏览量
  • 服务器托管需特别注意的事项

    机房的环境是影响服务器稳定运行的关键因素,干净、通风、灭火设施齐全的机房是服务器安全稳定运行的前提保障,另外机房自身的一些设备也非常重要,对于成立时间长的机房而言,部分设备可能老化,极易出现故障,...
    文章 2017-07-03 1328浏览量
  • 构建可靠系统的原则与实践

    但是实际上很多的基础的产品和系统确仍然会出现一些稳定性问题,那么如何才能构建可靠的系统呢?是不是制定非常严格而细致的规则就可以做出可靠的系统呢?航空业的教训 在回答这个问题之前,我们先来看看对于系统...
    文章 2019-04-24 12619浏览量
  • 如何做好一名稳定性SRE-业务团队系统稳定性的思与行

    区分责任,当出现故障时,区分清楚责任,到底是稳定性工作没有做到位,还是做到位了,但是团队同学疏忽了,还是说只是单纯的业务变化;1.3,开发和SRE的区别 都是做技术的,很多开发刚刚转向负责稳定性时,有些弯转...
    文章 2020-10-26 4468浏览量
  • 3+1保障:高可用系统稳定性是如何炼成的?

    有分布式处理能力后,需要考虑单个服务器故障后自动探活摘除、服务器增删能不停服自动同步给依赖方等问题,这里就需引入一些分布式中枢控制系统,如服务注册发现系统、配置变更系统等,例如zookeeper是一个经典应用...
    文章 2021-01-27 8367浏览量
  • 高可用的本质

    例如:大促峰值期间,一般会提前降级掉很多功能,同时限流,主要是为了保护峰值绝大部分人的交易支付体验。例如:人体在失血过多或疼痛过度时就会触发休克现象,这也是一种典型的自我保护机制。四 软件风险在何方...
    文章 2021-02-22 976浏览量
  • 服务器托管全解 甩手掌柜却更高效稳定

    服务器托管一般需要用户支付必要费用,由ISP运营商代为管理维护,客户端连线服务器进行操作,这样可以帮助系统达到安全稳定、可靠、高效的目的。服务器托管的本质 服务器托管又叫做主机托管,这种方式能够摆脱虚拟...
    文章 2017-07-05 1103浏览量
  • 有货:六层混合云架构打造中国最潮生态圈

    答:企业到了一定阶段,需要去考虑效率和成本时,以及系统稳定性,自然选择混合云的方式,目前是将需要弹性伸缩、流量突发的业务迁移到公共云上,后台运营等相对稳定的业务保留在传统的IDC。当流量访问并发达到...
    文章 2016-03-31 13946浏览量
  • 云计算网络基础架构的实践和演进——打造云计算网络...

    标号3:汇聚交换机的故障一般情况下汇聚交换机采用堆叠的方式,可能会出现堆叠的分裂以及单台设备的故障,也可能出现整个端口流量上行的带宽减半或者是分裂以后导致等一些不可预期的后果,因此需要及时检测出一些...
    文章 2017-04-24 18745浏览量
  • 面向失败的设计-自动化运维管控

    基础系统也同样遵循这个原则,只不过当前阿里体系内部研发基础设施非常完备,基本上常用的中间件体系都有配套良好的运维控制系统,因此我们对这类系统的运维变更需求都是登录对应中间件管控平台操作,也有部分中间件...
    文章 2019-11-08 639浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    于运行态或已有应用可以通过 AHAS 探针形态(除AHAS SDK外更轻的方案)在不修改代码的情况下进行业务洪峰的流量强力控制、消息场景的削峰填谷,而对于结构复杂的可以将系统内或外不稳定的因素迅速降级让业务保持稳定...
    文章 2020-02-18 4571浏览量
  • 地图采集车的那些事|载车篇

    若发电机功率不够或刚刚好,在汽车发电机老化和夏天高温输出效率降低的情况下,用电短缺的情况特别突出,严重情况下会出现系统设备重启等现象,影响作业。日系车辆发电机输出功率一般较低,选车时要特别注意。汽车...
    文章 2021-04-25 244浏览量
  • Windows日志文件完全全解读

    From:http://blog.cfan.com.cn日志文件,它记录着Windows系统及其各种服务运行的每个细节,对增强Windows的稳定安全性,起着非常重要的作用。但许多用户不注意对它保护,一些“不速之客”很轻易就将日志文件清空,...
    文章 2009-08-20 852浏览量
  • 万亿级数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据,一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,可在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-02-07 7075浏览量
  • 双硬盘RAID 0全攻略

    无论是主板板载的IDE RAID控制芯片还是独立的PCI接口IDE RAID控制器它们都有一个用来进行配置和工作的独立BIOS它们的BIOS设置画面系统POST完成之后显示我们可以看到这时候HighPoint HPT372 IDE RAID控制芯片的...
    文章 2014-08-12 2349浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    于运行态或已有应用可以通过 AHAS 探针形态(除AHAS SDK外更轻的方案)在不修改代码的情况下进行业务洪峰的流量强力控制、消息场景的削峰填谷,而对于结构复杂的可以将系统内或外不稳定的因素迅速降级让业务保持稳定...
    文章 2020-02-18 4969浏览量
  • 是时候聊一下程序员争相追逐的“香馍馍”Istio了

    简单来说,故障注入就是在系统中人为地设置一些故障,来测试系统稳定性和系统恢复的能力。比如为某服务设置一个延迟,使其长时间无响应,然后检测调用方是否能处理这种超时问题而自身不受影响(如及时终止对故障...
    文章 2019-08-30 1776浏览量
  • 困知,勉行-阿里云服务观

    并负责安全的吴翰清发出的几句感慨:“前各部门准备演讲的时候,王坚博士把每个Speaker叫到一起,一个字一个字地抠PPT,并明确强调这次大会谁都不许吹牛,只许讲用户的痛点,然后要讲对用户承诺什么。所以我们私下...
    文章 2016-12-25 3418浏览量
  • 三大linux系统对比

    首先,一旦确定了主版本,除了安全问题和严重故障会被修复以外,其他内容将不会做任何改变。这虽然对稳定性有好处,但是对许多服务不利。比如MySQL和PHP服务,它们在这五年的CentOS/RHEL主版本发布周期中进行繁重...
    文章 2019-04-10 6524浏览量
  • 【双11背后的技术】万亿级数据洪峰下的分布式消息引擎

    对于前者,通过运维管控系统推送应用自身QoS数据,一般会输出如下表格。而引擎组件的服务QoS,如服务于消息问题追溯的链路轨迹组件,对于核心功能来说,定级相对较低,可在洪峰到来之前提前关闭。谈到熔断,不得不提...
    文章 2017-01-12 5726浏览量
  • 当S8遇上边缘计算:谈阿里云ENS对直播业务场景的支撑

    服务的稳定性首先取决于架构和方案的设计,针对系统风险点进行高可用设计,确保不出现单点故障对全链路的影响,核心模块要有failover能力或降级方案。其次,稳定性要重点做好监控和运维,确保故障及时发现,并具备...
    文章 2018-11-09 2572浏览量
  • 一文读懂:什么是工业物联网?

    比如工厂里的机床设备,每5-10秒钟会采集一次数据,这些数据汇总一般会汇集到一个统一的终端,由终端通过4G发送到云平台。工业领域对通信系统的这些需求,5G的技术标准可以很好的满足,极低的时延,保证了工业领域...
    文章 2020-05-14 310浏览量
  • 带你读《工业物联网安全》之一:一个前所未有的机会

    当一个控制系统暴露在异常状态下,包括有意和无意的错误、恶意攻击和干扰时,它能够保持状态感知和良好的稳定状态等级,意味着它具有弹性(RIE-GERT)。Barry Boehm等人将safety与security区分如下:safety指系统...
    文章 2019-11-05 1174浏览量
  • 100个为什么让你了解分布式光伏发电

    电网停电后,分布式光伏发电系统一般都会退出运行,不能正常发电,但在某些极端情况下可能会出现孤岛现象,即电网停电后分布式发电系统仍然带着部分负荷继续运行,影响检修人员人身安全,并存在陨坏家用电器及电网...
    文章 2017-07-03 2367浏览量
  • 高可用互联网系统稳定性建设实践指南

    系统会出现数据热点、数据极度倾斜、少量大客户超过极限阈值使用等极限场景&xff0c;例如超级大客户广告投放物料、广告点击展示数据、API调用频次都是比普通客户大很多&xff0c;如果按照客户维度分库分表&xff0c;基本...
    文章 2021-09-01 62浏览量
  • 流量激增不宕机,服务限流系统架构解密

    系统故障常常都是不可预测且难以避免的,因此作为系统设计师的我们,必须要提前预设各种措施,以应对随时可能出现系统风险。原文发布时间为:2018-11-14 本文作者:不止思考的技术 本文来自云栖社区合作伙伴...
    文章 2018-11-14 1680浏览量
1 2 3 4 ... 13 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化
http://www.vxiaotou.com