• 阿里巴巴DevOps实践指南(二十)|业务系统安全工程

    5 月 13 日,特斯拉服务系统宕机,市值一夜间蒸发 2800 亿。6 月 3 日苹果 iCloud 云存储服务器故障,用户无法登录。8 月 27 日,思科员工删除虚拟机,导致思科损失 1600 万。12 月 25 日,谷歌服务全球性宕机。频发...
    文章 2021-07-06 212浏览量
  • 数据中心供电系统可用性问题分析

    许多负载宕机的故障发生在UPS与IT设备负载之间。过去,用户通常在UPS以及发电机之间引入冗余设备,但是他们往往容易忽略终端配电一级的单路径故障点,例如他们在UPS和IT设备负载之间设置多个断路器,而且UPS和IT负载...
    文章 2017-07-03 980浏览量
  • 谁动了我的实例&磁盘-ECS主动运维历史事件查询

    由于宿主机软硬件故障等原因触发宕机迁移或重启的非预期系统事件 因实例错误实例重启 由于操作系统内部错误导致系统崩溃引发实例重启的非预期系统事件 其中因系统维护实例重启这种类型,就是您在待处理页面所看到的...
    文章 2018-05-25 9429浏览量
  • [数据恢复答疑]RAID真的安全吗?

    存储在这块故障盘上的原有数据就要通过其他硬盘的数据恢复出来,当然这个过程中控制器(硬RAID为RAID卡,软RAID实际上是个驱动)会负责这个工作,同时为了保证不宕机控制器也会保证存储的正常化,不会让操作系统认为...
    文章 2017-11-22 1259浏览量
  • 中小型企业运维之路

    再比如,曾发生某区域因代码更新问题,导致该区域大面积宕机,影响包括消息队列等在内的大量产品异常,如果这时候我们把所有的都交给产品,平台的问题就会导致企业运营的业务全面宕机,而平台方也仅仅会按照产品宕机...
    文章 2019-09-12 1190浏览量
  • 云数据中心呼唤安全可控的运维和检测

    系统安全,主要是通过实现供电零终端、制冷不间断、网络高可靠等措施来保障系统安全稳定地运行。在系统安全领域,越来越多的新兴技术手段正得到运用,例如利用高压发电组自动并机发电,保证不间断供电,当市电发生...
    文章 2017-07-03 1443浏览量
  • 关于Kubernetes规划的灵魂n问

    还有近24%的客户选择的原因是:可以有更高的部署密度,从而降低基础设施成本。超过28%的客户认为,在物理上可以更加灵活地选择网络、存储等设备和软件应用生态。在公共云上,我们应该如何选择呢?2017年10月,阿里...
    文章 2020-02-05 2864浏览量
  • 关于Kubernetes规划的灵魂n问

    还有近24%的客户选择的原因是:可以有更高的部署密度,从而降低基础设施成本。超过28%的客户认为,在物理上可以更加灵活地选择网络、存储等设备和软件应用生态。在公共云上,我们应该如何选择呢?2017年10月,阿里...
    文章 2020-01-31 443浏览量
  • 关于Kubernetes规划的灵魂n问

    还有近24%的客户选择的原因是:可以有更高的部署密度,从而降低基础设施成本。超过28%的客户认为,在物理上可以更加灵活地选择网络、存储等设备和软件应用生态。在公共云上,我们应该如何选择呢?2017年10月,阿里...
    文章 2020-02-05 2135浏览量
  • 弹性计算双周刊 第15期

    弹性计算团队正在通过强化对于硬件服务器的管控能力,对操作系统的定制能力,和对故障隔离能力等等多个维度提升客户对稳定性的体验,宕机率大大降低,在业界遥遥领先。云栖大会弹性计算专场,新一代异构计算“昊天、...
    文章 2018-10-16 2588浏览量
  • 关于阿里云飞天计划的想法

    想要数据安全就必须保证系统不出问题&xff0c;保证文件系统不出错&xff0c;正常情况下对ECS操作很多的。包括&xff1a;升级服务器&xff0c;优化功能&xff0c;修改配置文件等&xff0c;很容易导致服务器出问题&xff08;人为原因&xff09...
    文章 2021-09-14 57浏览量
  • 天梭M13为何具有大型水平的高可用性

    RAS特性是主机与一般服务器的主要区别,同时也是主机设计的一个难题,业界产品在技术上普遍具备了超过99.99%的高可用性,但是银行、保险、证券交易所等核心业务系统宕机事件仍时有发生。100%的可靠是不存在的,但...
    文章 2017-08-02 1442浏览量
  • 困知,勉行-阿里云服务观

    10月16日,面对现场8000余位开发者,阿里云技术领军者飞天负责人唐洪、技术保障负责人刘振飞、产品负责人张东晖直面阿里云在服务上出现的问题,并分别从技术、运维安全保障、产品等维度坦率地讲述发生问题的原因所在...
    文章 2016-12-25 3439浏览量
  • 根本原因分析 关键事件关联 IT运维有序发展——中国...

    对于性能指标超标、宕机故障,通过手机短信、邮件直接发送给系统的管理员、维护人员及其他相关人员,在报警信息中明确哪台主机、哪个wps应用服务器、哪个应用、故障发生的时间、初步定位的故障原因等重要信息,方便...
    文章 2017-11-09 1540浏览量
  • 走近华佗,解析自动化故障处理系统背后的秘密

    也可能Kernel出现类似208天的问题(Linux Kernel著名的一个Bug:系统连续运行208.5天自行重启),引起机器大批量的宕机。基于以上考虑,结合华佗自我保护机制,华佗引入Quota管理和手工驾驶,即当故障率超过华佗预设...
    文章 2016-12-18 4694浏览量
  • 重新定义数据库的时刻,阿里云数据库专家带你了解...

    网卡挂掉了,看上去像机器在系统中消失了,但本质上和宕机没有区别,因为宕机看上去也是机器突然消失了,所以在这种情况下,P问题就是A问题。第二种,机器的硬件不稳定,比如磁盘很卡导致响应请求很慢,这时候取决于...
    文章 2018-05-23 3161浏览量
  • 阿里云基础产品技术月刊 2019年3月

    阿里云区块链服务的定位是提供安全稳定的技术平台,构建可信的企业协作网络,链接可信数据。基于这一平台,阿里云区块链服务将协同众多优秀行业合作伙伴,共创垂直领域的业务解决方案,布局区块链行业生态。阿里云...
    文章 2019-04-11 4426浏览量
  • 阿里云基础产品技术月刊 2019年2月

    通过Blink实时流计算平台,已经在Blink平台上完成了内存故障预测模型的搭建,并打通数据反馈路径并将预测宕机的相关结果回流到阿里云日志服务(SLS)的日志中。后续计划和ECS的调度系统打通,增加系统中宕机风险的...
    文章 2019-03-13 2994浏览量
  • 任务管理入门:如何有效控制大规模设备

    集群的机器业务迭代必不可免的有发布的需求,同时机器也可能由于某种原因宕机,因此针对任务需要检测其状态并采用不同的策略进行充实。如图8所示: 任务执行时,节点上定时上报其上任务的心跳信息 任务管理集群的...
    文章 2021-08-24 168浏览量
  • 天网智能化,打造最安全的智慧城市

    系统可启用集群工作模式进行高可用保护,保证单台节点设备宕机的情况下,迅速由其它节点设备接管它的工作。在宕机设备恢复正常后,可以自动加入集群并与其他节点进行负载分担,提高系统自保护能力,保证智能分析的...
    文章 2017-07-04 966浏览量
  • 流量激增不宕机,服务限流系统架构解密

    如果系统是长期有300W的用户来访问,肯定是要做上述升级的,但是常常面临的情况是,系统的日常访问量就是100W,只不过偶尔有一些不可预知的特定原因导致短时间的流量激增,这个时候,公司往往出于节约成本的考虑,...
    文章 2018-11-14 1680浏览量
  • 服务器建设选择阿里云

    还有,遇到宕机的时候,我们还需要为每个硬件准备冗余,部署与维护成本成本就上去了。同时,增减硬件也是挺麻烦的,带宽也是。有时候需要临时搞活动,硬件需要购置时间。带宽也不能提升,因为我这边的ISP服务商签约...
    文章 2020-07-03 325浏览量
  • 读《大型网站技术架构》

    2)服务器越多,宕机的概率越大 常用的分布式方案: 1)分布式应用和服务;2)分布式静态资源;3)分布式数据和存储;4)分布式计算;5)分布式配置、分布式锁、分布式文件系统。集群,即多台服务器部署相同的应用,...
    文章 2017-04-09 973浏览量
  • 分布式锁在存储系统中的技术实践

    单机环境下,内核具备“上帝视角”,能够知道进程的存活,当进程挂掉的时候可以将该进程持有的锁资源释放,但发展到分布式环境,这就变成了一个挑战,为了应对各种机器故障、宕机等,就需要给锁提供了一个新的特性:...
    文章 2020-09-01 1094浏览量
  • 应用运维——《应用智能运维实践(试读版)》

    系统故障和宕机频率快速升高&xff0c;人工运维成本飙升。著名管理咨询公司麦肯锡在名为Measuring the Net’s Growth Dividend的分析报告中指出&xff0c;2013—2025年&xff0c;互联网将帮助中国的GDP增长率提升0.3&xff5e;1....
    文章 2021-07-06 340浏览量
  • 阿里百万级服务器自动化运维系统StarAgent揭秘

    用户如果调用API下发命令失败就会找过来让我们查原因,有的时候确实是系统的问题,但也有很多是本身的环境问题,比如机器宕机、SSH不通、负载高、磁盘满等等,百万级规模的服务器,每天百分之一的机器也有一万台,...
    文章 2017-12-01 12233浏览量
  • 云服务器 ECS 监控:监控ECS实例

    假如没有进行监控,就很有可能在业务高峰期性能不足却无人问津而导致宕机;也可能在出现异常和故障的时候,因为没有历史性能数据而无法进一步追查到原因,可见,没有监控,当问题出现的时候,都非常被动。因此,监控...
    文章 2017-08-14 4799浏览量
  • 四大技巧助力中小企业实施服务器托管

    另外,通过自诊断技术可以快速定位服务器故障、快速分析问题原因并进行修复,从而缩短服务器宕机时间,减少由此造成的损失。如果服务器支持热插拔硬盘功能,你可以在无需关机的情况下进行在线更换故障硬盘。你需要...
    文章 2017-07-03 1325浏览量
  • 任务管理轻松实现大规模设备管理控制

    同时机器也可能由于某种原因宕机&xff0c;因此针对任务需要检测其状态并采用不同的策略进行充实。如图8所示&xff1a;任务执行时&xff0c;节点上定时上报其上任务的心跳信息任务管理集群的master节点定义检测有问题的任务&...
    文章 2021-07-29 176浏览量
  • 带你读《企业私有云建设指南》之二:企业云计算涉及的...

    企业云计算涉及的技术选型和管理在以AWS、Google、阿里等为代表的公有云发展的同时,很多大型企业出于数据安全性、系统稳定性、软硬件自主权、对自主可控以及TCO(Total Cost of Ownership,总体拥有成本)低的考虑...
    文章 2019-10-31 2762浏览量
1 2 3 4 ... 7 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化
http://www.vxiaotou.com