关于 找小妹上门【薇V:78792796】房山东风全套官窑特殊服务路 的搜索结果,共1144
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
干货概览 在大型互联网公司中,单机故障因为其故障时间长、影响范围大,一直是互联网公司运维人员的心头之痛。在传统的运维方式中,由于故障感知判断、流量调度决策的复杂性,通常需要人工止损,但人工处理的时效性会影响的恢复速度,同时人的不可靠性也可能导致问题扩大。 为了解决这类问题,我们针对百度内外部网络环境建设了基于智能流量调度的单机故障自愈能力。结合外网运营商链监测、内网链质量监测与业指标监控构建了方位故障发现能力,基于百度统一前端(BFE)与百度名字(BNS)实现了智能流量调度与自动止损能力。同时,基于实时容量与实时流量调度自动止损策略与管控险,实现了任意单机故障时业均可快速自愈的效果。当前此解决方案已覆盖搜索、广告、信息流、贴吧、地图等众多核心产品的单机故障自愈场景。 单机故障频发影响业可用性 回顾近2年来各大互联网公司被披露的故障事件,单机故障层出不穷。
w****0 2018-07-11
单机故障自愈-黎明之战
干货概览 在故障自愈机器人,保你安心好睡眠一文中,我们介绍了单机故障自愈的必要性和解决思。本文主要介绍单机故障自愈前需要进行的准备工作,具体包括: 单机容灾能力建设中遇到的常见问题及解决方法 基于网络故障及业故障场景的面故障发现能力 百度统一前端(BFE)和百度名字(BNS)的流量调度能力 单机容灾能力--常见问题 单机故障场景下,流量调度是最简单且最有效的止损手段,但我们发现业线经常会遇到如下问题导致无法通过流量调度进行止损: 1.存在单点 描述:系统内只有一个实例或者多个实例部部署在同一物理机的程序模块即为单点。 问题:单点所在机或单点自身发生故障时,无法通过流量调度、主备切换等手段进行快速止损。 要求:浏览请求的处理,不能存在单点;提交请求的处理,若无法消除单点(如有序提交场景下的ID分配),则需要有完整的备份方案(热备或者冷备)保障单机故障时,可快速切换至其他机。 2.跨机混联 描述:下游之间存在常态的跨机混联。 问题:逻辑单元未隔离在独立的物理范围内,单机故障会给产品线带来局性影响。
疏****月 2018-07-09
一键线Archer | 百度持续部署的瑞士军刀
干货概览 业部署(熟称线)是运维领域最常见的业类型,主要涉及线代码变更、配置文件变更(数据变更由于其高频、大量的点,我们已在数据传输文章《嗖的一下,让数据自动生效》中专讨论过)。一般的业线具有不定时操作、业部署情况复杂、单机启停策略复杂等点。在手工运维时代,运维人员需要花费大量精力进行此类重复性工作,且易于出错。从公布的数据显示,Google 70%的生产事故由线变更触发,如何减少变更过程中人为误操作,提供一个灵活、稳定的部署系统是运维平台研发人员所亟需解决的问题。 基本介绍 在运维自动化的大潮下,百度运维管理平台Noah发布了一键线部署系统——Archer。Archer致力于提供一产品线过程的可迁移发布解决方案,实现一键完成机器初始化、部署、添加模块监控、添加CT任、动态数据文件的分发等过程的自动操作。在操作方面,Archer提供了命令行工具作为发起一次线的操作入口,这种设计模式也决定了其易于集成的点。在DevOps流水线作业中,Archer可以作为一个环节结合进整条测试发布流水线中。
p****d 2018-07-11
单机故障自愈--运维的春天
干货概览 在单机故障自愈--黎明之战中,我们介绍了单机故障自愈的准备工作和基础设施,包括容灾能力建设、监控平台以及流量调度平台。本篇主要介绍单机故障自愈的具体解决方案,内容包括: 单机故障止损的能力标准 单机故障自愈的整体架构 单机故障自愈的常见问题和解决方案 单机故障止损的能力标准 在单机容灾能力、故障发现能力、流量调度能力基础,业线具备了通过流量调度进行单机故障止损的条件。理想情况下,我们希望构建一完整、自动、智能的自愈方案,但各个业线的点不同和基础能力参差不齐,很难一蹴而就,所以我们建立起一自愈能力的等级标准,业线根据自身情况制定相应建设计划,逐步提升自愈能力。 自愈能力等级标准划分为5级,从Level 0的完人工止损,到Level 4的自动化、智能化止损。对于Level0、Level1,人工感知止损面临着速度慢、误操作、场景覆盖不险控制能力不足等问题;、Level2则实现了止损操作的平台化、预案化,一定程度提升了止损效率;Level3则实现了自动化报警联动故障止损,实现了止损效率的进一步提升。
M****H 2018-07-11
故障定位场景下的数据可视化实践
基于面的需求,可以总结为以下三个定位的层次,从整体到局部逐步缩故障范围,到故障根因: 局问题定位:快速确认线状态,缩故障判定范围。为可能的止损操作提供判断依据。本文会介绍如何构建一个景分析仪表盘。 细分维度定位:通过分析地域、机、模块、接口、错误码等细分维度,进一步缩问题范围,确定需要排障的目标模块、接口等。本文会介绍如何基于多维度数据可视化解决维度数量暴增带来的定位难题。 故障根因确认:一些情况下,问题的根因需要借助除监控指标之外的数据进行分析。例如线变更、运营活动导致的故障。本文针对导致故障占比最高的变更线类故障进行分析,看如何快速到可能导致故障的变更事件。 景掌控缩范围 对于一个乃至一条产品线而言,拥有一个布局合理、信息丰富的景监控仪表盘(Dashboard)对于状态景掌控至关重要,因此在百度智能监控平台中,我们提供了一款可定制化的、组件丰富的仪表盘。 用户可以根据征,自由灵活的组织仪表盘布局,配置所需要展示的数据信息。
h****e 2018-07-10
程序:我从哪里来?
干货概览 在计算机程序或者的层次,我们来试着分析前面提到的几个问题。 问题 1.我是谁? 叫什么,包含了哪些实例,规模、部署情况、实例运行状况如何? 2.我从哪里来? 游有哪些,不同的游流量如何分配? 3.我往哪里去? 的下游有哪些,不同的下游流量如何分配? 面对这样的问题,我们的答案是什么呢? 在百度的运维实践中,我们只需“BNS”就可以获得想要的答案。 BNS(Baidu Naming Service,百度名字)是百度云智能运维团队研发的一分布式的名字系统,是百度云Noah智能运维产品中的一个重要基础系统。它为每一个赋予一个独一无二的名字,根据这个名字,我们就可以获取到这个的相关信息 ,这些信息包括:在机器部署信息(机器IP,部署径,配置,端口信息),的实例运行状况等其他重要信息。简单来讲,它提供了一个名到资源信息的一个映射关系。
追****圣 2018-07-11
给书记省长讲清楚云计算
前几条都是从降低成本可靠的角度请云计算企业来合作建厂,如果你有市场有客户那对方会主动寻求合作。从长周期来看云计算的客户是覆盖行业的,各地内部采购的计算机项目根本不值一提,市场和客户要靠云计算厂商自己去。但现在云计算厂商还在早期扩张摸索之中,云厂商极端渴求各种政云企业云成功模式案例,一旦摸出来案例会迅速推广到国。这个窗口期只有三五年,随着政云企业云被其他公司摸透并推广开,这些项目就从首发明星案例变为普通捆绑销售了。 挑选合格的云计算合作厂商,每类厂商有哪些点。 前文说的为何要引凤,如何算筑巢。当云厂商看到商机肯合作时,我们要掌握各类云厂商的点才能心里有数。 第一类是大型云厂商,他们自身有很强的资源整合能力和执行销售能力。地方政企和这类企业合作的话语权很弱,但极险就能看到收益。 第二类是创业云厂商,他们一般是靠技术优势和态度从大型云企手里抢单子。地方政企和这类企业合作时有很强的议价能力,注意不要盲目倾向技术优先的创业云厂商,而是选择态度和执行能力好的创业云厂商。地方政企很难确切搞懂厂商的技术有哪些优势,而项目的推进落地都是要靠云厂商来执行的。
s****d 2018-07-11
亿元级云用户分析
3.2 CDN和带宽池 CDN和带宽池不同于器硬件,其原始资源是相对稀缺死板的广域网带宽,其交付的资源是持续不断的,所以资源部署比较慎重但客户流动成本较低。制约客户量迁移的是厂商的承载能力,而挖角和反挖时刻都在细水长流。CDN和带宽池首先考察的是企业内功,有没有廉价海量资源;再考验销售内部协调能力,能不能把好资源好价格抢到手里;而盯客户的和百万级销售类似,工作力度加大三五倍而已。 3.3数据存储池 数据存储池是很难年均摊营收亿的,但定个1000万的目标是能实现的;如果有1000万的非冷备存储池,那很容易带来数倍数十倍的计算和带宽消费。存储资源是大订单曲线突破的好选项,还是AI和大数据项目的基石,我们和客户讲的是有技术含量的故事,需要精英售前给销售做幕后军师。 配图说明:谁掌握了数据,谁就掌握了真理 3.4人力资源池 亿元项目不可能是客户自助实施的,人力营收占比很低但画龙点睛,可能会干掉纯卖资源的友商,也可能晚交付半月就亏损千万。
TOP