关于 迭部找美女服务特殊〖10669708薇信〗 的搜索结果,共729
h****e 2018-07-10
程序:我从哪里来?
干货概览 在计算机程序或者的层次上,我们来试着分析前面提到的几个问题。 问题 1.我是谁? 叫什么,包含了哪些实例,规模、署情况、实例运行状况如何? 2.我从哪里来? 的上游有哪些,不同的上游流量如何分配? 3.我往哪里去? 的下游有哪些,不同的下游流量如何分配? 面对这样的问题,我们的答案是什么呢? 在百度的运维实践中,我们只需“BNS”就可以获得想要的答案。 BNS(Baidu Naming Service,百度名字)是百度云智能运维团队研发的一套分布式的名字系统,是百度云Noah智能运维产品中的一个重要基础系统。它为每一个赋予一个独一无二的名字,根据这个名字,我们就可以获取到这个的相关息 ,这些息包括:在机器上息(机器IP,署路径,配置,端口息),的实例运行状况等其他重要息。简单来讲,它提供了一个名到资源息的一个映射关系。
疏****月 2018-07-09
一键上线Archer | 百度持续署的瑞士军刀
因此,在署系统的开发后期,自身的功能变更主要集中于单机署工具。为了提高自身开发代效率,脚本未采用全网署的方案,只署到定插件集群。每次执行时,单机agent会从插件集群下载最新MD5,如果有变更,将重新下载最新插件进行任的执行。这种设计形式增强了执行端功能的可横向扩展性,并且极大降低了每次自身升级的成本。每次升级只需更新一个集群的插件代码,在全机器上即可生效。 总结 百度经历了手工上线- Web化- 开放化一系列发展进程,目前正在向智能化逐步发展。Archer作为开放化一代的运维产品,在百度内具有极高的使用率。期待本文的介绍能为您提供一些思路,也欢迎同行们与我们进行交流,共同促进AIOps的发展!
流****水 2018-07-11
度云企业级运维平台——NoahEE
一图胜千言,我们看看资产管理的点: 图3 资产管理 署管理 应用署一直是运维工作中的重点,一般来说,我们面临的问题有: 批量署难,怎样定位目标机器?如何快速署? 灰度测试难,怎样通过灵活的署方式,先进行小流量线上测试,待效果达到预期后再扩大署? 回滚难,发现问题后怎样回滚? 上面的第一个问题,实际上在管理中已经解决了,也就是说管理帮我们完成了资源定位工作。其他的问题,NoahEE的署管理模块通过“分级发布”来解决。在署管理模块中,我们可以方便的定义并发度、署步骤、影响范围以及暂停操作等,在署的过程中发现问题即可暂停并回滚至之前的状态。除了署等操作,署管理模块还提供了批量执行命令等操作(比如批量启停某一)。如图来总结署系统的能力: 图4 署管理 监控管理 在任何工作里,息掌握的全面与否往往关乎到工作的成败。“知己知彼百战不殆”这句话说的就是这个道理。运维工作中,监控系统就是这个让我们做到这点的关键。软硬件是否工作正常,出了问题是否能及时发现与报警,甚至是对异常事件等进行提前预测,都仰仗监控系统。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
在传统的运维方式中,由于故障感知判断、流量调度决策的复杂性,通常需要人工止损,但人工处理的时效性会影响的恢复速度,同时人的不可靠性也可能导致问题扩大。 为了解决这类问题,我们针对百度内外网络环境建设了基于智能流量调度的单机房故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与百度名字(BNS)实现了智能流量调度与自动止损能力。同时,基于实时容量与实时流量调度自动止损策略与管控风险,实现了任意单机房故障时业均可快速自愈的效果。当前此解决方案已覆盖搜索、广告、息流、贴吧、地图等众多核心产品的单机房故障自愈场景。 单机房故障频发影响业可用性 回顾近2年来各大互联网公司被披露的故障事件,单机房故障层出不穷。例如: 2015年6月某公司云香港IDC节点电力故障崩溃12小时 2016年5月某公司杭州电接入故障,中断小时级别 2017年1月某业天津机房故障,数小时无法提供 2017年6月北京某处机房掉电,多家互联网公司受影响 单机房故障频繁影响业的可用性并且会给公司带来直接或间接的损失。
追****圣 2018-07-11
给书记省长讲清楚云计算
二三线城市不仅要积极准备云计算硬性资源,还可以用合作融资、税收优惠等等灵活政策承担产能转移的,最终说云计算公司将GDP和税收留在当地。 云计算平台提供的都是互联网,大量的互联网署在本地会有极大的管控压力。二三线城市对互联网还只是简单的管控,稍有不解可能就会封禁一大批互联网,但一道封网命令就可以毁掉一个云计算公司的声誉。如果当地政企要做好云计算就要从管理者变为者,必须在管控违规违法时不惊扰正常业,甚至主动出击为正常网络保驾护航。 前几条都是从降低成本可靠的角度请云计算企业来合作建厂,如果你有市场有客户那对方会主动上门寻求合作。从长周期来看云计算的客户是覆盖全球全行业的,各地内采购的计算机项目根本不值一提,市场和客户要靠云计算厂商自己去。但现在云计算厂商还在早期扩张摸索之中,云厂商极端渴求各种政云企业云成功模式案例,一旦摸出来案例会迅速推广到全国。这个窗口期只有三五年,随着政云企业云被其他公司摸透并推广开,这些项目就从首发明星案例变为普通捆绑销售了。 挑选合格的云计算合作厂商,每类厂商有哪些点。 前文说的为何要引凤,如何算筑巢。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
除了少数商业数据库自带时钟源以外,大分业对系统时间是盲目任,不相t1会越过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序健壮性和业安全性,甚至分程序崩溃的稀里糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目任;假设一个根NTP不稳定,所有的器获得了错误的时间,虽然现在业层可以包容异常,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。我们就说联机调试分布式日志,几个节点的时间有错可能日志就看不懂了。 NTPD做时间调整会有效减少这类情形,它不是简单的龟速调整时间,而是有柔性时间调整策略,让时间线的跃变和调整尽量少影响业(详情见附录实验);也不会盲目任远端时钟源,甚至固执的拒绝同步时间。NTPD本机时刻有可能不对,但不会忽快忽慢甚至停滞,NTPD通过多次收发包选择权威稳定的时间源,算出双方间的网络延迟,然后才会采新的时刻进行时钟同步。
w****0 2018-07-11
单机房故障自愈-黎明之战
本文主要介绍单机房故障自愈前需要进行的准备工作,具体包括: 单机房容灾能力建设中遇到的常见问题及解决方法 基于网络故障及业故障场景的全面故障发现能力 百度统一前端(BFE)和百度名字(BNS)的流量调度能力 单机房容灾能力--常见问题 单机房故障场景下,流量调度是最简单且最有效的止损手段,但我们发现业线经常会遇到如下问题导致无法通过流量调度进行止损: 1.存在单点 描述:系统内只有一个实例或者多个实例全署在同一物理机房的程序模块即为单点。 问题:单点所在机房或单点自身发生故障时,无法通过流量调度、主备切换等手段进行快速止损。 要求:浏览请求的处理,不能存在单点;提交请求的处理,若无法消除单点(如有序提交场景下的ID分配),则需要有完整的备份方案(热备或者冷备)保障单机房故障时,可快速切换至其他机房。 2.跨机房混联 描述:上下游之间存在常态的跨机房混联。 问题:逻辑单元未隔离在独立的物理范围内,单机房故障会给产品线带来全局性影响。同时流量调度也无法使得恢复正常。
布****五 2018-07-10
如何执行一条命令
集群执行,要求支持同时在10万台器上并行执行,同时保证集群中每个机器达到单机执行的性能。 2.控制灵活: 单机控制,要求支持暂停、取消、重做功能。 集群控制,要求支持暂停点功能,也即可以在执行到某台器时暂停,等待人工检查确认无问题后可继续执行。 3.扩展方便: 支持插件,要求支持自定义执行插件,用户可编写自己的插件执行相应操作。 支持回调,要求支持自定义用户回调,如任执行失败调用相应回调接口。 除了以上的业需求外,一个分布式系统的搭建,还要考虑可用性、可扩展性、性能、一致性等方面的硬性要求。 如何解决 为了解决这个简单的难题,我们设计了如图3所示的百度集群控制系统(Cluster Control System,简称CCS系统),通过分离控制息与执行息建立了两级数据模型,结合命令执行及机房点建立了四级传输模型,通过三级守护方式建立了稳定的执行代理,在大规模器集群上解决了“命令三要素”问题。 图3百度集群控制系统架构 截至目前,CCS系统已经署在全百度的所有机房中,用户可以方便的在任意一台机器上进行秒级命令下发和结果收集,日均承载数亿次来自各产品的接口调用。
TOP