关于 碌曲找美女服务同城〖10669708薇信〗 的搜索结果,共723
h****e 2018-07-10
程序:我从哪里来?
干货概览 在计算机程序或者的层次上,我们来试着分析前面提到的几个问题。 问题 1.我是谁? 叫什么,包含了哪些实例,规模、部署情况、实例运行状况如何? 2.我从哪里来? 的上游有哪些,不的上游流量如何分配? 3.我往哪里去? 的下游有哪些,不的下游流量如何分配? 面对这样的问题,我们的答案是什么呢? 在百度的运维实践中,我们只需“BNS”就可以获得想要的答案。 BNS(Baidu Naming Service,百度名字)是百度云智能运维团队研发的一套分布式的名字系统,是百度云Noah智能运维产品中的一个重要基础系统。它为每一个赋予一个独一无二的名字,根据这个名字,我们就可以获取到这个的相关息 ,这些息包括:在机器上部署息(机器IP,部署路径,配置,端口息),的实例运行状况等其他重要息。简单来讲,它提供了一个名到资源息的一个映射关系。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
而我不喜欢用ntpdate步时间的工程师,NTPD是一个体系化的,而ntpdate只是一个动作,大部分人没做好为ntpdate这个动作负责。 正常的时间是个持续增长的向量,即老时间t1肯定小于新时间t2,新时间t2也小于最新的时间t3,而且t1必定会渐进增长到t2和t3。除了少数商业数据库自带时钟源以外,大部分业对系统时间是盲目任,不相t1会越过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序健壮性和业安全性,甚至部分程序崩溃的稀里糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目任;假设一个根NTP不稳定,所有的器获得了错误的时间,虽然现在业层可以包容异常,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。我们就说联机调试分布式日志,几个节点的时间有错可能日志就看不懂了。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
在传统的运维方式中,由于故障感知判断、流量调度决策的复杂性,通常需要人工止损,但人工处理的时效性会影响的恢复速度,时人的不可靠性也可能导致问题扩大。 为了解决这类问题,我们针对百度内外部网络环境建设了基于智能流量调度的单机房故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与百度名字(BNS)实现了智能流量调度与自动止损能力。时,基于实时容量与实时流量调度自动止损策略与管控风险,实现了任意单机房故障时业均可快速自愈的效果。当前此解决方案已覆盖搜索、广告、息流、贴吧、地图等众多核心产品的单机房故障自愈场景。 单机房故障频发影响业可用性 回顾近2年来各大互联网公司被披露的故障事件,单机房故障层出不穷。例如: 2015年6月某公司云香港IDC节点电力故障崩溃12小时 2016年5月某公司杭州电接入故障,中断小时级别 2017年1月某业天津机房故障,数小时无法提供 2017年6月北京某处机房掉电,多家互联网公司受影响 单机房故障频繁影响业的可用性并且会给公司带来直接或间接的损失。
w****0 2018-07-11
单机房故障自愈-黎明之战
要求:将拆分为若干不的逻辑单元,每个逻辑单元处于不的物理机房,均能提供产品线完整。 3.不满足N+1冗余 描述:任意单个机房故障时,其余机房剩余容量不足以承担该机房切出的流量。 问题:流量调度导致其余机房过载,造成多个机房故障,造成更大范围的影响。 要求:容量建设需要对于每个逻辑单元都要有明确的容量数据,并具备N+1冗余,即任意机房故障情况下,其余机房均可承载这部分流量,时需要保证变化时及时更新数据和扩容,避免容量数据退化。时对于流量的变化趋势,也需要有提前的预估,为重大事件流量高峰预留足够容量(如节日、运营、假期)。 4.关联强耦合 描述:上下游使用固定IP或固定机器名进行直接连接。 问题:单机房故障发生时,关联的上下游之间无法进行快速的流量调度止损。 要求:线上关联不允许使用固定IP或机器名链接,需使用具备流量调度能力的上下游连接方式以实现上下游依赖解耦,下游发生单机房故障,可以快速调整路由比例实现止损。 单机房容灾能力--盲测验收 完成以上四点单机房容灾能力建设后,业线就具备了通过流量调度进行止损单机房故障的基本条件。
追****圣 2018-07-11
给书记省长讲清楚云计算
当前云计算公司聚集在一线大市,环境规范稳定但成本极高竞争压力极大,云计算企业也在尝试向二三线转移突围。二三线市不仅要积极准备云计算硬性资源,还可以用合作融资、税收优惠等等灵活政策承担产能转移的,最终说云计算公司将GDP和税收留在当地。 云计算平台提供的都是互联网,大量的互联网部署在本地会有极大的管控压力。二三线市对互联网还只是简单的管控,稍有不解可能就会封禁一大批互联网,但一道封网命令就可以毁掉一个云计算公司的声誉。如果当地政企要做好云计算就要从管理者变为者,必须在管控违规违法时不惊扰正常业,甚至主动出击为正常网络保驾护航。 前几条都是从降低成本可靠的角度请云计算企业来合作建厂,如果你有市场有客户那对方会主动上门寻求合作。从长周期来看云计算的客户是覆盖全球全行业的,各地内部采购的计算机项目根本不值一提,市场和客户要靠云计算厂商自己去。但现在云计算厂商还在早期扩张摸索之中,云厂商极端渴求各种政云企业云成功模式案例,一旦摸出来案例会迅速推广到全国。
疏****月 2018-07-09
一键上线Archer | 百度持续部署的瑞士军刀
Archer的配置文件路径、的启停脚本及运维命令具有固定的标准并且支持定制化,使用Archer进行部署的具有统一的包结构; 支持分级发布,及时拦截部署引入的线上故障 针对分级发布的使用场景,Archer支持串并行上线及暂停点功能,可按照单实例、单机房、单地域等级别设置暂停点,并支持部署过程中进行暂停、继续、重试、撤销等操作; 业的多地域部署 的多地域部署主要需要解决不地域配置不的问题。Archer提供了配置派生功能以支持多地域部署的场景。Archer支持在一份配置文件中设置配置变量,并在特定地域(机房)中生成特定配置值; 多种网络环境及大包部署 针对多种网络环境及大包部署的使用场景,Archer提供了部署数据中转传输。采用中转的上线在发起任后,部分代码将首先被转存至中转机上。
流****水 2018-07-11
度云企业级运维平台——NoahEE
简单的说,管理要解决的最核心问题就是如何对资源进行有效组织管理与定位: 图2 解决规模带来的问题 在管理这个地基打好后,我们再来回顾下上面的例子。这个例子中,地图研发的学就可以在运维平台中选中导航的模块进行升级,运维平台会通过管理来定位此次升级操作需要影响的机器并进行批量的操作。NoahEE中的所有运维系统,都以管理为基础来进行运维操作,例如在监控系统中,我们可以对导航模块(而不是单台机器进行操作)添加一些指标采集任,并在一定条件达成时报警。管理通过对资源合理的组织,极大的简化了运维操作,提升了运维效率。 资产管理 在机房里,各种各样的器、网络设备和安全设备7x24小时的运转,为我们的业提供了硬件保障,是企业的重要资产。各种设备的物理损坏、升级、新增、搬迁等等都在考验着机房运维人员的能力。怎样维护这些资产并记录息,是个很重要的问题,搞得不好,这些资产可能变成运维人员的“包袱”,越多越头疼。 对这些设备的运维操作,通常都涉及不少的物理操作,比如说更换损坏的硬盘,增加内存条等等。这里涉及到几个要解决的问题: 故障如何及时发现?发现后由谁来进行修复?
s****d 2018-07-11
亿元级云用户分析
硬件和系统管理——硬件是标准还是特配、产权是租是卖、内网代维还是自主设计、器交钥匙还是黑盒——不的客户项目需求,导致硬件管理和监控不于传统方案也不于其他云项目。 广域网联通方案——云厂商大都是互联网出身,他们拥有DDOS的资源和统一前端的实践经验,还有海量廉价优质带宽。限制客户梦想的是老旧系统是否支持常见协议,还有底层工程师能否推动上层业测试和变动。 API调用PaaS——API云就是不可控过程的黑箱,客户没预算没精力就盲目任云厂商。客户有精力就做多云冗余校验,有预算就做专有资源池部署;未来云厂商还会自定义SLA标准——大部分API云连等待超时都没定义。 版本发布和数字化转型——无论是微观的版本发布还是宏观的数字化转型,其实都和上云没直接联系,一个是室内装修工作,一个是新建房屋工作,但装修的最好时机是房屋重建的时候,云厂商要帮客户推动IT技术革新。 5.输出分析 云厂商输出给客户的即有云端IT资源,也有平台输出。是个比资源更难量化的概念,我只引一把火苗出来。
TOP