关于 广州越秀洪桥找少妇服务保健〖10669708薇信〗 的搜索结果,共599
h****e 2018-07-10
程序:我从哪里来?
干货概览 在计算机程序或者的层次上,我们来试着分析前面提到的几个问题。 问题 1.我是谁? 叫什么,包含了哪些实例,规模、部署情况、实例运行状况如何? 2.我从哪里来? 的上游有哪些,不同的上游流量如何分配? 3.我往哪里去? 的下游有哪些,不同的下游流量如何分配? 面对这样的问题,我们的答案是什么呢? 在百度的运维实践中,我们只需“BNS”就可以获得想要的答案。 BNS(Baidu Naming Service,百度名字)是百度云智能运维团队研发的一套分布式的名字系统,是百度云Noah智能运维产品中的一个重要基础系统。它为每一个赋予一个独一无二的名字,根据这个名字,我们就可以获取到这个的相关息 ,这些息包括:在机器上部署息(机器IP,部署路径,配置,端口息),的实例运行状况等其他重要息。简单来讲,它提供了一个名到资源息的一个映射关系。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
除了数商业数据库自带时钟源以外,大部分业对系统时间是盲目任,不相t1会过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序壮性和业安全性,甚至部分程序崩溃的稀里糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目任;假设一个根NTP不稳定,所有的器获得了错误的时间,虽然现在业层可以包容异常,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。我们就说联机调试分布式日志,几个节点的时间有错可能日志就看不懂了。 NTPD做时间调整会有效减这类情形,它不是简单的龟速调整时间,而是有柔性时间调整策略,让时间线的跃变和调整尽量影响业(详情见附录实验);也不会盲目任远端时钟源,甚至固执的拒绝同步时间。NTPD本机时刻有可能不对,但不会忽快忽慢甚至停滞,NTPD通过多次收发包选择权威稳定的时间源,算出双方间的网络延迟,然后才会采新的时刻进行时钟同步。
红****2 2018-07-10
故障自愈机器人,你安心好睡眠
在传统的运维方式中,由于故障感知判断、流量调度决策的复杂性,通常需要人工止损,但人工处理的时效性会影响的恢复速度,同时人的不可靠性也可能导致问题扩大。 为了解决这类问题,我们针对百度内外部网络环境建设了基于智能流量调度的单机房故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与百度名字(BNS)实现了智能流量调度与自动止损能力。同时,基于实时容量与实时流量调度自动止损策略与管控风险,实现了任意单机房故障时业均可快速自愈的效果。当前此解决方案已覆盖搜索、广告、息流、贴吧、地图等众多核心产品的单机房故障自愈场景。 单机房故障频发影响业可用性 回顾近2年来各大互联网公司被披露的故障事件,单机房故障层出不穷。例如: 2015年6月某公司云香港IDC节点电力故障崩溃12小时 2016年5月某公司杭接入故障,中断小时级别 2017年1月某业天津机房故障,数小时无法提供 2017年6月北京某处机房掉电,多家互联网公司受影响 单机房故障频繁影响业的可用性并且会给公司带来直接或间接的损失。
金****洲 2018-07-10
混乱的集群遇见TA 从此岁月静好
为有效地管控体量庞大的集群,合理分配资源,降低运维成本,障云上穿狂风暴雨,工程师们意识到:“必须要有一个优系统来管控这混沌的集群世界!” 第一天 工程师们说:”这个系统要代表操作系统的意志!占用资源!对外部系统零依赖!装机自带!要能自升级和自活!“。当裸机启动之后,这个系统便以root身份运行,能活自己,还能托管维护其余基础设施,后续迭代升级也能自动完成,整个流程高度自动化,不需要人工介入,极大地降低运维成本。 第二天 工程师们说:“这个系统必须运行稳定,性能卓,支持跨平台(Linux、Windows、ARM)安装,要做到同时管理上万台器,一点儿都不慌”。 第三天 工程师们说:“这个系统不能像瑞士军刀,而应该重剑无锋、大巧不工,仅支持基础设施的维护管理,要能做到快速扩缩容!出现问题能立刻回滚,障云环境的安全和稳定。” 第四天 工程师们说:“这个系统还要做到‘麻雀虽小,五脏俱全’!要为基础设施提供虚拟化容器隔离,应用部署,应用拓扑搭建和集群控制的功能。为应用的整个生命周期驾护航,提供一条龙。”
流****水 2018-07-11
度云企业级运维平台——NoahEE
简单的说,管理要解决的最核心问题就是如何对资源进行有效组织管理与定位: 图2 解决规模带来的问题 在管理这个地基打好后,我们再来回顾下上面的例子。这个例子中,地图研发的同学就可以在运维平台中选中导航的模块进行升级,运维平台会通过管理来定位此次升级操作需要影响的机器并进行批量的操作。NoahEE中的所有运维系统,都以管理为基础来进行运维操作,例如在监控系统中,我们可以对导航模块(而不是单台机器进行操作)添加一些指标采集任,并在一定条件达成时报警。管理通过对资源合理的组织,极大的简化了运维操作,提升了运维效率。 资产管理 在机房里,各种各样的器、网络设备和安全设备7x24小时的运转,为我们的业提供了硬件障,是企业的重要资产。各种设备的物理损坏、升级、新增、搬迁等等都在考验着机房运维人员的能力。怎样维护这些资产并记录息,是个很重要的问题,搞得不好,这些资产可能变成运维人员的“包袱”,头疼。 对这些设备的运维操作,通常都涉及不的物理操作,比如说更换损坏的硬盘,增加内存条等等。这里涉及到几个要解决的问题: 故障如何及时发现?发现后由谁来进行修复?
追****圣 2018-07-11
给书记省长讲清楚云计算
从长周期来看云计算的客户是覆盖全球全行业的,各地内部采购的计算机项目根本不值一提,市场和客户要靠云计算厂商自己去。但现在云计算厂商还在早期扩张摸索之中,云厂商极端渴求各种政云企业云成功模式案例,一旦摸出来案例会迅速推广到全国。这个窗口期只有三五年,随着政云企业云被其他公司摸透并推广开,这些项目就从首发明星案例变为普通捆绑销售了。 挑选合格的云计算合作厂商,每类厂商有哪些特点。 前文说的为何要引凤,如何算筑巢。当云厂商看到商机肯合作时,我们要掌握各类云厂商的特点才能心里有数。 第一类是大型云厂商,他们自身有很强的资源整合能力和执行销售能力。地方政企和这类企业合作的话语权很弱,但极小风险就能看到收益。 第二类是创业云厂商,他们一般是靠技术优势和态度从大型云企手里抢单子。地方政企和这类企业合作时有很强的议价能力,注意不要盲目倾向技术优先的创业云厂商,而是选择态度和执行能力好的创业云厂商。地方政企很难确切搞懂厂商的技术有哪些优势,而项目的推进落地都是要靠云厂商来执行的。 第三类是外企云厂商,这类厂商是被广阔的中国市场吸引过来的,也有兼顾外企中国分部的客户。
若****客 2018-07-10
IT架构的本质--我的五点感悟
多媒体工程师最好的情人节礼物会是一个完美的播放器;它可以自助容错选择CDN,可以主动预缓存下一分钟的点播内容,可以完成私有解密编码工作,可以和广告系统解耦独立加载,可以在卡顿时更换线路和存储日志,广告日志和卡顿日志都低速适时后台上传。 2.群集设计通用规则 前端复制后端拆,实时改异步,三组件互换 前端复制后端拆,实时改异步,IO-算力-空间可互换——要做架构就要上群集,而群集设计调优翻来覆去就是这三板斧: 前端是管道是逻辑,而后端是状态是数据,所以前端复制后端拆。前端器压力大了就多做水平复制扩容,在网站类应用上,无状态-会话持-弹性伸缩等技术应用纯熟。后端要群集化就是多做业拆分,常见的就是数据库拆库拆表拆键值,拆的散微操作就爽,但全局操作开销更大更难控制。 实时改异步是我学的最后一门IT技术,绝大部分“实时操作”都不是业需求,而是某应用无法看到后端和Peer状态,默认就要实时处理结果了。CS模式的实时操作会给支撑带来巨大压力,Peer合作的实时操作可能会让数据申请方等一宿。
w****0 2018-07-11
单机房故障自愈-黎明之战
干货概览 在故障自愈机器人,你安心好睡眠一文中,我们介绍了单机房故障自愈的必要性和解决思路。本文主要介绍单机房故障自愈前需要进行的准备工作,具体包括: 单机房容灾能力建设中遇到的常见问题及解决方法 基于网络故障及业故障场景的全面故障发现能力 百度统一前端(BFE)和百度名字(BNS)的流量调度能力 单机房容灾能力--常见问题 单机房故障场景下,流量调度是最简单且最有效的止损手段,但我们发现业线经常会遇到如下问题导致无法通过流量调度进行止损: 1.存在单点 描述:系统内只有一个实例或者多个实例全部部署在同一物理机房的程序模块即为单点。 问题:单点所在机房或单点自身发生故障时,无法通过流量调度、主备切换等手段进行快速止损。 要求:浏览请求的处理,不能存在单点;提交请求的处理,若无法消除单点(如有序提交场景下的ID分配),则需要有完整的备份方案(热备或者冷备)障单机房故障时,可快速切换至其他机房。 2.跨机房混联 描述:上下游之间存在常态的跨机房混联。 问题:逻辑单元未隔离在独立的物理范围内,单机房故障会给产品线带来全局性影响。
布****五 2018-07-10
如何执行一条命令
监控数据的来源主要分两种,一种是通过业软件提供的接口直接读取状态数据,另一种是通过日志/进程状态/系统状态等(如使用grep提取日志,通过ps查询进程状态,通过df查询磁盘使用等)方式间接查询。 无论是配置管理、部署变更还是监控采集,都有一个共同的目的:控制器。在现阶段,要想对器进行控制,离不开“在大量器上执行命令并收集结果”这一基础能力,这也是今天我们的主题“如何执行一条命令”的意义所在。 面临的困难 命令行的三要素,也是如何执行一条命令行面对的三个问题,如前文所述,对于单机环境来说,这三个问题在前人的努力下已经被很好的解决。可是如果要在几十万台机器上每天执行几十亿条命令,同时证时效性,证执行成功率,证结果正确收集,证7*24小时稳定运行,就不是一件简单的事情了。所谓远行无轻担,量大易也难,在构建这样的执行系统的过程中要面临诸多困难,此处举几个突出的例子如下: 息存储问题:为了支持水平扩展,需要高效的内存数据库作为缓存。为了做到执行命令的可追溯、可统计,需要对执行过的命令息持久化。日均几十亿的热数据,年均上万亿的冷数据,需要仔细选择存储方案。
TOP