关于 阆中找小姐保健按摩服务〖8843O306VX〗服务真实匠兔霉当衅 的搜索结果,共1199
h****e 2018-07-10
程序:我从哪里来?
在BNS系统单元表示一个例集合,一般以三段式的结构表示,比如:server.noah.all,server表示名,noah表示产品线,all表示机房名称,单元的名字在系统是唯一的。 使用场景 在程序员的日常工作,常常面临以下的场景: 场景 场景一:我是一名OP工程师,负责几十个系统模块的运维,我常常需要登录部署的机器排查问题,但是只知道名,记不住那么多部署信息,怎么办? 场景二:我是一名RD工程师,我负责的需要扩容,我的是很多下游的依赖,的扩容怎么通知给下游模块? 场景三:我的部署例有一个出现故障了,我想对下游屏蔽该故障例,怎么办? 下面以一个简单的例子来说明,假设一个模块名是Server,它的上游是Proxy,下游是Redis出现变更或者故障时,如何让上游感知到呢? 新增上线例、下线摘除例或者例发生故障时,BNS系统通过部署在机器上的客户端时感知到例的状态变化,同时新增和删除例的变更情况会立即同步到分布式的缓存系统,这样用户通过一个BNS名字就可以感知到下游的例变化。
w****0 2018-07-11
单机房故障自愈-黎明之战
干货概览 在故障自愈机器人,你安心好睡眠一文,我们介绍了单机房故障自愈的必要性和解决思路。本文主要介绍单机房故障自愈前需要进行的准备工作,具体包括: 单机房容灾能力建设遇到的常见问题及解决方法 基于网络故障及业故障场景的全面故障发现能力 百度统一前端(BFE)和百度名字(BNS)的流量调度能力 单机房容灾能力--常见问题 单机房故障场景下,流量调度是最简单且最有效的止损手段,但我们发现业线经常会遇到如下问题导致无法通过流量调度进行止损: 1.存在单点 描述:系统内只有一个例或者多个例全部部署在同一物理机房的程序模块即为单点。 问题:单点所在机房或单点自身发生故障时,无法通过流量调度、主备切换等手段进行快速止损。 要求:浏览请求的处理,不能存在单点;提交请求的处理,若无法消除单点(如有序提交场景下的ID分配),则需要有完整的备份方案(热备或者冷备)障单机房故障时,可快速切换至其他机房。 2.跨机房混联 描述:上下游之间存在常态的跨机房混联。 问题:逻辑单元未隔离在独立的物理范围内,单机房故障会给产品线带来全局性影响。
红****2 2018-07-10
故障自愈机器人,你安心好睡眠
干货概览 在大型互联网公司,单机房故障因为其故障时间长、影响范围大,一直是互联网公司运维人员的心头之痛。在传统的运维方式,由于故障感知判断、流量调度决策的复杂性,通常需要人工止损,但人工处理的时效性会影响的恢复速度,同时人的不可靠性也可能导致问题扩大。 为了解决这类问题,我们针对百度内外部网络环境建设了基于智能流量调度的单机房故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与百度名字(BNS)现了智能流量调度与自动止损能力。同时,基于时容量与时流量调度自动止损策略与管控风险,现了任意单机房故障时业均可快速自愈的效果。前此解决方案已覆盖搜索、广告、信息流、贴吧、地图等众多核心产品的单机房故障自愈场景。 单机房故障频发影响业可用性 回顾近2年来各大互联网公司被披露的故障事件,单机房故障层出不穷。
疏****月 2018-07-09
一键上线Archer | 百度持续部署的瑞士军刀
Archer的配置文件路径、的启停脚本及运维命令具有固定的标准并且支持定制化,使用Archer进行部署的具有统一的包结构; 支持分级发布,及时拦截部署引入的线上故障 针对分级发布的使用场景,Archer支持串并行上线及暂停点功能,可照单例、单机房、单地域等级别设置暂停点,并支持部署过程进行暂停、继续、重试、撤销等操作; 业的多地域部署 的多地域部署主要需要解决不同地域配置不同的问题。Archer提供了配置派生功能以支持多地域部署的场景。Archer支持在同一份配置文件设置配置变量,并在特定地域(机房)生成特定配置值; 多种网络环境及大包部署 针对多种网络环境及大包部署的使用场景,Archer提供了部署数据转传输。采用转的上线在发起任后,部分代码将首先被转存至转机上。
M****点 2018-07-10
国云计算现状——产品篇
客户的非CDN云资源采购金额过500万以后,其子项目之间没有内网互通的需求,这时候该做一个跨厂商的云端资源管理方案了。现在虚拟机不能像CDN一样随意迁移,但未来Serverless崛起,计算能力也会在多厂商之间漂移的。客户提前把云管平台从计费和权限层面做好,至少在项目级别可以和多个厂商侃价,还能模糊计费相关业数据。 五、企业IT咨询和 前面的云计算都免不了卖资源或者卖软件,搞IT咨询和可以让公司增加企业的融资概念和收入构成。型云厂商都尝试转型做这类工作避开成本搏杀,大厂商嘴上说不要眼神也很诚。但具体参与过程,这类工作很少有成功案例,我做成功过这类项目感慨也很深,本段落重点解释这些现象并给出建议。 先说IT咨询,过去云计算平台吸引到的都是成本敏感的游戏客户或者技术优先的创业客户,这两类客户都不会为一时一千元的咨询付费。现在高净值客户放出来的云计算咨询标了却没人投标,因为型云计算企业因为资质、高层合作、客户关系等原因没有投标的机会。 我们经常遇到咨询标,但我们也不想投这个标。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
而我不喜欢用ntpdate同步时间的工程师,NTPD是一个体系化的,而ntpdate只是一个动作,大部分人没做好为ntpdate这个动作负责。 正常的时间是个持续增长的向量,即老时间t1肯定于新时间t2,新时间t2也于最新的时间t3,而且t1必定会渐进增长到t2和t3。除了少数商业数据库自带时钟源以外,大部分业对系统时间是盲目信任,不相信t1会越过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序壮性和业安全性,甚至部分程序崩溃的稀里糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目信任;假设一个根NTP不稳定,所有的器获得了错误的时间,虽然现在业层可以包容异常,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。我们就说联机调试分布式日志,几个节点的时间有错可能日志就看不懂了。
流****水 2018-07-11
度云企业级运维平台——NoahEE
另外,NoahEE提供了不同的工单流程覆盖了日常机房运维的操作,从设备采购入库、上架、机架变更,直到设备下架、出库全生命周期覆盖,做到所有运维操作记录可追溯。有了资产管理,运维人员可以在器完成入库、上架工单后即可在管理看到该器并进行管理,无须任何其他操作。一图胜千言,我们看看资产管理的特点: 图3 资产管理 部署管理 应用部署一直是运维工作的重点,一般来说,我们面临的问题有: 批量部署难,怎样定位目标机器?如何快速部署? 灰度测试难,怎样通过灵活的部署方式,先进行流量线上测试,待效果达到预期后再扩大部署? 回滚难,发现问题后怎样回滚? 上面的第一个问题,际上在管理已经解决了,也就是说管理帮我们完成了资源定位工作。其他的问题,NoahEE的部署管理模块通过“分级发布”来解决。在部署管理模块,我们可以方便的定义并发度、部署步骤、影响范围以及暂停操作等,在部署的过程发现问题即可暂停并回滚至之前的状态。除了部署等操作,部署管理模块还提供了批量执行命令等操作(比如批量启停某一)。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前都荒废了,因为卡得一匹。
追****圣 2018-07-11
给书记省长讲清楚云计算
他们最大的优点和缺点都是为政府和国企为生,他们可以买技术搭建出云平台,但他们建好云平台的目的是再卖给本地政府和国企。这类企业需要完成从供应商到合作方的转变。 云计算不是万能药,它无法解决哪些问题。 在地方政企看来,云计算只是一种商业形式,不能对它报以不切际的期望值。 云计算行业不需要大量雇佣本地劳动力,无法解决大批就业问题;云计算核心员工会呆在一线城市远程操控,很难将云计算人才引进到地。 云计算不会产生污染,所以不用考虑环减排问题,但其带来的环节能问题很严重,每个数据心都会占用大量电力。 对于四线城市政府和型国企,因为现困难资源有限是搞不了云计算的;二三线城市和大型国企才能提供云计算公司感兴趣的资源。
s****d 2018-07-11
亿元级云用户分析
咨询规划--如果直接给客户买资源,那就只能谈性价比,而且资源本身不会说话,所以云厂商要做好咨询规划。 明晰验收--云项目的施和结项都是以结果为导向的,明确的过程控制和验收标准对供求双方都是护。 友好接口--面对亿元大金主,云厂商的下限是类比传统IDC,要把金主伺候舒了就要学IOE类集成商。 资源持续--亿元大客户不要求云平台永不故障,但要云平台承诺清晰SLA,事后给个合理的故障报告。 后记 如我在《复制阿里云并不难》所说的,一个云行业半个IT界”,云行业将垄断IT界一半的营收和利润。本文讨论的亿元大项目,目标就是拿下IT圈的营收上限。现在亿元大单都是云厂商在侵入系统集成商的势力范围,后面云厂商会得到越来越多的亿元大单。
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
软件BUG 相比客户自己粗选一个物理机的OS,云主机精选的虚拟机OS、宿主OS、Hypervisor的软件BUG并不多,大型云厂商都有精选底层支撑软件的力,但客户装物理机自选的OS都可能有驱动问题,三个精选软件的故障率没一个粗选软件更高。 但是从云资源的管理、调度、监控软件,到客户界面,API管理、账户和后台策略层面,越往上走的软件质量还不如XXXX,此处省略一万五千字,客户自己揣吧。 厂商深层原因 厂商报故障就跟滚刀肉挨揍一样,脸疼了就把屁股凑过来,屁股疼了就捏捏脸,一般不会住一只羊使劲薅羊毛,毕竟云报障也要负载均衡。但客户自己心里要有秆秤,厂商究竟是偶尔发挥失常还是烂泥扶不上墙,故障的性质对长久的品质很重要。 我列一下潜在的故障原因,哪些故障能忍,哪些故障不能忍,这些要云客户自己评估了。 技术原因 IaaS的核心主体功能(云主机、云硬盘、VPC),在没有特型要求前提下,是可以用开源方案搭建。如果是云厂商连个开源平台标准模块都部署失败,那就该换厂商了;如果是偶发的BUG,那确客户要自认倒,因为友商也会遇到同样问题。
布****五 2018-07-10
如何执行一条命令
可是如果要在几十万台机器上每天执行几十亿条命令,同时证时效性,证执行成功率,证结果正确收集,证7*24时稳定运行,就不是一件简单的事情了。所谓远行无轻担,量大易也难,在构建这样的执行系统的过程要面临诸多困难,此处举几个突出的例子如下: 信息存储问题:为了支持水平扩展,需要高效的内存数据库作为缓存。为了做到执行命令的可追溯、可统计,需要对执行过的命令信息持久化。日均几十亿的热数据,年均上万亿的冷数据,需要仔细选择存储方案。 任调度问题:为了达到在任意多台器上执行命令的要求,需要确定何时分发命令、何时回收结果以及怎么样的并发度批量下发。 消息传输问题:为了证命令高效正确送达目标器,需要构建一个可靠的命令传输网络,使命令信息在准确送达的前提下障传输的可靠与高效,毕竟百度的几十万台器分布在世界各地。 代理执行问题:为了更好的处理权限、单机并发等单机执行问题,需要在目标机构建执行代理,以应对单机的复杂执行环境。
小****园 2018-07-10
让PB级云存储不再神秘
云存储不能违背商业的本质,甲方没蠢到敢让乙方赔钱做,但采购决策层更喜欢看谁的报价最低。数十PB的数据上云后基本下不来,平台方无论是提价还是降速,有的是追加预算的手段;如果对方是赔本卖吆喝,成功了就会甩开这个包袱,失败了就直接倒闭。我谈PB级存储项目时,我很愿意分享不同底层技术带来的际成本构成,为什么同样的价格我们还能挣钱而友商已经在贴钱,相关内容会在第四章节详细说明。 成功案例是很重要的决策依据,但这个依据很难考证性。厂商做过PB级项目但其是一群TB项目做的计费融合,厂商确做过数百P的项目却和标准对象存储功能不通用,这类事情太多了,对象存储合同上不会有总容量,发票存根也只是简单的信息费。客户的成功案例必须是单一命名空间容量达到PB级别,并简要说明文件数量和主要读写场景。考察案例性的方法主要靠听对方能否自圆其说,甚至让多个厂商面质疑,能逻辑自治的厂商终归还是靠谱一些。 大客户对云端数据的处理的要求比客户更简单,因为复杂业功能可以自己做,还可以要求厂商为自己做定制开发。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动过程
曾经我把这些技能做资历,但现在大家都上云了,它们就只是闲聊的谈资了。但客户上云就能少招一个研究这事的工程师,上云确也很有意义啊。 夜静人稀,沙子龙关好了门,一气把六十四枪刺下来;而后,拄着枪,望着天上的群星,想起年在野店荒林的威风。叹一口气,用手指慢慢摸着凉滑的枪身,又微微一笑,“不传!不传!”----老舍《断魂枪》
若****客 2018-07-10
IT架构的本质--我的五点感悟
前端器压力大了就多做水平复制扩容,在网站类应用上,无状态-会话持-弹性伸缩等技术应用纯熟。后端要群集化就是多做业拆分,常见的就是数据库拆库拆表拆键值,拆的越散微操作就越爽,但全局操作开销更大更难控制。 时改异步是我学的最后一门IT技术,绝大部分“时操作”都不是业需求,而是某应用无法看到后端和Peer状态,默认就要时处理结果了。CS模式的时操作会给支撑带来巨大压力,Peer合作的时操作可能会让数据申请方等一宿。架构师将一个无脑大事拆分成多个,这就是异步架构,但拆分事就跟拆分数据表一样,拆散的需要更高业层级上做全局事障。 在群集性能规划,网络和硬盘IO+CPU算力+磁盘和内存空间是可以互换的,架构师要完成补不足而损有余的选型。比如数据压缩技术就是用算力资源来置换IO和空间,缓存技术是用空间和IO来缓解算力压力,每个新选型都会带来细节上的万千变化,但每种变化都是符合自然规律有章可循的。 一个经典微机系统就是央处理器+主存储器+IO设备,这几个概念居然和群集性能规划是一一对应。 3.
p****d 2018-07-11
单机房故障自愈--运维的春天
安全水位线:流量处于在安全线以下则风险较,可以一步进行切换。 水位上限:该水位线表明的最大承载能力,一旦流量超过故障水位线,很大概率会导致容量过载。 如果安全水位线提供的容量不足以满足止损,那我们期望使用上两条间的容量buffer,同时流量调度过程进行分步试探,避免一次性调度压垮。 基于快速熔断的过载护 在流量调度时,建立快速的熔断机制作为防止过载的最后屏障。一旦出现过载风险,则快速停止流量调度,降低次生故障发生的概率。 基于降级功能的过载护 在流量调度前,如果已经出现对应机房的容量过载情况,则动态联动对应机房的降级功能,现故障的恢复。 2业线止损策略需求差异大 【问题描述】 我们现了基础的单机房故障流量调度止损算法,但在部分业线仍存在较大的需求差异,比如: 分步动态调度需求:业存在充Cache的情况,过程能力降低,需要控制切换速度。 优先级调度需求:产品对延迟敏感,止损时需要优先切到同地域机房;业于多个上游,多个上游的重要程度不同,优先证重要上游稳定。 容量负载计算需求:请求成分不同,不同成分请求带来的容量负载不同。
w****t 2018-07-10
AIOps的四大金刚
在AIOps落地,运维工程师是处于心的角色,也赋予了新的职责,他们是AIOps具体施的需求提出者和成果验收者。具体职责包括: 在AIOps时代,运维工程师一方面需要熟悉运维领域的知识,了解运维的难题和解决思路;另一方面需要了解人工智能和机器学习的思路,能够理解哪些场景问题适合用机器学习方法解决,需要提供怎样的样本和数据,即成为AI在运维领域落地施的解决方案专家。 运维AI工程师 在单机房故障自愈场景,运维AI工程师将机器学习的算法与际的故障处理业场景相结合,针对单机房故障场景的风险点,进行策略研发与验工作。如下图所示: 运维AI工程师分别设计了如下算法策略来满足整个复杂故障场景的自动决策: 异常检测算法:解决故障发现时指标异常判断问题,基于AI方法现较高的准确率和召回率,作为整个故障自愈的数据基础。 策略编排算法:基于前线上的际流量和状态,设计损益计算模型,判断基于何种方式的操作组合或步骤,能够使整个自动止损带来收益最大,风险最。 流量调度算法:基于线上容量与时流量情况,进行精确流量比例计算,防御容量不足或不准风险,并现流量调度收益最大化。
TOP