关于 明星圈_小妹保健服务十薇v信78792796梅河口市特殊服务保 的搜索结果,共1053
h****e 2018-07-10
程序:我从哪里来?
干货概览 在计算机程序或者的层次上,我们来试着分析前面提到的几个问题。 问题 1.我是谁? 叫什么,包含了哪些实例,规模、部署情况、实例运行状况如何? 2.我从哪里来? 的上游有哪些,不同的上游流量如何分配? 3.我往哪里去? 的下游有哪些,不同的下游流量如何分配? 面对这样的问题,我们的答案是什么呢? 在百度的运维实践中,我们只需“BNS”就可以获得想要的答案。 BNS(Baidu Naming Service,百度名字)是百度云智能运维团队研发的一套分布式的名字系统,是百度云Noah智能运维产品中的一个重要基础系统。它为每一个赋予一个独一无二的名字,根据这个名字,我们就可以获取到这个的相关息 ,这些息包括:在机器上部署息(机器IP,部署路径,配置,端息),的实例运行状况等其他重要息。简单来讲,它提供了一个名到资源息的一个映射关系。
红****2 2018-07-10
故障自愈机器人,你安心好睡眠
运维人员的职责由处理转向管理,最终运维人员在低压力值班中稳定运行。 单机房故障自愈解决方案概述 百度AIOps框架中,单机房故障自愈解决方案构建在运维知识库、运维开发框架、运维策略框架三个核心能力之上。具体过程为自愈程序搜集分散的运维对象状态数据,自动感知异常后进行决策,得出基于动态编排规划的止损操作,并通过标准化运维操作接执行。该解决方案策略和架构解耦,并且托管到高可用的自动化运维平台之上,实现了业在任意单个机房故障情况下皆可自愈的效果。 截至目前该方案已覆盖百度大多数核心产品,止损效率较人工处理提升60%以上。典型案例: 在8月28日某产品在单机房故障发生后1min55s完成止损。 在后续文章中我们会继续介绍单机房故障自愈的更多详细内容,敬请期待! 单机房故障容灾能力的建设 在容灾能力建设中有哪些常见问题? 如何证已经具备单机房容灾能力? 单机房故障人工止损方法 人工止损时如何感知故障? 人工止损时如何收集故障息? 人工止损时如何进行流量调度? 单机房故障机器人止损方法 如何设计单机房故障自愈整体方案? 如何降低流量调度风险?
追****圣 2018-07-11
给书记省长讲清楚云计算
从长周期来看云计算的客户是覆盖全球全行业的,各地内部采购的计算机项目根本不值一提,场和客户要靠云计算厂商自己去找。但现在云计算厂商还在早期扩张摸索之中,云厂商极端渴求各种政云企业云成功模式案例,一旦摸出来案例会迅速推广到全国。这个窗期只有三五年,随着政云企业云被其他公司摸透并推广开,这些项目就从首发案例变为普通捆绑销售了。 挑选合格的云计算合作厂商,每类厂商有哪些点。 前文说的为何要引凤,如何算筑巢。当云厂商看到商机肯合作时,我们要掌握各类云厂商的点才能心里有数。 第一类是大型云厂商,他们自身有很强的资源整合能力和执行销售能力。地方政企和这类企业合作的话语权很弱,但极风险就能看到收益。 第二类是创业云厂商,他们一般是靠技术优势和态度从大型云企手里抢单子。地方政企和这类企业合作时有很强的议价能力,注意不要盲目倾向技术优先的创业云厂商,而是选择态度和执行能力好的创业云厂商。地方政企很难确切搞懂厂商的技术有哪些优势,而项目的推进落地都是要靠云厂商来执行的。 第三类是外企云厂商,这类厂商是被广阔的中国场吸引过来的,也有兼顾外企中国分部的客户。
布****五 2018-07-10
如何执行一条命令
可是如果要在几万台机器上每天执行几亿条命令,同时证时效性,证执行成功率,证结果正确收集,证7*24时稳定运行,就不是一件简单的事情了。所谓远行无轻担,量大易也难,在构建这样的执行系统的过程中要面临诸多困难,此处举几个突出的例子如下: 息存储问题:为了支持水平扩展,需要高效的内存数据库作为缓存。为了做到执行命令的可追溯、可统计,需要对执行过的命令息持久化。日均几亿的热数据,年均上万亿的冷数据,需要仔细选择存储方案。 任调度问题:为了达到在任意多台器上执行命令的要求,需要确定何时分发命令、何时回收结果以及怎么样的并发度批量下发。 消息传输问题:为了证命令高效正确送达目标器,需要构建一个可靠的命令传输网络,使命令息在准确送达的前提下障传输的可靠与高效,毕竟百度的几万台器分布在世界各地。 代理执行问题:为了更好的处理权限、单机并发等单机执行问题,需要在目标机构建执行代理,以应对单机的复杂执行环境。
w****0 2018-07-11
单机房故障自愈-黎之战
同时流量调度也无法使得恢复正常。 要求:将拆分为若干不同的逻辑单元,每个逻辑单元处于不同的物理机房,均能提供产品线完整。 3.不满足N+1冗余 描述:任意单个机房故障时,其余机房剩余容量不足以承担该机房切出的流量。 问题:流量调度导致其余机房过载,造成多个机房故障,造成更大范围的影响。 要求:容量建设需要对于每个逻辑单元都要有确的容量数据,并具备N+1冗余,即任意机房故障情况下,其余机房均可承载这部分流量,同时需要变化时及时更新数据和扩容,避免容量数据退化。同时对于流量的变化趋势,也需要有提前的预估,为重大事件流量高峰预留足够容量(如节日、运营、假期)。 4.关联强耦合 描述:上下游使用固定IP或固定机器名进行直接连接。 问题:单机房故障发生时,关联的上下游之间无法进行快速的流量调度止损。 要求:线上关联不允许使用固定IP或机器名链接,需使用具备流量调度能力的上下游连接方式以实现上下游依赖解耦,下游发生单机房故障,可以快速调整路由比例实现止损。
s****d 2018-07-11
亿元级云用户分析
咨询规划--如果直接给客户买资源,那就只能谈性价比,而且资源本身不会说话,所以云厂商要做好咨询规划。 晰验收--云项目的实施和结项都是以结果为导向的,确的过程控制和验收标准对供求双方都是护。 友好接--面对亿元大金主,云厂商的下限是类比传统IDC,要把金主伺候舒了就要学IOE类集成商。 资源持续--亿元大客户不要求云平台永不故障,但要云平台承诺清晰SLA,事后给个合理的故障报告。 后记 如我在《复制阿里云并不难》中所说的,一个云行业半个IT界”,云行业将垄断IT界一半的营收和利润。本文讨论的亿元大项目,目标就是拿下IT的营收上限。现在亿元大单都是云厂商在侵入系统集成商的势力范围,后面云厂商会得到越来越多的亿元大单。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
几个业内好友都确说一根裸光纤最多跑10G带宽,而于老板确表示裸光纤任何一个波分(或者不做波分)都可以跑100G以上。 后来我和于老板深究原因,不可能几个朋友都骗我或者都蠢,很可能前些年光纤波分机自己只能甩出10G,或运营商租光纤套餐里只有10G规格,给大家造成了裸光纤只能跑10G带宽的印象。同样固有的印象是光纤必须从运营商那里租,而且价格很贵还必须买波分设备等等;其实现在企业专线的场竞争很充分,拉同城裸纤一公里也就几百块钱,而且短距离裸纤也不值得上波分设备,直接对接模块即可。 二、NTD是试金石 我对裸光纤是门外汉,但同样的技术误解让我想到了NTP,我一直拿ntpd和ntpdate当做初中级系统工程师的试金石,分不清就月薪五千,分得清就八千以上(2014年价)。但很多货真价实的IT专家也在此事上跌倒,我也希望通过聊清楚一层误会,说高级工程师该少迷多思考。 NTP是网络时间协议,它是多项传输、计算、加密技术的核心参数。
M****点 2018-07-10
中国云计算现状——产品篇
现在云计算的实施标常常是两种情况,或者是打着云计算的招牌做虚拟机群集的超简化云计算,或者中标了但只有场部发了下PR稿,别说施工结束时间了,施工开始时间都没定下来。 要解决这种窘境困局需要时机和努力。传统IT公司张开翅膀等风起,云计算技术已经越来越成熟了;今天看沙克的朋友,kolla的壮可运维性已经超出想象,他很担心专业云计算运维会失业。互联网公司总有白人会踏实做事,云计算软件也是软件,一个难以描述、难以使用、难以维护的软件是必然被淘汰的,带头淘汰同行才是生存之道。对于客户来说,要花好几百万几千万的预算也是个技术活,产品篇我已经讲了云计算有哪些产品,在云计算现状采购篇中,我会从给您做更多选型说和采购建议。
疏****月 2018-07-09
一键上线Archer | 百度持续部署的瑞士军刀
干货概览 业部署(熟称上线)是运维领域最常见的业类型,主要涉及线上代码变更、配置文件变更(数据变更由于其高频、大量的点,我们已在数据传输文章《嗖的一下,让数据自动生效》中专门讨论过)。一般的业上线具有不定时操作、业部署情况复杂、单机启停策略复杂等点。在手工运维时代,运维人员需要花费大量精力进行此类重复性工作,且易于出错。从公布的数据显示,Google 70%的生产事故由上线变更触发,如何减少变更过程中人为误操作,提供一个灵活、稳定的部署系统是运维平台研发人员所亟需解决的问题。 基本介绍 在运维自动化的大潮下,百度运维管理平台Noah发布了一键上线部署系统——Archer。Archer致力于提供一套产品线全过程的可迁移发布解决方案,实现一键完成机器初始化、部署、添加模块监控、添加CT任、动态数据文件的分发等全过程的自动操作。在操作方面,Archer提供了命令行工具作为发起一次上线的操作入,这种设计模式也决定了其易于集成的点。在DevOps流水线作业中,Archer可以作为一个环节结合进整条测试发布流水线中。
流****水 2018-07-11
度云企业级运维平台——NoahEE
资产管理 在机房里,各种各样的器、网络设备和安全设备7x24时的运转,为我们的业提供了硬件障,是企业的重要资产。各种设备的物理损坏、升级、新增、搬迁等等都在考验着机房运维人员的能力。怎样维护这些资产并记录息,是个很重要的问题,搞得不好,这些资产可能变成运维人员的“包袱”,越多越头疼。 对这些设备的运维操作,通常都涉及不少的物理操作,比如说更换损坏的硬盘,增加内存条等等。这里涉及到几个要解决的问题: 故障如何及时发现?发现后由谁来进行修复? 物理操作维护怎样反应到系统里? 不同角色(职责)的运维人员之间如何协同操作? 对于故障处理与修复,NoahEE通过故障自动发现与工单流程解决了上面的问题。系统自动探测故障放入故障池,并建立故障工单,由相应的人员进行操作。另外,NoahEE提供了不同的工单流程覆盖了日常机房运维中的操作,从设备采购入库、上架、机架变更,直到设备下架、出库全生命周期覆盖,做到所有运维操作记录可追溯。有了资产管理,运维人员可以在器完成入库、上架工单后即可在管理中看到该器并进行管理,无须任何其他操作。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前都荒废了,因为卡得一匹。
小****园 2018-07-10
让PB级云存储不再神秘
一个分布式系统中,客户端是可控可,可以知晓群集内其他状态,则群集设计会非常简单,可以做到所有组件都自动协商、自宣告状态、有序引导流量以及异常错误重试。 读写代理要访问元数据时可以看到主从库的选举结果,还可以从状态获取存储群集的自宣告息。它不会访问已经宕机的数据库,也不会往已满的存储内写入数据。自宣告的状态息总有意外时效的情况,这没关系,局域网内重试速度很快的,客户感觉只是多了几毫秒延迟。 读写代理还可以将一些读写策略、缓存策略写入自身配置属性,比如100k以下文件写到SSD存储池,优先写入新扩容存储器,某Bucket文件自动做异地复制,某后缀名的文件不缓存,某账户有API语法等等。 综上所述,读写代理是元数据和存储系统的可控可可减负的好朋友好客户。 4、存储的硬功夫 存储在元数据和读写代理的护和调度下过滤了外部访问压力,每个节点都只关心存储本职工作就好。 对象存储群集内部存储可以分为四种,可四种混用也可只用一两个。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动过程
后记 以上内容只能算精简科普版的Linux系统启动过程,正式版的启动过程可以写万字,有兴趣的朋友可以自己查维基百科,或拿我说的关键字去百度搜索。 曾经我把这些技能当做资历,但现在大家都上云了,它们就只是闲聊的谈资了。但客户上云就能少招一个研究这事的工程师,上云确实也很有意义啊。 夜静人稀,沙子龙关好了门,一气把六四枪刺下来;而后,拄着枪,望着天上的群,想起当年在野店荒林的威风。叹一气,用手指慢慢摸着凉滑的枪身,又微微一笑,“不传!不传!”----老舍《断魂枪》
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
有个客户非常任某个云销售,他告诉该销售,虽然某大云有高层合作,某大云也说报价肯定比某云低5%;但是某大云的机制有问题,出故障从来都是衙门话,每次故障都要客户去乱猜和背锅。最终这个单子在客户执行层的暗助之下,该云快速把业切过来并坐实站住了,这份暗中相助就是靠个人商誉带来的任。 我和大客户谈故障的时候,喜欢把详细故障原因刨析给客户,企业客户是讲道理的,不要把糊弄ToC用户的手段来对付ToB客户。面对意外故障,我们有心向客户证,换了其他厂商也一样会挂;面对人为故障,踏实认错是对客户的最后尊重,而公开事实也是逼着内部不会重蹈覆辙犯同样的错误。 过去大家卖IDC、CDN、器和软硬件积累的个人商誉,是可以应用到云计算领域的。而云的高科技光环褪去、产品同质化以后,企业的核心竞争力仍然是有商誉的销售-售前-售后团队,这类人才永远是稀缺资源。 附录 请各位多琢磨评估本厂的云到底哪些组件是靠谱的,不要让赖你的客户受伤又受骗。
若****客 2018-07-10
IT架构的本质--我的五点感悟
前言:架构师是个无趣的工作 老僧三年前未参禅时,见山是山,见水是水。 及至后来,亲见知识,有个入出,见山不是山,见水不是水。 而今得个休歇处,依前见山只是山,见水只是水。 参禅的三重境界在IT技术同样适用,初学者感叹每个产品都如此精妙绝伦,追逐着最强的IDE;老司机喜欢自比管乐指点江山,嘲讽着最好的语言;当一切回归平淡,搞IT就是一份思想延伸和语言翻译工作;其中技术架构师就是一份古朴甚至无趣的工作。 我将架构师的工作总结出五条核心道理,这五条经验简单直白又深奥通透,算是对我二年IT工作的一个总结。 1. 需求优化最重要 少查少写少依赖,Less is more 一个IT系统是多角色多模块分层分级的,像OSI模型上层应用简单依赖下层支撑,SOA设计中同级角色也只看对方的接。 各角色分工确方便快速实现业,但是给架构优化也埋下大坑,底层的盲目支撑是巨大资源浪费,平级调度协作也没任何弹性。前端一个逻辑需求会导致后端大规模联动,不同也没权限理解对方的内存数据,各个角色的工程师都只看自己的工作范围,这是正常又无奈的现状。
p****d 2018-07-11
单机房故障自愈--运维的春天
容量护模式:针对固定比例模式存在的容量风险问题,改进的流量调度方式为执行前判断容量是否充足,容量充足则进行流量调度,否则不进行调度并通知人工介入处理。但此种方案面对的问题是: 1.容量仍有buffer可以进行部分止损。期望能够在不超过容量护的情况下进行尽可能的调度,减少对用户的影响。 2.即使按照容量进行调度,过载仍可能发生,容量数据本身存在一定误差,流量成分的变化以及变更等导致的容量退化,都可能导致原先容量无法完全可。 【解决方案】 基于容量水位的动态均衡 在流量调度时,对于容量不准确存在的风险,我们划分两条容量警戒线。 安全水位线:流量处于在安全线以下则风险较,可以一步进行切换。 水位上限:该水位线表的最大承载能力,一旦流量超过故障水位线,很大概率会导致容量过载。 如果安全水位线提供的容量不足以满足止损,那我们期望使用上两条中间的容量buffer,同时流量调度过程中进行分步试探,避免一次性调度压垮。 基于快速熔断的过载护 在流量调度时,建立快速的熔断机制作为防止过载的最后屏障。一旦出现过载风险,则快速停止流量调度,降低次生故障发生的概率。
金****洲 2018-07-10
混乱的集群遇见TA 从此岁月静好
Master端主要做复杂的任调度和管控逻辑,并且所有功能都是模块化设计,用户可以根据自己的需求定制安装,包括虚拟化容器管理,应用包管理、部署、扩缩容、拓扑搭建和活,集群控制等。 Agent端则以简单为原则,弱化繁琐功能,仅作为任的执行器,其中的supervisor组件,结合父子双进程原理,做到自升级和自活,把云运维人员的工作量降到最低。 整个系统的工作流程也分简洁优雅!Agent通过定期心跳的方式,与Master进行通,在心跳发包中发送本机状态息,在心跳回包中获取Master期望的本机状态plan,并把期望plan与本地实际plan进行对比,针对有差异的地方做相应修改,使二者持一致,从而证集群中所有机器最终状态一致。 总之一句话,一朝HALO在手,从此不用发愁。所有运维需求,直接调用接。 结 语 为了防止大规模集群被破坏,为了护集群世界的安全,贯彻高效和简单的运维理念,这就是我们新一代的基础设施管理引擎HALO。 亲爱的读者如果你看到这,恭喜你在有意义的事上花费不止1分钟。
h****8 2018-07-10
能力比梦想更重要——企业级难寻产品经理
:产品经理需要凌晨从床上跳起来次,然后手机静音漏掉一次故障,才会对监控频繁误报有切肤之痛。 利害关系:缺乏详细监控息和故障处理功能,没漂亮的监控页面和月度报告,监控部门只能依赖其他部门排障,又被被公司领导视作闲职,没业绩没晋升也没新HC。 我举的第二个例子是一个网店仓库拣货发货系统的合格产品经理: 技术:对IOT传感器、图像识别技术、网店ERP系统有足够了解。 业:对拣货员的拣货路径、数量、看单还是听单、错误息处理有充分的了解,自己至少要做三天拣货员,仓库里的纸板味能熏得你睁不开眼;如果做农业IOT,可能是要养三天的猪,拌猪食扛死猪都要干一干。 利害关系:了解分拣员需要这套系统更无脑的拣货,组长需要用系统约束的分拣员,公司需要这套分拣系统更快周转货物。而你既要让客户内部三方满意,也要通过工作的简化细化,引入自己公司更多的IOT和图像识别设备,甚至用机器人取代一部分人力工作。 某些水货会说这是售前和解决方案的工作,人家跟你又没有隶属关系,凭什么帮你解决就业问题,产品经理要自己调研和汇总客户的合理需求。 2.
TOP