关于 昆明呈贡区大渔找少妇服务过夜〖10669708薇信〗 的搜索结果,共1269
h****e 2018-07-10
程序:我从哪里来?
在BNS系统中,单元表示一个的实例集合,一般以三段式的结构表示,比如:server.noah.all,server表示名,noah表示产品线,all表示机房名称,单元的名字在系统中是唯一的。 使用场景 在程序员的日常工作,常常面临以下的场景: 场景 场景一:我是一名OP工程师,负责几十个系统模块的运维,我常常需要登录部署的机器排查问题,但是只知道名,记不住那么多部署息,怎么办? 场景二:我是一名RD工程师,我负责的需要扩容,我的是很多下游的依赖,的扩容怎么通知给下游模块? 场景三:我的部署实例有一个出现故障了,我想对下游屏蔽该故障实例,怎么办? 下面以一个简单的例子来说,假设一个模块名是Server,它的上游是Proxy,下游是Redis,当出现变更或者故障时,如何让上游感知到呢? 当新增上线实例、下线摘除实例或者实例发生故障时,BNS系统通部署在机器上的客户端实时感知到实例的状态变化,同时新增和删除实例的变更情况会立即同步到分布式的缓存系统中,这样用户通一个BNS名字就可以感知到下游的实例变化。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
具体程为自愈程序搜集分散的运维对象状态数据,自动感知异常后进行决策,得出基于动态编排规划的止损操作,并通标准化运维操作接口执行。该解决方案策略和架构解耦,并且托管到高可用的自动化运维平台之上,实现了业在任意单个机房故障情况下皆可自愈的效果。 截至目前该方案已覆盖百度多数核心产品,止损效率较人工处理提升60%以上。典型案例: 在8月28日某产品在单机房故障发生后1min55s完成止损。 在后续文章中我们会继续介绍单机房故障自愈的更多详细内容,敬请期待! 单机房故障容灾能力的建设 在容灾能力建设中有哪些常见问题? 如何证已经具备单机房容灾能力? 单机房故障人工止损方法 人工止损时如何感知故障? 人工止损时如何收集故障息? 人工止损时如何进行流量调度? 单机房故障机器人止损方法 如何设计单机房故障自愈整体方案? 如何降低流量调度风险? 如何应对不同业流量调度策略和平台的差异?
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
假设我认为TCP连接超时断开链接了,你怎么给我传输数据; 玩各种定时给奖励收益的花园经营类游戏,我经常通修改时间快速刷分; 你的系统时间不对网银都会拒绝登陆,因为加密程序算不出双方认可的Token。 三、正确的时间是向量 Linux环境下有两个常用工具,NTPD和ntpdate。NTPD是一个时间同步,ntpdate是个时间同步命令。很多工程师都会采用Crond+ntpdate的方式同步时间,究其原因是“NTPD不太好用”。 而我不喜欢用ntpdate同步时间的工程师,NTPD是一个体系化的,而ntpdate只是一个动作,部分人没做好为ntpdate这个动作负责。 正常的时间是个持续增长的向量,即老时间t1肯定小于新时间t2,新时间t2也小于最新的时间t3,而且t1必定会渐进增长到t2和t3。除了数商业数据库自带时钟源以外,部分业对系统时间是盲目任,不相t1会越t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动
看看各的启动优先级也是一个讲究多多的程,iptables会比network先启动这类依存关系很好理解;但我也遇到云平台的DHCP获取太慢,而云主机操作系统启动快、Network还没从DHCP那里获取到IP地址,然后Mysqld等需要监听端口的启动失败。 后记 以上内容只能算精简科普版的Linux系统启动程,正式版的启动程可以写十万字,有兴趣的朋友可以自己查维基百科,或拿我说的关键字去百度搜索。 曾经我把这些技能当做资历,但现在家都上云了,它们就只是闲聊的谈资了。但客户上云就能招一个研究这事的工程师,上云确实也很有意义啊。 静人稀,沙子龙关好了小门,一气把六十四枪刺下来;而后,拄着枪,望着天上的群星,想起当年在野店荒林的威风。叹一口气,用手指慢慢摸着凉滑的枪身,又微微一笑,“不传!不传!”----老舍《断魂枪》
追****圣 2018-07-11
给书记省长讲清楚云计算
综上所述,云计算就是将分散在各个公司的息技术资源汇聚到一个平台,其兴起始于需求扩而人力短缺,其未来发展趋势是通规模经营和数据共享,成为新型息化社会的技术基石。 云计算如何带动地方经济 云计算落地是要自建数据中心机房,我们一般称之为云基地,云基地在经济利益和社会影响上和传统工厂并不相同。云基地通俗易懂的展现形式就是开启数十万个高速运转的电脑铁皮箱,但这些电脑不用接显示器也不用人员现场操作,只要这些电脑能开机能上网就能对外。云基地和数字地产不完全相同,数字地产只装修好房子,云基地关注用这些房子做什么。 云基地是无烟工业,并不需要雇佣量人口,对直接促进就业帮助不;但云计算没有实体矿产投入和物品产出,只需要量电力启动电脑也不会产生量污染。 云基地像电视台和号塔一样,通产生和扩散数据息对客户提供,这些息的传输没有物流成本,光速直达全球每个角落。 因为云基地全球客户,所以云基地可创造极高的营收,但不能简单的计入地方政府的GDP。一个耗电三千瓦的机柜加附属空间占地5平方米,如果云计算资源全部售出,每年可产生20万元以上的营收。
M****点 2018-07-10
中国云计算现状——产品篇
SaaS产品已经出现并流行了十几二十年了, OA/ERP/CRM/邮箱/模板建站等等SaaS都是比各位读者从业年龄还长的老古董,最新流行的各种在线办公、协作、通话、众测等SaaS产品也不依赖云器,这些应用上云走公网和之前走内网别并不,用物理机和虚拟机别也不。 狭义的云计算是企业,目标用户的是企业IT技术人员,而SaaS云的目标用户和IT人员只在Helpdesk时有关联。 从这一点来看,这些SaaS只是云平台的普通用户,和游戏、网站、APP、没有别。只要SaaS云没自建IaaS和PaaS的技术能力和意图,那他们就是客户而非友商。 四、物理机-混合云-云管平台 云主机是物理机的最好替代方案,但也有各种物理机无法被替代的场景需要继续用物理机。 某些云主机的超卖比高,性能太差,又因为各种原因不更换云厂商,那只能基于性能原因用物理机。 某些硬件特性虚拟机还没模拟出来,或者你模拟了我也不,比如说Oracle RAC就偏爱硬件存储。 某些非TCP/IP资源必须接专用板卡,比如说接电话网络的器,接专用器材的器,接加密狗的器。
流****水 2018-07-11
度云企业级运维平台——NoahEE
文章概览 去的文章为家介绍了百度云智能运维的方方面面,从监控、部署等传统的运维技术到智能异常检测、故障自愈等智能运维技术,这些运维基础能力和黑科技,是十年来百度工程师对技术孜孜不倦求索的结果,也见证了百度运维十年间的创新历程。很多同学在看了这些文章后,都在想如何把这些领先的运维技术与理念用到自己的工作中,但苦于建设运维平台不是一蹴而就的,成本也让人望而却步,于是不同学都在希望我们能够有一个产品的形式输出这些技术,方便将这些前沿技术运用到自己的工作环境中。 在分析了各行业的运维场景与需求,结合百度历年来运维的经验与技术沉淀,并经运维团队的精心打磨后,今天我们可以很骄傲的给现这个百度的运维产品企业版 – NoahEE。 在介绍NoahEE之前,有必要说一下百度内部的统一自动化运维平台Noah。Noah来源于圣经中“诺亚方舟”的故事,我们用这个名字来寓意能够避免灾难,稳固而坚实的平台。作为一系列运维系统的集合,Noah包括了管理、机器管理、资源定位、监控报警、自动部署、任调度等等,已经了百度数年之久。
疏****月 2018-07-09
一键上线Archer | 百度持续部署的瑞士军刀
干货概览 业部署(熟称上线)是运维领域最常见的业类型,主要涉及线上代码变更、配置文件变更(数据变更由于其高频、量的特点,我们已在数据传输文章《嗖的一下,让数据自动生效》中专门讨论)。一般的业上线具有不定时操作、业部署情况复杂、单机启停策略复杂等特点。在手工运维时代,运维人员需要花费量精力进行此类重复性工作,且易于出错。从公布的数据显示,Google 70%的生产事故由上线变更触发,如何减变更程中人为误操作,提供一个灵活、稳定的部署系统是运维平台研发人员所亟需解决的问题。 基本介绍 在运维自动化的潮下,百度运维管理平台Noah发布了一键上线部署系统——Archer。Archer致力于提供一套产品线全程的可迁移发布解决方案,实现一键完成机器初始化、部署、添加模块监控、添加CT任、动态数据文件的分发等全程的自动操作。在操作方面,Archer提供了命令行工具作为发起一次上线的操作入口,这种设计模式也决定了其易于集成的特点。在DevOps流水线作业中,Archer可以作为一个环节结合进整条测试发布流水线中。
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
甲方只能根据云厂商销售和线的能力和态度,确认自己交钱了能否买到靠谱的。 最重是商誉 云计算既是资源又是,资源相对可以量化,但短期内看直观感受,长期看商业誉。商誉分为企业商誉和个人商誉,云厂商的企业商誉都积淀不足,胜者也是比烂赛中靠友商更烂胜出的,和IDC/CDN的比优赛无法相提并论。客户在吃够了厂商的亏以后,会选择任能有个人商誉,能做出承诺、调动资源和平复问题的销售和人员。 有个客户非常任某个小云销售,他告诉该销售,虽然某云有高层合作,某云也说报价肯定比某小云低5%;但是某云的机制有问题,出故障从来都是衙门话,每次故障都要客户去乱猜和背锅。最终这个单子在客户执行层的暗助之下,该小云快速把业来并坐实站住了,这份暗中相助就是靠个人商誉带来的任。 我和客户谈故障的时候,喜欢把详细故障原因刨析给客户,企业客户是讲道理的,不要把糊弄ToC用户的手段来对付ToB客户。面对意外故障,我们有心向客户证,换了其他厂商也一样会挂;面对人为故障,踏实认错是对客户的最后尊重,而公开事实也是逼着内部不会重蹈覆辙犯同样的错误。
思****来 2018-07-11
重磅:构建AIOps的MNIST
一文中提到,运维操作一般可以分为感知、决策、执行三部分,而在感知阶段我们通识别指标数据中不符合预期的模式来发现异常,即监控数据的异常检测。 很多时候,家手中的异常检测是一条拍脑袋想出来的规则,或者根据经验致估算的阈值。这样的异常检测常常存在较多误报、漏报、效果不佳的情况。而上线前基于标注数据的效果评估是提高效果最重要的手段。为了获取量、准确的标注数据来评估算法效果,我们进行了一系列探索。 本文将主要介绍在监控数据异常标注实践中遇到的问题和解决方案,并给出一个当前由百度智能运维团队与清华学Netman实验室合作研发的辅助标注工具原型https://github.com/baidu/Curve,欢迎家一起探讨。 时序数据异常标注 在监测的收入、流量、可用性、性能等指标时,通常会对数据进行流式的采集和汇聚,每个数据点反映的是某段时间内的状态,这些时间序列数据简称时序数据。 在异常检测方面家或多或都有类似经历:针对一次故障设置了报警规则,其中的阈值根据这次故障设置。上线后不断发生误报,因此调低阈值。阈值调低后误报减,但在一次新故障发生时发生漏报,又调高阈值。
M****H 2018-07-11
故障定位场景下的数据可视化实践
而对于维度取值数量多,且不同取值数量级差距较情况(例如分省份的流量下跌判定),使用饼图或趋势图很容易把流量较小省份的息隐藏掉。这种场景下,我们可以通维度取值自动展开功能,分别查看每个省份的状态。 多个维度关联分析 细分维度的故障所带来的表象可能会在多个维度均有表现,比如整体的访问拒绝上升,我们会发现分机房的拒绝量上升,也看到分模块的拒绝上升。那么我们如何确认故障的根因是来源于某个机房还是某个模块,还是这两者的交叉维度,即某个机房的某个模块导致的问题。 矩阵热力图可以解决这一问题。将需要做分析的两个维度分别作为横纵坐标,通阶梯的阈值颜色将对应交叉维度的取值展现再坐标上。我们便可非常直观的看到这这两个维度对于整个业的影响情况,如下图所示: 我们可以看到,从纵向的分模块维度,可以看到Module 4在多个机房都有显的访问拒绝情况,而在横向分机房维度,则没有显的特征。则说是Module 4模块导致的问题。 嵌套维度下钻分析 类似于国家-省份-城市的行政域划分,域-机房-机器的部署划分,我们可以看到很多维度之间存在着层次嵌套的关系。
s****d 2018-07-11
亿元级云用户分析
限制客户梦想的是老旧系统是否支持常见协议,还有底层工程师能否推动上层业测试和变动。 API调用PaaS——API云就是不可控程的黑箱,客户没预算没精力就盲目任云厂商。客户有精力就做多云冗余校验,有预算就做专有资源池部署;未来云厂商还会自定义SLA标准——部分API云连等待超时都没定义。 版本发布和数字化转型——无论是微观的版本发布还是宏观的数字化转型,其实都和上云没直接联系,一个是室内装修工作,一个是新建房屋工作,但装修的最好时机是房屋重建的时候,云厂商要帮客户推动IT技术革新。 5.输出分析 云厂商输出给客户的即有云端IT资源,也有平台输出。是个比资源更难量化的概念,我只引一把火苗出来。 咨询规划--如果直接给客户买资源,那就只能谈性价比,而且资源本身不会说话,所以云厂商要做好咨询规划。 晰验收--云项目的实施和结项都是以结果为导向的,确的程控制和验收标准对供求双方都是保护。 友好接口--面对亿元金主,云厂商的下限是类比传统IDC,要把金主伺候舒了就要学IOE类集成商。
小****园 2018-07-10
让PB级云存储不再神秘
家读完本文以后可以更理性和警惕的评估云存储供应商。 首先说数据持久性和安全性不用太关心。云存储厂商都宣称数据可靠性超10个9,在我看来各种SLA超8个9就已经比第三次世界战的几率还小了; 平台说自己能到多个9,我们都笑笑就好,故障出来了平台总能到理由的。你买最贵的EMC存储柜也不能保证100%不丢数据,怕丢数据要设计备份方案而不是寄希望于单一硬件或。 TB级用户同样不用太关心存储群集的性能,因为你是用HTTP协议访问一个广域网,广域网和客户端才是网络吞吐性能的瓶颈。几家云存储厂商在SLA里都没承诺速率,上行带宽本来就免费,而下行带宽都会走CDN。但是这类客户已经出现迁移困难了,假设你有200T数据要从某云迁到自己机房,如果你的迁移用IDC带宽是1000M需要20天才能完成任。 上文是拨开一些企宣烟幕弹息,下文是TB级用户最关注的问题。 (1)价格问题。 假设你有200T数据,每年的开销在30万左右;这里说谈价格不是让你死抠存储的价格是10万还是40万,而是注意存储会带来其他消费,比如说现在存储要计算CDN回源带宽了,比如说两个云存储互为备份带宽同步费用有多
w****0 2018-07-11
单机房故障自愈-黎之战
要求:将拆分为若干不同的逻辑单元,每个逻辑单元处于不同的物理机房,均能提供产品线完整。 3.不满足N+1冗余 描述:任意单个机房故障时,其余机房剩余容量不足以承担该机房切出的流量。 问题:流量调度导致其余机房载,造成多个机房故障,造成更范围的影响。 要求:容量建设需要对于每个逻辑单元都要有确的容量数据,并具备N+1冗余,即任意机房故障情况下,其余机房均可承载这部分流量,同时需要保证变化时及时更新数据和扩容,避免容量数据退化。同时对于流量的变化趋势,也需要有提前的预估,为重事件流量高峰预留足够容量(如节日、运营、假期)。 4.关联强耦合 描述:上下游使用固定IP或固定机器名进行直接连接。 问题:单机房故障发生时,关联的上下游之间无法进行快速的流量调度止损。 要求:线上关联不允许使用固定IP或机器名链接,需使用具备流量调度能力的上下游连接方式以实现上下游依赖解耦,下游发生单机房故障,可以快速调整路由比例实现止损。 单机房容灾能力--盲测验收 完成以上四点单机房容灾能力建设后,业线就具备了通流量调度进行止损单机房故障的基本条件。
l****m 2018-07-10
五年前的预言——2012年云计算时代的运维职位展望
家都知道黑云压城也该未雨绸缪了,如果你已经是个运维老鸟或者很快就投身运维工作,我建议家往这几个方向上动动脑子: 1、企业采用公有云方案后,仍然需要一个懂行的人解决公有云平台的监控、评估、采购、报修这类问题。但这个职位应该一个公司公司只需要一个人,且再等上十年云计算彻底标准化后还会再次消失。当然了,我相能胜任这个岗位的人,在云计算已经规范到不需要专人维护的时候,他们也会有能力到更合适的岗位。 2、进行云计算器维护;几供应商自己也要维护器,那些中型企业肯定会自己做私有云,在这个云计算平台里也是需要运维人员进行从低端监控到高端架构的一系列维护工作,但自动化运维技术会让运维人员的数量,可能每个公司都只有一两个小团队了。 3、进传统行业继续做运维;笔者就是在一个通讯公司工作,我可以很乐观的说云计算会对公司造成有限的技术革新,比如说实现OS的虚拟化。我们需要的SIP必须亲自搭建,阿里盛新浪都没得卖,甚至因为硬件和网络限制让我们很难使用虚拟机;而外宣网站一类的东西根本不是我们的核心竞争力,能用就好效率低一些没关系。
TOP