关于 百色小姐有真正服务〖8843O306VX〗服务真实槐呕由匚由 的搜索结果,共1302
w****0 2018-07-11
单机房故障自愈-黎明之战
本文主要介绍单机房故障自愈前需要进行的准备工作,具体包括: 单机房容灾能力建设中遇到的常见问题及解决方法 基于网络故障及业故障场景的全面故障发现能力 度统一前端(BFE)和度名字(BNS)的流量调度能力 单机房容灾能力--常见问题 单机房故障场景下,流量调度是最简单且最效的止损手段,但我们发现业线经常会遇到如下问题导致无法通过流量调度进行止损: 1.存在单点 描述:系统内只一个例或者多个例全部部署在同一物理机房的程序模块即为单点。 问题:单点所在机房或单点自身发生故障时,无法通过流量调度、主备切换等手段进行快速止损。 要求:浏览请求的处理,不能存在单点;提交请求的处理,若无法消除单点(如序提交场景下的ID分配),则需要完整的备份方案(热备或者冷备)保障单机房故障时,可快速切换至其他机房。 2.跨机房混联 描述:上下游之间存在常态的跨机房混联。 问题:逻辑单元未隔离在独立的物理范围内,单机房故障会给产品线带来全局性影响。同时流量调度也无法使得恢复常。
h****e 2018-07-10
程序:我从哪里来?
干货概览 在计算机程序或者的层次上,我们来试着分析前面提到的几个问题。 问题 1.我是谁? 叫什么,包含了哪些例,规模、部署情况、例运行状况如何? 2.我从哪里来? 的上游哪些,不同的上游流量如何分配? 3.我往哪里去? 的下游哪些,不同的下游流量如何分配? 面对这样的问题,我们的答案是什么呢? 在度的运维践中,我们只需“BNS”就可以获得想要的答案。 BNS(Baidu Naming Service,度名字)是度云智能运维团队研发的一套分布式的名字系统,是度云Noah智能运维产品中的一个重要基础系统。它为每一个赋予一个独一无二的名字,根据这个名字,我们就可以获取到这个的相关信息 ,这些信息包括:在机器上部署信息(机器IP,部署路径,配置,端口信息),例运行状况等其他重要信息。简单来讲,它提供了一个名到资源信息的一个映射关系。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
在传统的运维方式中,于故障感知判断、流量调度决策的复杂性,通常需要人工止损,但人工处理的时效性会影响的恢复速度,同时人的不可靠性也可能导致问题扩大。 为了解决这类问题,我们针对度内外部网络环境建设了基于智能流量调度的单机房故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业指标监控构建了全方位故障发现能力,基于度统一前端(BFE)与度名字(BNS)现了智能流量调度与自动止损能力。同时,基于时容量与时流量调度自动止损策略与管控风险,现了任意单机房故障时业均可快速自愈的效果。当前此解决方案已覆盖搜索、广告、信息流、贴吧、地图等众多核心产品的单机房故障自愈场景。 单机房故障频发影响业可用性 回顾近2年来各大互联网公司被披露的故障事件,单机房故障层出不穷。例如: 2015年6月某公司云香港IDC节点电力故障崩溃12时 2016年5月某公司杭州电信接入故障,中断时级别 2017年1月某业天津机房故障,数时无法提供 2017年6月北京某处机房掉电,多家互联网公司受影响 单机房故障频繁影响业的可用性并且会给公司带来直接或间接的损失。
疏****月 2018-07-09
一键上线Archer | 度持续部署的瑞士军刀
另外,Archer也可作为上层托管平台的底层工具链,为PaaS平台提供稳定的底层部署。 通用场景 在度内部,通用的部署系统需要适用于以下场景: 各业线拥各自的包规范,语言、框架不统一,部署策略不一致; 支持分级发布,及时拦截部署引入的线上故障; 业的多地域部署; 多种网络环境及大包部署; 提高自动化效率,能够集成测试发布自动化流水线。 后面,我们将结合上面场景,向大家介绍度持续部署是如何现的。 架构 整个系统命令行工具、web、中转及单机agent+部署插件几部分组成(如图2所示)。用户通过命令行工具触发一次变更,在web端进行参数解析及任分发,对应执行机器agent通过心跳获取任后,调用部署插件执行际任。涉及大包及不同网络环境的部署会进行中转下载。 解决方案 各业线拥各自的包规范,语言、框架不统一,部署策略不一致 为避免杂乱无章又不规范的代码及配置文件的目录结构,Archer规定了一套既灵活又完整的包规范。
M****点 2018-07-10
中国云计算现状——产品篇
先说IT咨询,过去云计算平台吸引到的都是成本敏感的游戏客户或者技术优先的创业客户,这两类客户都不会为一时一千元的咨询付费。现在高净值客户放出来的云计算咨询标了却没人投标,因为型云计算企业因为资质、高层合作、客户关系等原因没投标的机会。 我们经常遇到咨询标,但我们也不想投这个标。咨询标的交付物就是各种文档和报表,互联网公司的技术积淀都在技术部,技术人员最烦的就是写文档,而且技术人员匮乏的想象力和沟通能力并不适合做咨询标,让售前承担技术文档书写也扛不住。传统IT外企做云IT咨询流程上没问题,但技术水平太差,也不被政策扶持。此外还个哈哈哈哈的大杀器让我们不能投咨询标,投了咨询标就不能投施标了,施标的金额要比咨询标大很多。 到了施阶段,其矛盾和咨询标差不多,既要干活又要写文档,而且验收者并不专业,施工作传统厂商会抢着压价,还会各种意外拖进度抢进度,各互联网企业的施团队根本支撑不下来。传统厂商虽然压价抢标,但他们要是施云计算项目的人才,互联网公司加价三倍挖走谢谢。
流****水 2018-07-11
度云企业级运维平台——NoahEE
资产管理 在机房里,各种各样的器、网络设备和安全设备7x24时的运转,为我们的业提供了硬件保障,是企业的重要资产。各种设备的物理损坏、升级、新增、搬迁等等都在考验着机房运维人员的能力。怎样维护这些资产并记录信息,是个很重要的问题,搞得不好,这些资产可能变成运维人员的“包袱”,越多越头疼。 对这些设备的运维操作,通常都涉及不少的物理操作,比如说更换损坏的硬盘,增加内存条等等。这里涉及到几个要解决的问题: 故障如何及时发现?发现后谁来进行修复? 物理操作维护怎样反应到系统里? 不同角(职责)的运维人员之间如何协同操作? 对于故障处理与修复,NoahEE通过故障自动发现与工单流程解决了上面的问题。系统自动探测故障放入故障池,并建立故障工单,相应的人员进行操作。另外,NoahEE提供了不同的工单流程覆盖了日常机房运维中的操作,从设备采购入库、上架、机架变更,直到设备下架、出库全生命周期覆盖,做到所运维操作记录可追溯。了资产管理,运维人员可以在器完成入库、上架工单后即可在管理中看到该器并进行管理,无须任何其他操作。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
三、确的时间是向量 Linux环境下两个常用工具,NTPD和ntpdate。NTPD是一个时间同步,ntpdate是个时间同步命令。很多工程师都会采用Crond+ntpdate的方式同步时间,究其原因是“NTPD不太好用”。 而我不喜欢用ntpdate同步时间的工程师,NTPD是一个体系化的,而ntpdate只是一个动作,大部分人没做好为ntpdate这个动作负责。 常的时间是个持续增长的向量,即老时间t1肯定于新时间t2,新时间t2也于最新的时间t3,而且t1必定会渐进增长到t2和t3。除了少数商业数据库自带时钟源以外,大部分业对系统时间是盲目信任,不相信t1会越过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序健壮性和业安全性,甚至部分程序崩溃的稀里糊涂。
s****d 2018-07-11
亿元级云用户分析
3.2 CDN和带宽池 CDN和带宽池不同于器硬件,其原始资源是相对稀缺死板的广域网带宽,其交付的资源是持续不断的,所以资源部署比较慎重但客户流动成本较低。制约客户全量迁移的是厂商的承载能力,而挖角和反挖时刻都在细水长流。CDN和带宽池首先考察的是企业内功,廉价海量资源;再考验销售内部协调能力,能不能把好资源好价格抢到手里;而盯客户的套路和万级销售类似,工作力度加大三五倍而已。 3.3数据存储池 数据存储池是很难年均摊营收上亿的,但定个1000万的目标是能现的;如果1000万的非冷备存储池,那很容易带来数倍数十倍的计算和带宽消费。存储资源是大订单曲线突破的好选项,还是AI和大数据项目的基石,我们和客户讲的是技术含量的故事,需要精英售前给销售做幕后军师。 配图说明:谁掌握了数据,谁就掌握了理 3.4人力资源池 亿元项目不可能是客户自助施的,人力营收占比很低但画龙点睛,可能会干掉纯卖资源的友商,也可能晚交付半月就亏损上千万。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前都荒废了,因为卡得一匹。
双****4 2018-07-11
【杂谈】猎场没那么精彩--还原的猎头
一部分猎头会和优质候选人保持长时间关系,但这太费时间了,猎头五年内给同一个候选人介绍两次工作的几率在是太了。 我这里没提诸如JD介绍、简历优化一类基础内容,合格的候选人会认专业的分析职位需求,不需要猎头来催的。 用人单位评估猎头的水平就更简单了,就是写推荐说明。新手猎头是写不出干货锤的推荐信的,而资深猎头的推荐信不仅是对候选人简历的解析,也会包含简历之外的大量建议说明。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动过程
看看各的启动优先级也是一个讲究多多的过程,iptables会比network先启动这类依存关系很好理解;但我也遇到过云平台的DHCP获取太慢,而云主机操作系统启动快、Network还没从DHCP那里获取到IP地址,然后Mysqld等需要监听端口的启动失败。 后记 以上内容只能算精简科普版的Linux系统启动过程,式版的启动过程可以写十万字,兴趣的朋友可以自己查维基科,或拿我说的关键字去度搜索。 曾经我把这些技能当做资历,但现在大家都上云了,它们就只是闲聊的谈资了。但客户上云就能少招一个研究这事的工程师,上云确也很意义啊。 夜静人稀,沙子龙关好了门,一气把六十四枪刺下来;而后,拄着枪,望着天上的群星,想起当年在野店荒林的威风。叹一口气,用手指慢慢摸着凉滑的枪身,又微微一笑,“不传!不传!”----老舍《断魂枪》
布****五 2018-07-10
如何执行一条命令
部署过程可以拆解为两个的步骤,一是新软件包的上传,二是进程的重新启动。进程的重新启动不必多说,软件包的上传可能多种方式,如sftp的集中式,p2p的点对点式等。 监控采集 软件运维过程需要时刻监控系统及业软件的运行状态,各种运维决策都是以这些数据为依据进行的。随着自动化运维的发展,很多运维动作都从人工执行变为了自动执行,自动执行的决策过程更是需要采集大量的时信息(前期文章《度大规模时序数据存储》中介绍的TSDB就是为了解决这些数据的存储问题而研发的)。监控数据的来源主要分两种,一种是通过业软件提供的接口直接读取状态数据,另一种是通过日志/进程状态/系统状态等(如使用grep提取日志,通过ps查询进程状态,通过df查询磁盘使用等)方式间接查询。 无论是配置管理、部署变更还是监控采集,都一个共同的目的:控制器。在现阶段,要想对器进行控制,离不开“在大量器上执行命令并收集结果”这一基础能力,这也是今天我们的主题“如何执行一条命令”的意义所在。
嘟****y 2018-07-11
大型企业适用的云平台账户体系
前文是说注册阶段的法承诺,到使用过程中云平台又会各种奇怪的“资格认证”“功能审核”等问题。云平台要规避自注册客户的政策法规问题和恶意欠费问题,但这和大客户什么关系?供应商用“认证”“审核”这类词跟甲方说话就是态度不端,这又是一句“客户你好,你要从管理,爱审不审,不审就滚”。这类甲方的身份资料是公开的,也不会恶意赖账,这时应该乙方主动记录合规信息,后台透明完成功能开通,设置消费和透支上限。 假设客户是成长型公司,以前CEO创建的账户让员工继续使用。某天CEO被老婆打了一顿,因为他的网购记录给“丽丽”订花和开房;或者网警约谈该倒霉蛋,警告他不要用网盘传播非法视频;也可能CEO打开聊天工具,发现自己很多幼稚鸡汤文给投资商。不要误会是人要整这个CEO,SSO单点登录多项,同事用混了账户也常。 如果客户放弃使用某云之后,原账户不注销滚动欠费几千万怎么办?云巨头们都是横向一体化经营,搞不好会和客户竞争,霸王注册条款下的法风险确存在。 一个企业的账户不应该客户注册,而是供应商主动提供,像IDC和CDN就会主动给客户提供查带宽的账户。
w****t 2018-07-10
AIOps中的四大金刚
在传统的自动化运维体系中,重复性运维工作的人力成本和效率问题得到了效解决。但在复杂场景下的故障处理、变更管理、容量管理、资源过程中,仍需要人来掌控决策的过程,这阻碍了运维效率的进一步提升。而AI方法的引入,使得机器能够代替人来做出决策,从而让意义上的现完全自动化成为了可能。 在AIOps的落地施过程中,最关键的因素还是人,即AIOps的建设者们。 AIOps作为一个全新的技术发展和应用方向,并不是简单地说具备某一种技能或招募一两个大牛就可以完成的,它需要不同角、多个团队的配合才可以达成。根据近几年来整个业界对AIOps的理解和践,AIOps参与角的划分也越来越清晰。在度4年的AIOps践中,我们总结得出了如下四种不可或缺的角: 运维工程师 运维研发工程师 平台研发工程师 运维AI工程师 可以看到,除了运维AI工程师外,其他角并不是AIOps产生之后才出现的,他们在传统运维中也发挥了重要作用。我们今天主要想和大家探讨一下,在AIOps时代,他们的职责究竟发生了哪些变化。为了方便大家理解,我们会基于度AIOps的践案例,来进行具体说明。
小****园 2018-07-10
让PB级云存储不再神秘
云存储不能违背商业的本质,甲方没蠢到敢让乙方赔钱做,但采购决策层更喜欢看谁的报价最低。数十PB的数据上云后基本下不来,平台方无论是提价还是降速,的是追加预算的手段;如果对方是赔本卖吆喝,成功了就会甩开这个包袱,失败了就直接倒闭。我谈PB级存储项目时,我很愿意分享不同底层技术带来的际成本构成,为什么同样的价格我们还能挣钱而友商已经在贴钱,相关内容会在第四章节详细说明。 成功案例是很重要的决策依据,但这个依据很难考证性。厂商做过PB级项目但其是一群TB项目做的计费融合,厂商确做过数P的项目却和标准对象存储功能不通用,这类事情太多了,对象存储合同上不会总容量,发票存根也只是简单的信息费。客户的成功案例必须是单一命名空间容量达到PB级别,并简要说明文件数量和主要读写场景。考察案例性的方法主要靠听对方能否自圆其说,甚至让多个厂商当面质疑,能逻辑自治的厂商终归还是靠谱一些。 大客户对云端数据的处理的要求比中客户更简单,因为复杂业功能可以自己做,还可以要求厂商为自己做定制开发。
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
个客户非常信任某个云销售,他告诉该销售,虽然某大云高层合作,某大云也说报价肯定比某云低5%;但是某大云的机制问题,出故障从来都是衙门话,每次故障都要客户去乱猜和背锅。最终这个单子在客户执行层的暗助之下,该云快速把业切过来并坐站住了,这份暗中相助就是靠个人商誉带来的信任。 我和大客户谈故障的时候,喜欢把详细故障原因刨析给客户,企业客户是讲道理的,不要把糊弄ToC用户的手段来对付ToB客户。面对意外故障,我们信心向客户证明,换了其他厂商也一样会挂;面对人为故障,踏认错是对客户的最后尊重,而公开事也是逼着内部不会重蹈覆辙犯同样的错误。 过去大家卖IDC、CDN、器和软硬件积累的个人商誉,是可以应用到云计算领域的。而云的高科技光环褪去、产品同质化以后,企业的核心竞争力仍然是商誉的销售-售前-售后团队,这类人才永远是稀缺资源。 附录 请各位多琢磨评估本厂的云到底哪些组件是靠谱的,不要让信赖你的客户受伤又受骗。
TOP