关于 双流县找小姐妹子服务〖8843O306VX〗服务真实坡衅勒谛暮 的搜索结果,共1050
w****0 2018-07-11
单机房故障自愈-黎明之战
那么如何验证业线是否具备该能力、能力是否出现退化,我们采取盲测验收的方式,模拟或制造故障,验证不同业线故障情况及止损效率,并给出相应的优化意见。 根据业线进行容灾能力建设的不同阶段,我们从对产品际可用性影响程度、成本、效果等方面权衡,将盲测分为三种类型: 无损盲测:仅从监控数据层面假造故障,同时被测业可根据监控数据决策量调度目标,对于业际无影响,主要验证故障处置程是否符合预期、入口级量切换预案是否完整。 提前通知有损盲测:植入际故障,从网络、连接关系等基础设施层面植入错误,对业有损,用于战验证产品线各个组件的逻辑单元隔离性、故障应急处置能力。同时提前告知业盲测时间和可能的影响,业线运维人员可以提前准备相应的止损操作,减少单机房止损能力建设不完善导致的损失。 无通知有损盲测:在各业线单机房容灾能力建设完成后,进行不提前通知的有损盲测,对业来说与发生故障场景完全相同。验证业线在单机房故障情况下的止损恢复能力。 单机房故障止损程 一个完整的故障处理生命周期包括感知、止损、定位、分析四个阶段。
h****e 2018-07-10
程序:我从哪里来?
在BNS系统中,单元表示一个例集合,一般以三段式的结构表示,比如:server.noah.all,server表示名,noah表示产品线,all表示机房名称,单元的名字在系统中是唯一的。 使用场景 在程序员的日常工作,常常面临以下的场景: 场景 场景一:我是一名OP工程师,负责几十个系统模块的运维,我常常需要登录部署的机器排查问题,但是只知道名,记不住那么多部署信息,怎么办? 场景二:我是一名RD工程师,我负责的需要扩容,我的是很多下游的依赖,的扩容怎么通知给下游模块? 场景三:我的部署例有一个出现故障了,我想对下游屏蔽该故障例,怎么办? 下面以一个简单的例来说明,假设一个模块名是Server,它的上游是Proxy,下游是Redis,当出现变更或者故障时,如何让上游感知到呢? 当新增上线例、下线摘除例或者例发生故障时,BNS系统通过部署在机器上的客户端时感知到例的状态变化,同时新增和删除例的变更情况会立即同步到分布式的缓存系统中,这样用户通过一个BNS名字就可以感知到下游的例变化。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
在传统的运维方式中,由于故障感知判断、量调度决策的复杂性,通常需要人工止损,但人工处理的时效性会影响的恢复速度,同时人的不可靠性也可能导致问题扩大。 为了解决这类问题,我们针对百度内外部网络环境建设了基于智能量调度的单机房故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与百度名字(BNS)现了智能量调度与自动止损能力。同时,基于时容量与量调度自动止损策略与管控风险,现了任意单机房故障时业均可快速自愈的效果。当前此解决方案已覆盖搜索、广告、信息、贴吧、地图等众多核心产品的单机房故障自愈场景。 单机房故障频发影响业可用性 回顾近2年来各大互联网公司被披露的故障事件,单机房故障层出不穷。例如: 2015年6月某公司云香港IDC节点电力故障崩溃12时 2016年5月某公司杭州电信接入故障,中断时级别 2017年1月某业天津机房故障,数时无法提供 2017年6月北京某处机房掉电,多家互联网公司受影响 单机房故障频繁影响业的可用性并且会给公司带来直接或间接的损失。
疏****月 2018-07-09
一键上线Archer | 百度持续部署的瑞士军刀
另外,Archer也可作为上层托管平台的底层工具链,为PaaS平台提供稳定的底层部署。 通用场景 在百度内部,通用的部署系统需要适用于以下场景: 各业线拥有各自的包规范,语言、框架不统一,部署策略不一致; 支持分级发布,及时拦截部署引入的线上故障; 业的多地域部署; 多种网络环境及大包部署; 提高自动化效率,能够集成测试发布自动化水线。 后面,我们将结合上面场景,向大家介绍百度持续部署是如何现的。 架构 整个系统由命令行工具、web、中转及单机agent+部署插件几部分组成(如图2所示)。用户通过命令行工具触发一次变更,在web端进行参数解析及任分发,对应执行机器agent通过心跳获取任后,调用部署插件执行际任。涉及大包及不同网络环境的部署会进行中转下载。 解决方案 各业线拥有各自的包规范,语言、框架不统一,部署策略不一致 为避免杂乱无章又不规范的代码及配置文件的目录结构,Archer规定了一套既灵活又完整的包规范。
M****点 2018-07-10
中国云计算现状——产品篇
当客户的非CDN云资源采购金额过500万以后,其项目之间没有内网互通的需求,这时候该做一个跨厂商的云端资源管理方案了。现在虚拟机不能像CDN一样随意迁移,但未来Serverless崛起,计算能力也会在多厂商之间漂移的。客户提前把云管平台从计费和权限层面做好,至少在项目级别可以和多个厂商侃价,还能模糊计费相关业数据。 五、企业IT咨询和 前面的云计算都免不了卖资源或者卖软件,搞IT咨询和可以让公司增加企业的融资概念和收入构成。中型云厂商都尝试转型做这类工作避开成本搏杀,大厂商嘴上说不要眼神也很诚。但具体参与过程中,这类工作很少有成功案例,我做成功过这类项目感慨也很深,本段落重点解释这些现象并给出建议。 先说IT咨询,过去云计算平台吸引到的都是成本敏感的游戏客户或者技术优先的创业客户,这两类客户都不会为一时一千元的咨询付费。现在高净值客户放出来的云计算咨询标了却没人投标,因为型云计算企业因为资质、高层合作、客户关系等原因没有投标的机会。 我们经常遇到咨询标,但我们也不想投这个标。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前都荒废了,因为卡得一匹。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
NTPD做时间调整会有效减少这类情形,它不是简单的龟速调整时间,而是有柔性时间调整策略,让时间线的跃变和调整尽量少影响业(详情见附录验);也不会盲目信任远端时钟源,甚至固执的拒绝同步时间。NTPD相信本机时刻有可能不对,但不会忽快忽慢甚至停滞,NTPD通过多次收发包选择权威稳定的时间源,算出方间的网络延迟,然后才会采信新的时刻进行时钟同步。 五、误解的根源和影响 因为NTPD不盲从其他时间源,让老一辈IT人会留下NTPD不好用、不靠谱的误会。2005年个人测试用虚拟机的时间经常走慢,到2010年虚拟机还要防范时间停滞的Bug。即使你用物理机投入生产,网络延迟仍然不确定,且要观测NTPD同步效果需要时间。我们很难成功调试NTPD,会装NTPD又没有会装LAMP可以拿去吹牛,时间长了NTPD就背上黑锅了。 有TOP10的互联网公司和上亿国家级项目里用ntpdate+crond,上一代架构师为什么有这个误会无人深究,下一代人将误会固化为偏见,新一代人将偏见神化为迷信。
s****d 2018-07-11
亿元级云用户分析
3.1 IaaS计算池 IaaS计算池,交付给客户的是CPU+内存+本地盘+本地网+IDC电力,产品形式可以是虚拟机、裸金属、容器,或者预装了数据库-大数据-队列等的模板化云主机,决定资源池成本的是硬件和电力的价格,以及内部浪费程度。销售铁三角对硬件资源池的包装,完成资源成本分析、交付展示和付款周期核算;在硬件资源池交付时,云厂商的优势长处是大规模交付和成本控制,至于短处么——家家有本难念的经。 3.2 CDN和带宽池 CDN和带宽池不同于器硬件,其原始资源是相对稀缺死板的广域网带宽,其交付的资源是持续不断的,所以资源部署比较慎重但客户动成本较低。制约客户全量迁移的是厂商的承载能力,而挖角和反挖时刻都在细水长。CDN和带宽池首先考察的是企业内功,有没有廉价海量资源;再考验销售内部协调能力,能不能把好资源好价格抢到手里;而盯客户的套路和百万级销售类似,工作力度加大三五倍而已。 3.3数据存储池 数据存储池是很难年均摊营收上亿的,但定个1000万的目标是能现的;如果有1000万的非冷备存储池,那很容易带来数倍数十倍的计算和带宽消费。
流****水 2018-07-11
度云企业级运维平台——NoahEE
另外,NoahEE提供了不同的工单程覆盖了日常机房运维中的操作,从设备采购入库、上架、机架变更,直到设备下架、出库全生命周期覆盖,做到所有运维操作记录可追溯。有了资产管理,运维人员可以在器完成入库、上架工单后即可在管理中看到该器并进行管理,无须任何其他操作。一图胜千言,我们看看资产管理的特点: 图3 资产管理 部署管理 应用部署一直是运维工作中的重点,一般来说,我们面临的问题有: 批量部署难,怎样定位目标机器?如何快速部署? 灰度测试难,怎样通过灵活的部署方式,先进行量线上测试,待效果达到预期后再扩大部署? 回滚难,发现问题后怎样回滚? 上面的第一个问题,际上在管理中已经解决了,也就是说管理帮我们完成了资源定位工作。其他的问题,NoahEE的部署管理模块通过“分级发布”来解决。在部署管理模块中,我们可以方便的定义并发度、部署步骤、影响范围以及暂停操作等,在部署的过程中发现问题即可暂停并回滚至之前的状态。除了部署等操作,部署管理模块还提供了批量执行命令等操作(比如批量启停某一)。
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
有个客户非常信任某个云销售,他告诉该销售,虽然某大云有高层合作,某大云也说报价肯定比某云低5%;但是某大云的机制有问题,出故障从来都是衙门话,每次故障都要客户去乱猜和背锅。最终这个单在客户执行层的暗助之下,该云快速把业切过来并坐站住了,这份暗中相助就是靠个人商誉带来的信任。 我和大客户谈故障的时候,喜欢把详细故障原因刨析给客户,企业客户是讲道理的,不要把糊弄ToC用户的手段来对付ToB客户。面对意外故障,我们有信心向客户证明,换了其他厂商也一样会挂;面对人为故障,踏认错是对客户的最后尊重,而公开事也是逼着内部不会重蹈覆辙犯同样的错误。 过去大家卖IDC、CDN、器和软硬件积累的个人商誉,是可以应用到云计算领域的。而云的高科技光环褪去、产品同质化以后,企业的核心竞争力仍然是有商誉的销售-售前-售后团队,这类人才永远是稀缺资源。 附录 请各位多琢磨评估本厂的云到底哪些组件是靠谱的,不要让信赖你的客户受伤又受骗。
p****d 2018-07-11
单机房故障自愈--运维的春天
【解决方案】 基于容量水位的动态均衡 在量调度时,对于容量不准确存在的风险,我们划分两条容量警戒线。 安全水位线:量处于在安全线以下则风险较,可以一步进行切换。 水位上限:该水位线表明的最大承载能力,一旦量超过故障水位线,很大概率会导致容量过载。 如果安全水位线提供的容量不足以满足止损,那我们期望使用上两条中间的容量buffer,同时量调度过程中进行分步试探,避免一次性调度压垮。 基于快速熔断的过载保护 在量调度时,建立快速的熔断机制作为防止过载的最后屏障。一旦出现过载风险,则快速停止量调度,降低次生故障发生的概率。 基于降级功能的过载保护 在量调度前,如果已经出现对应机房的容量过载情况,则动态联动对应机房的降级功能,现故障的恢复。 2业线止损策略需求差异大 【问题描述】 我们现了基础的单机房故障量调度止损算法,但在部分业线中仍存在较大的需求差异,比如: 分步动态调度需求:业存在充Cache的情况,过程中能力降低,需要控制切换速度。
w****t 2018-07-10
AIOps中的四大金刚
在AIOps落地施中,运维工程师是处于中心的角色,也赋予了新的职责,他们是AIOps具体施的需求提出者和成果验收者。具体职责包括: 在AIOps时代,运维工程师一方面需要熟悉运维领域的知识,了解运维的难题和解决思路;另一方面需要了解人工智能和机器学习的思路,能够理解哪些场景问题适合用机器学习方法解决,需要提供怎样的样本和数据,即成为AI在运维领域落地施的解决方案专家。 运维AI工程师 在单机房故障自愈场景中,运维AI工程师将机器学习的算法与际的故障处理业场景相结合,针对单机房故障场景的风险点,进行策略研发与验工作。如下图所示: 运维AI工程师分别设计了如下算法策略来满足整个复杂故障场景的自动决策: 异常检测算法:解决故障发现时指标异常判断问题,基于AI方法现较高的准确率和召回率,作为整个故障自愈的数据基础。 策略编排算法:基于当前线上的量和状态,设计损益计算模型,判断基于何种方式的操作组合或步骤,能够使整个自动止损带来收益最大,风险最量调度算法:基于线上容量与量情况,进行精确量比例计算,防御容量不足或不准风险,并量调度收益最大化。
追****圣 2018-07-11
给书记省长讲清楚云计算
云基地通俗易懂的展现形式就是开启数十万个高速运转的电脑铁皮箱,但这些电脑不用接显示器也不用人员现场操作,只要这些电脑能开机能上网就能对外。云基地和数字地产不完全相同,数字地产只装修好房,云基地关注用这些房做什么。 云基地是无烟工业,并不需要雇佣大量人口,对直接促进就业帮助不大;但云计算没有体矿产投入和物品产出,只需要大量电力启动电脑也不会产生大量污染。 云基地像电视台和信号塔一样,通过产生和扩散数据信息对客户提供,这些信息的传输没有物成本,光速直达全球每个角落。 因为云基地全球客户,所以云基地可创造极高的营收,但不能简单的计入地方政府的GDP。一个耗电三千瓦的机柜加附属空间占地5平方米,如果云计算资源全部售出,每年可产生20万元以上的营收。但是这些营收会计入云计算公司所在地,而非云基地机房所在地,云基地只能被当做外地公司在本地租赁的库房,只会在所在地消费掉地租、电费和网费。各地政府只有提供足够的优惠政策,才能吸引云计算公司在当地成立独立税核算的分支机构;有长久规划的地方政府甚至可以将云计算人才逐步引入当地,形成高科技硅谷园区。
h****8 2018-07-10
能力比梦想更重要——企业级难寻产品经理
个人产品经理是一个需要梦想和热情的职业,但在政企和工业级IT领域,能力比梦想更重要。 本文是想说清楚,政企和工业级软件领域,能力比梦想更重要,个人产品经理来到这个行业就会被秒成渣。如果一个企业要招产品经理,要知道这个行业有哪些难点痛点,需要什么样的产品经理(其是软件和设计师)。 1. 需求拆解的能力 个人产品经理在设计一款APP时,是可以用生理上的主观感受给产品打分的。但是让一个产品经理来设计个水线自控系统,他的主观感受并不重要,必须用技术和业能力将客户需求描述和引导。某些产品经理因为自己毫无感受憋不出词来,就把客户的要求当做圣旨跪拜,这不仅是吃里扒外,还是会搅黄项目的搅屎棍。 要拆解客户的需求,必须技术上能跟客户做平等对话,业上了解客户工作程,还要理解大型客户内部的利害关系,不能靠“视察”客户会议室装专家上宾,也不能像外行一样凡事都跪问客户。 我举第一个例是很多系统都有监控,监控系统的产品经理要完成下列工作才合格: 技术:产品经理对“check tcp 80”和“check http 200”这类业术语没概念,需要客户被坑一次骂一次才能改一点点。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动过程
这个文件注释很简单但水很深,我们该用标签还是UUID来标识磁盘,文件系统自检功能要不要开,这都可以聊好几个时。 看看各的启动优先级也是一个讲究多多的过程,iptables会比network先启动这类依存关系很好理解;但我也遇到过云平台的DHCP获取太慢,而云主机操作系统启动快、Network还没从DHCP那里获取到IP地址,然后Mysqld等需要监听端口的启动失败。 后记 以上内容只能算精简科普版的Linux系统启动过程,正式版的启动过程可以写十万字,有兴趣的朋友可以自己查维基百科,或拿我说的关键字去百度搜索。 曾经我把这些技能当做资历,但现在大家都上云了,它们就只是闲聊的谈资了。但客户上云就能少招一个研究这事的工程师,上云确也很有意义啊。 夜静人稀,沙龙关好了门,一气把六十四枪刺下来;而后,拄着枪,望着天上的群星,想起当年在野店荒林的威风。叹一口气,用手指慢慢摸着凉滑的枪身,又微微一笑,“不传!不传!”----老舍《断魂枪》
M****H 2018-07-11
故障定位场景下的数据可视化
干货概览 百度拥有上百条产品线,数十万的,每个时时刻刻都在产生着海量的监控数据,形成的监控项规模总数已达数十亿。面对如此海量的数据,在日常运维(如故障诊断、成本分析、性能优化等场景)过程中,传统的统计图表难以有效直观地展示如此庞大的数据。因此,优秀的监控数据可视化产品就呼之欲出,他既要数据准确、全面、时效性高,也需要提升用户的使用体验,使其能在茫茫数据中一眼就能发现想要观察的数据。 那么怎么做才能适应用户需求、完成精准展示,同时又能挖掘数据价值呢?下面我们从故障诊断的场景出发,来看百度智能监控平台是如何充分利用数据可视化武器来解决际业问题的。 故障定位可视化思路 在标准的故障处理程中,故障定位一般可分为两个阶段: 故障止损前:期望可以快速获得可用于止损决策的信息,做出相应的止损操作使得恢复。比如通过确定故障范围,调度量绕过故障机房或摘除故障例等。 故障止损后:仍需要进一步到导致故障的深层次原因,确定故障根因,将线上环境恢复到正常状态。
TOP