关于 蒙自找大学生服务按摩〖10669708薇信〗 的搜索结果,共1146
红****2 2018-07-10
故障愈机器人,保你安心好睡眠
干货概览 在型互联网公司中,单机房故障因为其故障时间长、影响范围,一直是互联网公司运维人员的心头之痛。在传统的运维方式中,由于故障感知判断、流量调度决策的复杂性,通常需要人工止损,但人工处理的时效性会影响的恢复速度,同时人的不可靠性也可能导致问题扩。 为了解决这类问题,我们针对百度内外部网络环境建设了基于智能流量调度的单机房故障愈能力。结合外网运营商链路监测、内网链路质量监测与业指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与百度名字(BNS)实现了智能流量调度与动止损能力。同时,基于实时容量与实时流量调度动止损策略与管控风险,实现了任意单机房故障时业均可快速愈的效果。当前此解决方案已覆盖搜索、广告、息流、贴吧、地图等众多核心产品的单机房故障愈场景。 单机房故障频发影响业可用性 回顾近2年来各互联网公司被披露的故障事件,单机房故障层出不穷。
l****m 2018-07-10
五年前的预言——2012年云计算时代的运维职位展望
2、进行云计算器维护;几供应商己也要维护器,那些中型企业肯定会己做私有云,在这个云计算平台里也是需要运维人员进行从低端监控到高端架构的一系列维护工作,但动化运维技术会让运维人员的数量减少,可能每个公司都只有一两个小团队了。 3、进传统行业继续做运维;笔者就是在一个通讯公司工作,我可以很乐观的说云计算会对公司造成有限的技术革新,比如说实现OS的虚拟化。我们需要的SIP必须亲搭建,阿里盛新浪都没得卖,甚至因为硬件和网络限制让我们很难使用虚拟机;而外宣网站一类的东西根本不是我们的核心竞争力,能用就好效率低一些没关系。除了通讯公司之外,产领域(比如管理产线)也有类似的顾虑,云计算的优势和公司的业需求完全不沾边,所以这类公司的运维可能会是最后的运维。工作的时候都习惯网站相关的工作,但你过Web就一定要网站工作是挺蠢的行为,危邦不入乱邦不居,最好不要涉足一个没有前途的行业。
h****e 2018-07-10
程序:我从哪里来?
干货概览 在计算机程序或者的层次上,我们来试着分析前面提到的几个问题。 问题 1.我是谁? 叫什么,包含了哪些实例,规模、部署情况、实例运行状况如何? 2.我从哪里来? 的上游有哪些,不同的上游流量如何分配? 3.我往哪里去? 的下游有哪些,不同的下游流量如何分配? 面对这样的问题,我们的答案是什么呢? 在百度的运维实践中,我们只需“BNS”就可以获得想要的答案。 BNS(Baidu Naming Service,百度名字)是百度云智能运维团队研发的一套分布式的名字系统,是百度云Noah智能运维产品中的一个重要基础系统。它为每一个赋予一个独一无二的名字,根据这个名字,我们就可以获取到这个的相关息 ,这些息包括:在机器上部署息(机器IP,部署路径,配置,端口息),的实例运行状况等其他重要息。简单来讲,它提供了一个名到资源息的一个映射关系。
j****2 2018-07-10
百度脑开放日来袭 24种全新AI能力呈现
比如百度EasyDL与分形科技打造的智能垃圾桶已成功地落地海淀公园,可以对7种常见垃圾动分类,后期还可以通过增加训练数据识别更多种类;在和德邦物流的合作中,为用户免去了行填写息的麻烦,使用定制词法分析快递申请,一秒拆分姓名、电话、住址等息;更具科研意义的还有百度EasyDL与中科院在珍稀鸟类识别项目上展开的合作,在传统分类日渐没落的今天,百度EasyDL可以利用强的图像识别技术协助专家们对动植物标本、照片进行快速鉴定,目前中科院使用EasyDL训练对超过12万幅图片进行分析,目前在700多种鸟类模top5上的识别准确率达到93.89%,非雀形目鸟类模型top5准确率达到95.79%,满足上线要求。 与卓繁息的合作,百度脑还打造了“AI便民”的新型无人值守受理站。通过UNIT、OCR、人脸识别等AI技术,“无人值守”的政新模式为社会公众提供全年无休的24小时助办事,提升了政府为民的能力。 开放日当天,网红智能猫窝的设计者百度脑工程师晚兮也在现场为家讲述了智能猫窝设计者们的初心。
追****圣 2018-07-11
给书记省长讲清楚云计算
政府和型国企不仅能采购云计算,早晚也会走向发展云计算的路。 本文不谈任何技术细节和商业情怀,而是从政企的角度说明什么是云计算。 本文包含如下内容。 从时代背景来看什么是云计算,云计算为什么会兴起。 云计算如何带动地方经济,这是个不需要物流就可以全球的行业。 做云计算要满足哪些条件,如何才能筑巢引凤。 挑选合格的云计算合作厂商,每类厂商有哪些特点。 云计算不是万能药,它无法解决哪些问题。 什么是云计算 近20年来,互联网引爆了全球的息技术革命,我国借助这次技术革命的好机会,已经追上乃至领跑此次技术革命。 互联网技术深刻的改变着我们的活,其行业态也在逐步分化扩,这一现状客观促进了云计算技术的发展。 上世纪80年代,计算机仅应用于科研等少数行业,全国计算机从业人员不超过万人,从业人员都有很深的术背景。 上世纪90年代,门户、论坛、邮件系统开始影响部分群众的活,国内从业人员约为十万人,可以分为软件和硬件两类工程师。 进入2000年,无纸化办公、游戏、社交、电商改变了众的活的方式,国内从业人员已经远超百万,技术分类有数十种工程师。
疏****月 2018-07-09
一键上线Archer | 百度持续部署的瑞士军刀
Archer的配置文件路径、的启停脚本及运维命令具有固定的标准并且支持定制化,使用Archer进行部署的具有统一的包结构; 支持分级发布,及时拦截部署引入的线上故障 针对分级发布的使用场景,Archer支持串并行上线及暂停点功能,可照单实例、单机房、单地域等级别设置暂停点,并支持部署过程中进行暂停、继续、重试、撤销等操作; 业的多地域部署 的多地域部署主要需要解决不同地域配置不同的问题。Archer提供了配置派功能以支持多地域部署的场景。Archer支持在同一份配置文件中设置配置变量,并在特定地域(机房)中成特定配置值; 多种网络环境及包部署 针对多种网络环境及包部署的使用场景,Archer提供了部署数据中转传输。采用中转的上线在发起任后,部分代码将首先被转存至中转机上。
流****水 2018-07-11
度云企业级运维平台——NoahEE
文章概览 过去的文章为家介绍了百度云智能运维的方方面面,从监控、部署等传统的运维技术到智能异常检测、故障愈等智能运维技术,这些运维基础能力和黑科技,是十年来百度工程师对技术孜孜不倦求索的结果,也见证了百度运维十年间的创新历程。很多同在看了这些文章后,都在想如何把这些领先的运维技术与理念用到己的工作中,但苦于建设运维平台不是一蹴而就的,成本也让人望而却步,于是不少同都在希望我们能够有一个产品的形式输出这些技术,方便将这些前沿技术运用到己的工作环境中。 在分析了各行业的运维场景与需求,结合百度历年来运维的经验与技术沉淀,并经过运维团队的精心打磨后,今天我们可以很骄傲的给家呈现这个百度的运维产品企业版 – NoahEE。 在介绍NoahEE之前,有必要说一下百度内部的统一动化运维平台Noah。Noah来源于圣经中“诺亚方舟”的故事,我们用这个名字来寓意能够避免灾难,稳固而坚实的平台。作为一系列运维系统的集合,Noah包括了管理、机器管理、资源定位、监控报警、动部署、任调度等等,已经了百度数年之久。
p****d 2018-07-11
单机房故障愈--运维的春天
基于内网监控、基础监控、业监控提供的故障号;触发内网止损决策器进行止损决策;执行流量调度、主备切换、弹性降级等止损操作。 单机房故障愈的常见问题和解决方案 传统的流量调度动止损方案存在如下问题: 1容量风险控制能力不足 【问题描述】 传统流量调度的模式有两种:固定比例模式与容量保护模式。 固定比例模式:照预先设定的固定预案,一个机房故障,该机房的流量照预先设定的比例分配到其他的机房。很可能某个机房的容量或剩余机房的总容量不足,切流量后导致多个机房发故障。 容量保护模式:针对固定比例模式存在的容量风险问题,改进的流量调度方式为执行前判断容量是否充足,容量充足则进行流量调度,否则不进行调度并通知人工介入处理。但此种方案面对的问题是: 1.容量仍有buffer可以进行部分止损。期望能够在不超过容量保护的情况下进行尽可能的调度,减少对用户的影响。 2.即使照容量进行调度,过载仍可能发,容量数据本身存在一定误差,流量成分的变化以及变更等导致的容量退化,都可能导致原先容量无法完全可
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
资源投入 云资源贩售过程中,合格的厂商可以让云资源物有所值,但巧妇难为无米之炊,原始资源投入不够云就不可能很稳定。面向中小客户的时候,云厂商很忌讳透露具体硬件成本,也尽量避免承认资源不足,但面对客户时会很坦诚。 作为持久共甲方,请关注乙方的成本红线,买家永远没有卖家精。如果甲方给够钱了,乙方仍然用劣质硬件IDC和过高超售比,小云厂商一般是老板带头节俭,而云厂商很可能是执行层的人弄错了,作为甲方该闹就要闹。 人为原因 云厂商的人为故障总是糊涂账,但细心的甲方是能看出来端倪的。有时候厂商想遮蔽技术和资源的问题,会说是人为原因,缓过这一次故障赶紧修订BUG和准备资源;有时候明明是人为原因,但人为故障都是打脸实锤,厂商脸会肿而且要赔偿,可能会个其他原因来给脸部降降温。 对于落实是人为导致的故障,甲方单纯的索赔追责并不能解决问题,因为云厂商总是比甲方的实际损失更小,甲方无法触及云厂商能倒腾出故障的部门。甲方只能根据云厂商销售和线的能力和态度,确认己交钱了能否买到靠谱的。 最重是商誉 云计算既是资源又是,资源相对可以量化,但短期内看直观感受,长期看商业誉。
w****0 2018-07-11
单机房故障愈-黎明之战
层:从BFE流量转发至内网的过程,使用BFE提供的GSLB动态负载均衡进行流量调度。 依赖层:内网上下游业之间的流量调度过程,使用百度名字(BNS)进行流量调度。 对于单机房止损场景来说,DNS流量调度的效时间较层、依赖层的流量调度效时间要慢很多,所以我们期望在发某个业的局部单机房故障时,优先进行层、依赖层调度。提升止损时效性。 在单机房容灾能力、智能监控平台、流量调度平台的基础上,启动单机房故障愈工作的时机已经成熟。我们将会在下篇文章中详细介绍单机房故障愈解决方案,敬请期待! 单机房故障机器人止损方法 单机房故障止损的能力标准 单机房故障愈的常见问题 单机房故障愈的解决方案
M****点 2018-07-10
中国云计算现状——产品篇
这些改变是从网络层面践行云计算的设计哲,单机(IP/防火墙)不重要,云主机就是不息的群狼,组织群狼的网络更加重要了。 二、PaaS产品 相比同质化竞争主打价格牌的IaaS云,PaaS产品才是云计算的未来。用好PaaS产品可以更省人力、更快交付,用量付费可能会比资源付费更便宜(也可能更贵),而PaaS平台的恼人和诱人之处均在于产品形态很模糊、质量很难评估、很难独立运营、没有领头羊企业和事实标准。 PaaS云平台和IaaS云资源的区别就在于,平台需要理解客户的动作和状态。对象存储和CDN就是最典型的PaaS,云平台照数据容量、访问流量、访问次数和方法收费;Mysql RDS只能照内存和日志空间上限计费,但仍然可以替客户做数据库状态展示、分析和备份,这是过渡性的PaaS。 最常见的PaaS是数据库,最重要的PaaS是对象存储,最成熟的PaaS是CDN,最有魅力的PaaS是Serverless,我们重点看这四个。 一个经典PaaS应该只是一个进程,进程是无法长期存储数据的,小量结构化数据依赖数据库存储,海量数据依赖对象存储。
小****园 2018-07-10
让PB级云存储不再神秘
一个客户要下载己2000万条fileinfo息,5条息1k算,这2000万条 fileinfo息有4GB,就算云存储能精确的0.1秒查完,客户有能力0.1秒下载完这些息吗? 如果你觉得元数据压力还是,那还可以让计费系统、读写代理都对查询结果做缓存,或者将数据库挂在成熟的Proxy背后做分库和调度。 我们的数据库能低压力运行,就是设计时充分理解适应了对象存储元数据这一简单需求。 3、灵活的读写代理 读写代理是整个群集保持松耦合高性能的关键点,这也离不开对场景的深度理解。 首先说读写代理的高可用、负载均衡和高性能,我们会在读写代理前面加几台Nginx,客户端到读写代理都是无状态连接。客户端可以通过LVS、单域名DNS轮询、多域名分散业等方式将请求分散到多台Nginx,Nginx将请求交给任意读写代理都是能得到相同结果的。单个读写代理崩溃了SDK端会后台重试,直接访问API的用户会以为是己网慢重新刷新。这么灵活的访问方式,有性能问题多堆几台机器就好了,20G带宽5万个链接很容易消化。 读写代理在访问客户时代表存储端,在群集内部扮演的可客户端。
s****d 2018-07-11
亿元级云用户分析
限制客户梦想的是老旧系统是否支持常见协议,还有底层工程师能否推动上层业测试和变动。 API调用PaaS——API云就是不可控过程的黑箱,客户没预算没精力就盲目任云厂商。客户有精力就做多云冗余校验,有预算就做专有资源池部署;未来云厂商还会定义SLA标准——部分API云连等待超时都没定义。 版本发布和数字化转型——无论是微观的版本发布还是宏观的数字化转型,其实都和上云没直接联系,一个是室内装修工作,一个是新建房屋工作,但装修的最好时机是房屋重建的时候,云厂商要帮客户推动IT技术革新。 5.输出分析 云厂商输出给客户的即有云端IT资源,也有平台输出。是个比资源更难量化的概念,我只引一把火苗出来。 咨询规划--如果直接给客户买资源,那就只能谈性价比,而且资源本身不会说话,所以云厂商要做好咨询规划。 明晰验收--云项目的实施和结项都是以结果为导向的,明确的过程控制和验收标准对供求双方都是保护。 友好接口--面对亿元金主,云厂商的下限是类比传统IDC,要把金主伺候舒了就要IOE类集成商。
w****t 2018-07-10
AIOps中的四金刚
在针对运维的场景中,会覆盖运维相关的管理、监控、变更、流量调度等相关平台。 这部分平台是运维的基础,在AIOps时代仍然需要依赖于这些平台的建设。 同时在AIOps场景中,数据成为了中心,运维各种状态息转换为数据,机器习则作用在数据上进行分析。在百度AIOps的实践中,运维开发框架、运维知识库、运维策略框架共同组成了完整的智能运维平台,三平台的建设和实施离不开数据、机器习架构的引入。这就要求平台研发工程师具备数据、机器习平台架构师的多重身份,具备流式计算、分布式存储、机器习平台、算法策略平台等一系列数据和机器习平台架构能力。 运维研发工程师 基于多个业线场景抽象出的单机房故障愈解决方案,能够满足部分场景需求,但并不意味着可以直接提供给各个业线来使用。原因如下: 策略和参数需要进行调整 流量调度、容灾策略等策略,针对不同的业线,配置并不相同。例如某些业对响应时间敏感,跨地域的调度会带来较的延迟,影响用户体验,这时就需要根据业情况配置机房之间的跨机房流量调度延迟系数,来实现流量优先调度到延迟系数最低的机房。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
NTPD是一个时间同步,ntpdate是个时间同步命令。很多工程师都会采用Crond+ntpdate的方式同步时间,究其原因是“NTPD不太好用”。 而我不喜欢用ntpdate同步时间的工程师,NTPD是一个体系化的,而ntpdate只是一个动作,部分人没做好为ntpdate这个动作负责。 正常的时间是个持续增长的向量,即老时间t1肯定小于新时间t2,新时间t2也小于最新的时间t3,而且t1必定会渐进增长到t2和t3。除了少数商业数据库带时钟源以外,部分业对系统时间是盲目任,不相t1会越过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序健壮性和业安全性,甚至部分程序崩溃的稀里糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目任;假设一个根NTP不稳定,所有的器获得了错误的时间,虽然现在业层可以包容异常,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。
TOP