关于 学妹上门服务薇78792796保定望都镇服务郭 的搜索结果,共1050
h****e 2018-07-10
程序:我从哪里来?
通过部署在机器的客户端感知到实例的状态变化(比如实例状态由0变成-1,即正常变成非正常),并将数据同步到系统中的分布式缓存,游模块可以通过查询redis.noah.all的实例状态结果,主动过滤非正常的实例,也可以在BNS系统中发起屏蔽故障实例的操作,在查询过程中会自动过滤该故障实例。 在下一节中将具体介绍BNS系统的整体架构。 基本架构 BNS系统主要包含几个部分:流量接入层,Web Server,存储层,代理客户端。 作为一个底层的基础,BNS系统每天的访问量近千亿次,这对系统的可用性提出了很高的要求,因而系统需要在各个层面有完善的容灾能力和流量管控能力。 1流量接入层 系统通过HTTP接口对外提供变更,用户通过Web页面或者接口进行或实例信息注册。为了证平台稳和安全的运行,需要对非法和异常请求进行拒绝,在流量接入层(Proxy)端提供了以下两个功能: 流量鉴权:每一个组、单元、实例的注册需要进行权限验证,用户只有申请了合法的Token才能允许访问,另外系统还提供了白名单等其他的鉴权方式。
流****水 2018-07-11
度云企业级运维平台——NoahEE
很多同在看了这些文章后,在想如何把这些领先的运维技术与理念用到自己的工作中,但苦于建设运维平台不是一蹴而就的,成本也让人而却步,于是不少同在希我们能够有一个产品的形式输出这些技术,方便将这些前沿技术运用到自己的工作环境中。 在分析了各行业的运维场景与需求,结合百度历年来运维的经验与技术沉淀,并经过运维团队的精心打磨后,今天我们可以很骄傲的给大家呈现这个百度的运维产品企业版 – NoahEE。 在介绍NoahEE之前,有必要说一下百度内部的统一自动化运维平台Noah。Noah来源于圣经中“诺亚方舟”的故事,我们用这个名字来寓意能够避免灾难,稳固而坚实的平台。作为一系列运维系统的集合,Noah包括了管理、机器管理、资源位、监控报警、自动部署、任调度等等,已经了百度数年之久。我们推出的NoahEE(Noah Enterprise Edition)脱始于Noah,为企业提供了一站式运维解决方案,覆盖了包括日常的故障管理和变更管理中典型的运维场景,致力于为政企、金融、教育等行业提供业可用性障、提升运维效率。
w****0 2018-07-11
单机房故障自愈-黎明之战
同时流量调度也无法使得恢复正常。 要求:将拆分为若干不同的逻辑单元,每个逻辑单元处于不同的物理机房,均能提供产品线完整。 3.不满足N+1冗余 描述:任意单个机房故障时,其余机房剩余容量不足以承担该机房切出的流量。 问题:流量调度导致其余机房过载,造成多个机房故障,造成更大范围的影响。 要求:容量建设需要对于每个逻辑单元要有明确的容量数据,并具备N+1冗余,即任意机房故障情况下,其余机房均可承载这部分流量,同时需要变化时及时更新数据和扩容,避免容量数据退化。同时对于流量的变化趋势,也需要有提前的预估,为重大事件流量高峰预留足够容量(如节日、运营、假期)。 4.关联强耦合 描述:下游使用固IP或固机器名进行直接连接。 问题:单机房故障发生时,关联的下游之间无法进行快速的流量调度止损。 要求:线关联不允许使用固IP或机器名链接,需使用具备流量调度能力的下游连接方式以实现下游依赖解耦,下游发生单机房故障,可以快速调整路由比例实现止损。
疏****月 2018-07-09
一键线Archer | 百度持续部署的瑞士军刀
干货概览 业部署(熟称线)是运维领域最常见的业类型,主要涉及线代码变更、配置文件变更(数据变更由于其高频、大量的特点,我们已在数据传输文章《嗖的一下,让数据自动生效》中专讨论过)。一般的业线具有不时操作、业部署情况复杂、单机启停策略复杂等特点。在手工运维时代,运维人员需要花费大量精力进行此类重复性工作,且易于出错。从公布的数据显示,Google 70%的生产事故由线变更触发,如何减少变更过程中人为误操作,提供一个灵活、稳的部署系统是运维平台研发人员所亟需解决的问题。 基本介绍 在运维自动化的大潮下,百度运维管理平台Noah发布了一键线部署系统——Archer。Archer致力于提供一套产品线全过程的可迁移发布解决方案,实现一键完成机器初始化、部署、添加模块监控、添加CT任、动态数据文件的分发等全过程的自动操作。在操作方面,Archer提供了命令行工具作为发起一次线的操作入口,这种设计模式也决了其易于集成的特点。在DevOps流水线作业中,Archer可以作为一个环节结合进整条测试发布流水线中。
s****d 2018-07-11
亿元级云用户分析
限制客户梦想的是老旧系统是否支持常见协议,还有底层工程师能否推动层业测试和变动。 API调用PaaS——API云就是不可控过程的黑箱,客户没预算没精力就盲目信任云厂商。客户有精力就做多云冗余校验,有预算就做专有资源池部署;未来云厂商还会自义SLA标准——大部分API云连等待超时义。 版本发布和数字化转型——无论是微观的版本发布还是宏观的数字化转型,其实云没直接联系,一个是室内装修工作,一个是新建房屋工作,但装修的最好时机是房屋重建的时候,云厂商要帮客户推动IT技术革新。 5.输出分析 云厂商输出给客户的即有云端IT资源,也有平台输出。是个比资源更难量化的概念,我只引一把火苗出来。 咨询规划--如果直接给客户买资源,那就只能谈性价比,而且资源本身不会说话,所以云厂商要做好咨询规划。 明晰验收--云项目的实施和结项是以结果为导向的,明确的过程控制和验收标准对供求双方护。 友好接口--面对亿元大金主,云厂商的下限是类比传统IDC,要把金主伺候舒了就要IOE类集成商。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前荒废了,因为卡得一匹。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
几个业内好友明确说一根裸光纤最多跑10G带宽,而于老板明确表示裸光纤任何一个波分(或者不做波分)可以跑100G以。 后来我和于老板深究原因,不可能几个朋友骗我或者蠢,很可能前些年光纤波分机自己只能甩出10G口,或运营商租光纤套餐里只有10G规格,给大家造成了裸光纤只能跑10G带宽的印象。同样固有的印象是光纤必须从运营商那里租,而且价格很贵还必须买波分设备等等;其实现在企业专线的市场竞争很充分,拉同城裸纤一公里也就小几百块钱,而且短距离裸纤也不值得波分设备,直接对接模块即可。 二、NTD是试金石 我对裸光纤是外汉,但同样的技术误解让我想到了NTP,我一直拿ntpd和ntpdate当做初中级系统工程师的试金石,分不清就月薪五千,分得清就八千以(2014年市价)。但很多货真价实的IT专家也在此事跌倒,我也希通过聊清楚一层误会,说明高级工程师该少迷信多思考。 NTP是网络时间协议,它是多项传输、计算、加密技术的核心参数。
M****点 2018-07-10
中国云计算现状——产品篇
云数据库(如RDS)很重要但想象空间有限,因为企业里已经有数据库和DBA了,DBA并不信任云端未知架构数据库的性能、稳性和数据安全性,而且企业仍然需要DBA承担设计维护工作。 对象存储是新兴需求,企业里本来就没大规模对象存储搭建能力,而且对象存储对应用程序友好手简单,客户对它是积极拥抱甚至业依赖。一旦用户在对象存储平台堆积了TB的数据,大数据和AI分析应用自然就部署来了。广域网传输稳性不够成本又过高,只能是计算组件跟着存储就近部署,PaaS云创业公司从对象存储入手才更有客户粘性和横向扩展空间。 大数据类PaaS类似于云数据库,用户要自带海量数据过来,Mapreduce过程和结果又要用户负责,最终客户觉得云平台什么没做,大数据PaaS用成IaaS制模板虚拟机了。而AI类PaaS类似于对象存储,用户本来要靠人肉识图,那些非结构数据本来是不存储的,程序员很乐意去调AI和存储接口,砸碎人肉识图团队的饭碗才能成全自己的业绩。云替代方案会被客户技术人员苛责,而技术人员会对云新出的方案很宽容。
红****2 2018-07-10
故障自愈机器人,你安心好睡眠
运维人员的职责由处理转向管理,最终运维人员在低压力值班中运行。 单机房故障自愈解决方案概述 百度AIOps框架中,单机房故障自愈解决方案构建在运维知识库、运维开发框架、运维策略框架三个核心能力之。具体过程为自愈程序搜集分散的运维对象状态数据,自动感知异常后进行决策,得出基于动态编排规划的止损操作,并通过标准化运维操作接口执行。该解决方案策略和架构解耦,并且托管到高可用的自动化运维平台之,实现了业在任意单个机房故障情况下皆可自愈的效果。 截至目前该方案已覆盖百度大多数核心产品,止损效率较人工处理提升60%以。典型案例: 在8月28日某产品在单机房故障发生后1min55s完成止损。 在后续文章中我们会继续介绍单机房故障自愈的更多详细内容,敬请期待! 单机房故障容灾能力的建设 在容灾能力建设中有哪些常见问题? 如何证明已经具备单机房容灾能力? 单机房故障人工止损方法 人工止损时如何感知故障? 人工止损时如何收集故障信息? 人工止损时如何进行流量调度? 单机房故障机器人止损方法 如何设计单机房故障自愈整体方案? 如何降低流量调度风险?
布****五 2018-07-10
如何执行一条命令
可是如果要在几十万台机器每天执行几十亿条命令,同时证时效性,证执行成功率,证结果正确收集,证7*24小时稳运行,就不是一件简单的事情了。所谓远行无轻担,量大易也难,在构建这样的执行系统的过程中要面临诸多困难,此处举几个突出的例子如下: 信息存储问题:为了支持水平扩展,需要高效的内存数据库作为缓存。为了做到执行命令的可追溯、可统计,需要对执行过的命令信息持久化。日均几十亿的热数据,年均万亿的冷数据,需要仔细选择存储方案。 任调度问题:为了达到在任意多台执行命令的要求,需要确何时分发命令、何时回收结果以及怎么样的并发度批量下发。 消息传输问题:为了证命令高效正确送达目标器,需要构建一个可靠的命令传输网络,使命令信息在准确送达的前提下障传输的可靠与高效,毕竟百度的几十万台器分布在世界各地。 代理执行问题:为了更好的处理权限、单机并发等单机执行问题,需要在目标机构建执行代理,以应对单机的复杂执行环境。
p****d 2018-07-11
单机房故障自愈--运维的春天
比例模式:按照预先设的固预案,一个机房故障,该机房的流量按照预先设的比例分配到其他的机房。很可能某个机房的容量或剩余机房的总容量不足,切流量后导致多个机房发生故障。 容量护模式:针对固比例模式存在的容量风险问题,改进的流量调度方式为执行前判断容量是否充足,容量充足则进行流量调度,否则不进行调度并通知人工介入处理。但此种方案面对的问题是: 1.容量仍有buffer可以进行部分止损。期能够在不超过容量护的情况下进行尽可能的调度,减少对用户的影响。 2.即使按照容量进行调度,过载仍可能发生,容量数据本身存在一误差,流量成分的变化以及变更等导致的容量退化,可能导致原先容量无法完全可信。 【解决方案】 基于容量水位的动态均衡 在流量调度时,对于容量不准确存在的风险,我们划分两条容量警戒线。 安全水位线:流量处于在安全线以下则风险较小,可以一步进行切换。 水位限:该水位线表明的最大承载能力,一旦流量超过故障水位线,很大概率会导致容量过载。
追****圣 2018-07-11
给书记省长讲清楚云计算
器就是高功耗高价格的专业电脑,云计算企业的采购规模一般远大于政企集采,他们能从硬件厂商那里拿到极限低价,政府和国企能提供的更多是采购资金的支持。 云计算是一个商业,不仅需要硬性支持,还需要足够的环境和政策支持。当前云计算公司聚集在一线大城市,环境规范稳但成本极高竞争压力极大,云计算企业也在尝试向二三线转移突围。二三线城市不仅要积极准备云计算硬性资源,还可以用合作融资、税收优惠等等灵活政策承担产能转移的,最终说云计算公司将GDP和税收留在当地。 云计算平台提供的是互联网,大量的互联网部署在本地会有极大的管控压力。二三线城市对互联网还只是简单的管控,稍有不解可能就会封禁一大批互联网,但一道封网命令就可以毁掉一个云计算公司的声誉。如果当地政企要做好云计算就要从管理者变为者,必须在管控违规违法时不惊扰正常业,甚至主动出击为正常网络驾护航。 前几条是从降低成本可靠的角度请云计算企业来合作建厂,如果你有市场有客户那对方会主动寻求合作。
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
前言 云计算是一种不仅要一次性验收其能力,还要持续关注其品质。客户用IaaS云就跟用IDC一样,用谁家的云就知道谁家有故障,用一家就知道一家的短处才是正常,只有前一个厂商烂到无可救药,客户才会对新厂商充满认可和感激。 本文的目的就是归类IaaS云故障的表层现象和深层原因,客户知道云的短板才好做系统设计,云厂商出故障也要老实认错,别总把客户当外行来糊弄。 至于PaaS云和IaaS云的设计实现思路完全不同,不在本文讨论范围内。 客户的感知和建议 IaaS云的核心资源是云主机,其他IaaS资源是依附于云主机的;云主机的可靠性略高于物理机,但并不是云主机永不宕机。 只要云主机采购量稍微规模,云主机用户总会遇到一些故障。请谅解和忘记供应商的营销话述,云主机用户必须自己在架构设计层面规避这些故障。 网络抖动 现在云平台已经用SDN组网,SDN本质是“软件义网络”,其主打卖点是灵活管理和控制,其性能和稳性并不是主打方向,SDN软件的质量也要略差与于传统厂商。云平台会有网络IO超卖复用,而且用器CPU软解海量报文,其性能还是比传统网络略差的。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动过程
看看各的启动优先级也是一个讲究多多的过程,iptables会比network先启动这类依存关系很好理解;但我也遇到过云平台的DHCP获取太慢,而云主机操作系统启动快、Network还没从DHCP那里获取到IP地址,然后Mysqld等需要监听端口的启动失败。 后记 以内容只能算精简科普版的Linux系统启动过程,正式版的启动过程可以写十万字,有兴趣的朋友可以自己查维基百科,或拿我说的关键字去百度搜索。 曾经我把这些技能当做资历,但现在大家云了,它们就只是闲聊的谈资了。但客户云就能少招一个研究这事的工程师,云确实也很有意义啊。 夜静人稀,沙子龙关好了小,一气把六十四枪刺下来;而后,拄着枪,着天的群星,想起当年在野店荒林的威风。叹一口气,用手指慢慢摸着凉滑的枪身,又微微一笑,“不传!不传!”----老舍《断魂枪》
若****客 2018-07-10
IT架构的本质--我的五点感悟
前端器压力大了就多做水平复制扩容,在网站类应用,无状态-会话持-弹性伸缩等技术应用纯熟。后端要群集化就是多做业拆分,常见的就是数据库拆库拆表拆键值,拆的越散微操作就越爽,但全局操作开销更大更难控制。 实时改异步是我的最后一IT技术,绝大部分“实时操作”不是业需求,而是某应用无法看到后端和Peer状态,默认就要实时处理结果了。CS模式的实时操作会给支撑带来巨大压力,Peer合作的实时操作可能会让数据申请方等一宿。架构师将一个无脑大事拆分成多个小事,这就是异步架构,但拆分事就跟拆分数据表一样,拆散的小事需要更高业层级做全局事障。 在群集性能规划中,网络和硬盘IO+CPU算力+磁盘和内存空间是可以互换的,架构师要完成补不足而损有余的选型。比如数据压缩技术就是用算力资源来置换IO和空间,缓存技术是用空间和IO来缓解算力压力,每个新选型会带来细节的万千变化,但每种变化是符合自然规律有章可循的。 一个经典微机系统就是中央处理器+主存储器+IO设备,这几个概念居然和群集性能规划是一一对应。 3.
金****洲 2018-07-10
混乱的集群遇见TA 从此岁月静好
云计算历经多年发展,从最初的概念模型,到被大众熟知,再到现在全行业拥抱云,取得了巨大的进步。云的主要客户已从最初的中小初创公司逐步渗透到各行各业的大型企业。可以说,企业云已是企业发展的必由之路。部分数据敏感的企业结合自身数据的安全性、所有权和控制权等综合因素考虑,会选择搭建自己的私有云或者混合云环境。 但是在述环境中,用户的机器需要自行管理,这就必然给云运维人员带来很多意想不到的麻烦。 其实我们面临的问题从来就没有什么大的变化,唯一不同的只是机器规模越来越大,人心越来越复杂。 Q如何在1台机器部署基础设施?A 一切源于那个亘古不变的道理:扔一个文件到机器,然后跑一个命令。 Q如何在10台机器部署基础设施?A 写个for循环搞。 Q如何在10000台机器部署基础设施?A 这个也好办!制操作系统镜像CUSTOM.iso装机自动化安装! then…… Q如何快速升级所有机器的基础设施? Q因异常挂掉,能自动重启活吗? Q公司做活动,预计流量突增,能扩容吗? Q公司活动结束,为节约成本,能缩容吗? Q新开发的基础设施有问题,能立马回滚吗?
TOP