关于 全套服务怀集找妹子上门43501393】fiu 的搜索结果,共876
疏****月 2018-07-09
一键线Archer | 百度持续部署的瑞士军刀
干货概览 业部署(熟称线)是运维领域最常见的业类型,主要涉及线代码变更、配置文件变更(数据变更由于其高频、大量的特点,我们已在数据传输文章《嗖的一下,让数据自动生效》中专讨论过)。一般的业线具有不定时操作、业部署情况复杂、单机启停策略复杂等特点。在手工运维时代,运维人员需要花费大量精力进行此类重复性工作,且易于出错。从公布的数据显示,Google 70%的生产事故由线变更触发,如何减少变更过程中人为误操作,提供一个灵活、稳定的部署系统是运维平台研发人员所亟需解决的问题。 基本介绍 在运维自动化的大潮下,百度运维管理平台Noah发布了一键线部署系统——Archer。Archer致力于提供一产品线过程的可迁移发布解决方案,实现一键完成机器初始化、部署、添加模块监控、添加CT任、动态数据文件的分发等过程的自动操作。在操作方面,Archer提供了命令行工具作为发起一次线的操作入口,这种设计模式也决定了其易于成的特点。在DevOps流水线作业中,Archer可以作为一个环节结合进整条测试发布流水线中。
h****e 2018-07-10
程序:我从哪里来?
在BNS系统中,单元表示一个的实例合,一般以三段式的结构表示,比如:server.noah.all,server表示名,noah表示产品线,all表示机房名称,单元的名字在系统中是唯一的。 使用场景 在程序员的日常工作,常常面临以下的场景: 场景 场景一:我是一名OP工程师,负责几十个系统模块的运维,我常常需要登录部署的机器排查问题,但是只知道名,记不住那么多部署信息,怎么办? 场景二:我是一名RD工程师,我负责的需要扩容,我的是很多下游的依赖,的扩容怎么通知给下游模块? 场景三:我的部署实例有一个出现故障了,我想对下游屏蔽该故障实例,怎么办? 下面以一个简单的例来说明,假设一个模块名是Server,它的游是Proxy,下游是Redis,当出现变更或者故障时,如何让游感知到呢? 当新增线实例、下线摘除实例或者实例发生故障时,BNS系统通过部署在机器的客户端实时感知到实例的状态变化,同时新增和删除实例的变更情况会立即同步到分布式的缓存系统中,这样用户通过一个BNS名字就可以感知到下游的实例变化。
流****水 2018-07-11
度云企业级运维平台——NoahEE
在业规模发展到一定程度后,运维工作还停留在早期人工或脚本方式执行的阶段时,这样的差异非常频繁的发生。 在实际的运维中,还有更多的因素需要考虑,例如机器是否会分配给不同部(资源的隔离)?权限又该如何控制?随着规模变大,人力成本等管理成本升,然而效率低下、可用性不升反降等等都是非常可能出现的问题。百度对于这个问题给出的答案是,必须先要解决资源组织管理问题。简单的说,管理要解决的最核心问题就是如何对资源进行有效组织管理与定位: 图2 解决规模带来的问题 在管理这个地基打好后,我们再来回顾下面的例。这个例中,地图研发的同学就可以在运维平台中选中导航的模块进行升级,运维平台会通过管理来定位此次升级操作需要影响的机器并进行批量的操作。NoahEE中的所有运维系统,都以管理为基础来进行运维操作,例如在监控系统中,我们可以对导航模块(而不是单台机器进行操作)添加一些指标采,并在一定条件达成时报警。管理通过对资源合理的组织,极大的简化了运维操作,提升了运维效率。
金****洲 2018-07-10
混乱的群遇见TA 从此岁月静好
AHALO称Hybrid-cloud Application Layout and Operation system,顾名思义,它是私有云或混合云环境中的基础设施部署和群控制系统,是混乱群中的第一束光,让无序的群世界变得有序可控,是云最底层的基石,肩负着裸机环境配置,root域权限控制和智能托管基础设施的重任。如果没有HALO,群机器将处于失控的状态。它屏蔽了云底层繁杂的管控逻辑,提供简化接口给层系统NoahEE调用,使层系统更好更快地释放价值。 Q这么优秀的系统到底是如何实现的呢? AHALO系统采用主从架构,分为Master端和Agent端。 Master端主要做复杂的任调度和管控逻辑,并且所有功能都是模块化设计,用户可以根据自己的需求定制安装,包括虚拟化容器管理,应用包管理、部署、扩缩容、拓扑搭建和保活,群控制等。 Agent端则以简单为原则,弱化繁琐功能,仅作为任的执行器,其中的supervisor组件,结合父双进程原理,做到自升级和自保活,把云运维人员的工作量降到最低。 整个系统的工作流程也十分简洁优雅!
追****圣 2018-07-11
给书记省长讲清楚云计算
人不仅要住房还可以盖房,不仅会逛超市也会开菜市场。 政府和大型国企不仅能采购云计算,早晚也会走向发展云计算的路。 本文不谈任何技术细节和商业情怀,而是从政企的角度说明什么是云计算。 本文包含如下内容。 从大时代背景来看什么是云计算,云计算为什么会兴起。 云计算如何带动地方经济,这是个不需要物流就可以球的行业。 做云计算要满足哪些条件,如何才能筑巢引凤。 挑选合格的云计算合作厂商,每类厂商有哪些特点。 云计算不是万能药,它无法解决哪些问题。 什么是云计算 近20年来,互联网引爆了球的信息技术革命,我国借助这次技术革命的大好机会,已经追乃至领跑此次技术革命。 互联网技术深刻的改变着我们的生活,其行业生态也在逐步分化扩大,这一现状客观促进了云计算技术的发展。 世纪80年代,计算机仅应用于科研等少数行业,国计算机从业人员不超过万人,从业人员大都有很深的学术背景。 世纪90年代,户、论坛、邮件系统开始影响部分群众的生活,国内从业人员约为十万人,可以分为软件和硬件两类工程师。
w****0 2018-07-11
单机房故障自愈-黎明之战
同时针对单机房止损依赖的容量管理场景,提供资源类监控采,为容量规划、扩缩容提供数据支持。实现从运营商外网链路、百度内部网络设备/链路、/实例、机器/容器的方位数据采与监控。满足网络类单机房故障、业类单机房故障的监控覆盖需求。 同时提供一系列数据分析方法。如智能异常检测、趋势预测、多维度分析、关联分析、和链路拓扑分析,实现故障的精准发现和定位。 故障止损:百度流量调度平台 针对百度的网络架构和业架构,我们将流量调度拆分为三层:接入层、层、依赖层。 接入层:从外网用户发起请求经过运营商网络到百度统一前端(BFE)的过程,使用DNS实现外网流量调度。 层:从BFE流量转发至内网的过程,使用BFE提供的GSLB动态负载均衡进行流量调度。 依赖层:内网下游业之间的流量调度过程,使用百度名字(BNS)进行流量调度。 对于单机房止损场景来说,DNS流量调度的生效时间较层、依赖层的流量调度生效时间要慢很多,所以我们期望在发生某个业的局部单机房故障时,优先进行层、依赖层调度。提升止损时效性。
s****d 2018-07-11
亿元级云用户分析
1.云目的分析 大型云用户云的宏观目的和普通用户类似,但多角色多部的利益诉求非常复杂。 降低成本:客户最直观的诉求,或者削减IT预算,或者同等预算下支撑更多的;其他客户诉求都难以清晰描述,唯独成本可以看发票和合同。 明确责任:客户不想承担各个IT系统的衔接和选型责任,相比软件厂商和系统成商,云厂商的责任覆盖范围会更广泛一些。 收拢数据:云本身并不碰业数据,但云是很好明确业数据存储位置的机会,云业改造是规范数据结构的理由。 求新图变:企业客户在气势如虹时要居安思危,在困境危难之中穷极思变,IT技术是企业的潜在增长点甚至退路。 本文讨论的是有模糊度和利润空间的云计算项目,CDN和IDC资源可以用做计收载体,但不能做为云目的分析。亿元以器、CDN的订单很多但既无技巧也无利润,这些资源厂商也在跟云厂商学习如何包装项目。 2.客户角色利益分析 大企业多角色之间的利益诉求不同,所以表现形式也不同。我将客户三大角色列出来讨论,销售-售前-项目经理铁三角组合明确客户的诉求,才更好游刃有余的客户。
布****五 2018-07-10
如何执行一条命令
如何解决 为了解决这个简单的难题,我们设计了如图3所示的百度群控制系统(Cluster Control System,简称CCS系统),通过分离控制信息与执行信息建立了两级数据模型,结合命令执行及机房部署特点建立了四级传输模型,通过三级守护方式建立了稳定的执行代理,在大规模解决了“命令三要素”问题。 图3百度群控制系统架构 截至目前,CCS系统已经部署在百度的所有机房中,用户可以方便的在任意一台机器进行秒级命令下发和结果收,日均承载数亿次来自各产品的接口调用。关于数据模型、传输模型、执行代理这“分布式命令三要素”的设计及应用,我们将在下一篇文章中详细介绍。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
但无论误会、偏见还是迷信,时间跃变、回退和停滞对应用健壮性和业性的威胁始终存在,时间不仅仅是我玩游戏时用的魔法,忽视问题并不能掩埋问题。 六、见微知著和防微杜渐 我讲NTPD和裸纤并不是为卖弄知识,也不是为做偏科普,而是希望进阶工程师们多考虑一下如何规避这类误会?我们在做技术工作时,是不是只关注客户和同事能提出的需求?客户永远不知道裸纤的物理特性,同事也不会知道时间也能错误和波动,他们能说清楚业逻辑就不错了。 把所有的精力都用到做业逻辑,你只是个编程语言翻译机而已;自己主动观测技术环境依赖,有资格有能力做出技术选型决策,才是给Coder群做技术校准的人。即使你不想做技术决策人和管理者,多怀疑和观察环境,也能少些沟通成本,少走一些冤枉路,多一份自信和自尊。 附录:NTPD时间跃变不遗漏Crond的实验 1、当前系统时间是 23点35分。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动过程
看看各的启动优先级也是一个讲究多多的过程,iptables会比network先启动这类依存关系很好理解;但我也遇到过云平台的DHCP获取太慢,而云主机操作系统启动快、Network还没从DHCP那里获取到IP地址,然后Mysqld等需要监听端口的启动失败。 后记 以内容只能算精简科普版的Linux系统启动过程,正式版的启动过程可以写十万字,有兴趣的朋友可以自己查维基百科,或拿我说的关键字去百度搜索。 曾经我把这些技能当做资历,但现在大家都云了,它们就只是闲聊的谈资了。但客户云就能少招一个研究这事的工程师,云确实也很有意义啊。 夜静人稀,沙龙关好了小,一气把六十四枪刺下来;而后,拄着枪,望着天的群星,想起当年在野店荒林的威风。叹一口气,用手指慢慢摸着凉滑的枪身,又微微一笑,“不传!不传!”----老舍《断魂枪》
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
运维人员的职责由处理转向管理,最终运维人员在低压力值班中保证稳定运行。 单机房故障自愈解决方案概述 百度AIOps框架中,单机房故障自愈解决方案构建在运维知识库、运维开发框架、运维策略框架三个核心能力之。具体过程为自愈程序搜分散的运维对象状态数据,自动感知异常后进行决策,得出基于动态编排规划的止损操作,并通过标准化运维操作接口执行。该解决方案策略和架构解耦,并且托管到高可用的自动化运维平台之,实现了业在任意单个机房故障情况下皆可自愈的效果。 截至目前该方案已覆盖百度大多数核心产品,止损效率较人工处理提升60%以。典型案例: 在8月28日某产品在单机房故障发生后1min55s完成止损。 在后续文章中我们会继续介绍单机房故障自愈的更多详细内容,敬请期待! 单机房故障容灾能力的建设 在容灾能力建设中有哪些常见问题? 如何证明已经具备单机房容灾能力? 单机房故障人工止损方法 人工止损时如何感知故障? 人工止损时如何收故障信息? 人工止损时如何进行流量调度? 单机房故障机器人止损方法 如何设计单机房故障自愈整体方案? 如何降低流量调度风险?
小****园 2018-07-10
让PB级云存储不再神秘
比如说银行里依赖一存储的应用有50个,其中5个高性能应用必须改用对象存储接口,而另外45个低需求应用可以沿袭旧的访问方式,否则换个存储要改50应用是推不下去的。 三、如何采购对象存储 各家公有云都做对象存储,那么该从哪些维度选存储,我有一些思考和建议。不用带任何情怀和理想,一年内能达到的存储容量是用户分类的唯一标准,GB/TB和PB。同样也不带任何理想和情怀,企业采购云就是公平交易,不要奢求免费的蛋糕,我们只期望能物有所值就够了。 1、小型用户宽松心态 如果你是一个GB级用户,一年内存储量都不会达到1TB,这时候用对象存储只是为了方便开发应用,不用太多思考存储自身特性。 首先谈价格,100G数据的存储成本每天就几毛钱,我不想讨论如何节约一毛钱的问题。 对象存储和云主机没任何直接技术关联,它是一个独立到孤立的,典型互联网架构中,对象存储甚至不和云主机交互任何业数据,云存储直通客户APP。对象存储一般会接CDN,CDN是最成熟透明的云应用,你可以CDN和存储选一家,也可以只用存储做源站,技术不会有任何限制。
无****禾 2018-07-11
云客户需求引导管理--实战型IT太极拳
前言 多年之前,我要搜云平台技术运营数据,就主动了解客户云平台的运行状况。然后我就发现来到了暴怒战场,客户的需求同事们都承诺下来了,但一年半载都没人做。我闲不住就开始救火,客户有十个要求我会拒绝七个,两个慢慢做,一个承诺立刻解决。客户并没有投诉我,倒是离职的时候多个客户邀请面谈并发出了Offer。 这几年我一直把“客户提十个需求我会拒掉七个”当做招牌技能,今天就聊聊客户需求为什么要引导,该如何引导。 云平台卖的都是,靠销售体系打下单来只是万里长征第一步。如果云厂商做不好,公有云没有消费额,私有云可以换别人家的软件授权;如果云厂商做好大客户的技术,完可以从备胎公有云变为主力公有云,私有云群也月月有扩容。各位投标中标的CDN厂商已经领教过客户的切量神功了,而云主机等资源的切换也会越来越简单方便。 过去的案例 我们先看四个生产环境案例。 案例1.有外售型私有云客户要把虚拟机的内网带宽从1G扩充到4G,沟通后发现是最终用户要在单虚拟机跑大流量应用。
TOP