关于 幸运飞艇单双 zs25.vip 主管Q:86 432 556通 的搜索结果,共449
流****水 2018-07-11
度云企业级维平台——NoahEE
资产理 在机房里,各种各样的服务器、网络设备和安全设备7x24小时的转,为我们的业务提供了硬件保障,是企业的重要资产。各种设备的物理损坏、升级、新增、搬迁等等都在考验着机房维人员的能力。怎样维护这些资产并记录信息,是个很重要的问题,搞得不好,这些资产可能变成维人员的“包袱”,越多越头疼。 对这些设备的维操作,常都涉及不少的物理操作,比如说更换损坏的硬盘,增加内存条等等。这里涉及到几个要解决的问题: 故障如何及时发现?发现后由谁来进行修复? 物理操作维护怎样反应到系统里? 不同角色(职责)的维人员之间如何协同操作? 对于故障处理与修复,NoahEE过故障自动发现与工流程解决了上面的问题。系统自动探测故障放入故障池,并建立故障工,由相应的人员进行操作。另外,NoahEE提供了不同的工流程覆盖了日常机房维中的操作,从设备采购入库、上架、机架变更,直到设备下架、出库全生命周期覆盖,做到所有维操作记录可追溯。有了资产理,维人员可以在服务器完成入库、上架工后即可在服务理中看到该服务器并进行理,无须任何其他操作。
金****洲 2018-07-10
混乱的集群遇见TA 从此岁月静好
它屏蔽了云服务底层繁杂的控逻辑,提供简化接口给上层系统NoahEE调用,使上层系统更好更快地释放价值。 Q这么优秀的系统到底是如何实现的呢? AHALO系统采用从架构,分为Master端和Agent端。 Master端要做复杂的任务调度和控逻辑,并且所有功能都是模块化设计,用户可以根据自己的需求定制安装,包括虚拟化容器理,应用包理、部署、扩缩容、拓扑搭建和保活,集群控制等。 Agent端则以简为原则,弱化繁琐功能,仅作为任务的执行器,其中的supervisor组件,结合父子进程原理,做到自升级和自保活,把云维人员的工作量降到最低。 整个系统的工作流程也十分简洁优雅!Agent过定期心跳的方式,与Master进行信,在心跳发包中发送本机状态信息,在心跳回包中获取Master期望的本机状态plan,并把期望plan与本地实际plan进行对比,针对有差异的地方做相应修改,使二者保持一致,从而保证集群中所有机器最终状态一致。 总之一句话,一朝HALO在手,从此不用发愁。所有维需求,直接调用接口。
p****d 2018-07-11
机房故障自愈--维的春天
由此,Level 4智能自愈方案应而生。 机房故障自愈的架构 针对传统故障自愈方案中存在的问题,我们构建了机房故障自愈整体解决方案。 自愈方案过抽象、规范处理流程实现机房故障自愈的自动化,即将止损过程划分为统一的感知、决策、执行三个阶段;同时维知识库解决基础数据、基础设施差异化问题;过策略框架支持智能化异常检测、策略编排、流量调度问题,同时支持用户自定义策略需求。实现机房故障自愈的标准化、智能化。 在机房故障自愈--黎明之战提到的百度网络与业务架构情况,我们将整体流量调度止损架构拆分为3层:接入层、服务层、依赖层。 针对这3层的监控感知、止损决策与故障止损方式的不同,将止损自动决策拆分为外网止损自动决策与内网止损自动决策。 外网止损自动决策:覆盖接入层。基于外网、内网监控信号;触发外网止损决策器进行止损决策;执行DNS流量调度止损。 内网止损自动决策:覆盖服务层、依赖层。基于内网监控、基础监控、业务监控提供的故障信号;触发内网止损决策器进行止损决策;执行流量调度、备切换、弹性降级等止损操作。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
机房故障诱因众多不可避免 机房故障诱因众多,详细复盘若干机房故障发现故障诱因大致可以分为四类: 基础设施故障:物理机房故障、网络链路拥塞、流量转发基础设施故障等 程序缺陷:程序隐藏bug、程序性能严重退化等 变更故障:测试不充分的程序、配置、数据变更,人工临时介入的误操作等 依赖服务故障:第三方服务故障例如用的认证服务、支付服务、存储服务、计算服务故障等 机房故障止损可靠性与效率急需提升 人工处理场景下,维人员常选择7*24小时值班,接收大量的报警,随时准备在紧急情况下进行响应、决策、操作一系列故障止损动作,尽量挽回服务损失,降低故障影响。 但上述解决方案会面临如下问题: 响应可能不够迅速:例如夜间报警 决策可能不够精确:例如新手OP经验欠缺,误决策 操作可能出现失误:例如止损命令错误输入 “机器人”处理场景下,机房故障自愈程序可独立完成故障感知、决策、执行的完整故障处理过程,并及时向维人员同步故障处理状态。维人员的职责由处理转向理,最终维人员在低压力值班中保证服务稳定行。
嘟****y 2018-07-11
大型企业适用的云平台账户体系
账户大铺模式下,所有的平台短信和邮件都往一个账户发就行了,但现在要重新设计。我的一线技术工作经历并不依赖第三方(如云平台)知机制,对知功能的研究较少,所以我只能提出用性设计建议: a.别把平台维护知当做甩锅知,大客户会因此忙到鸡狗跳。 b.员工正常操作不要知到理员,自然人收到的信息太多会麻木。 c.员工执行摧毁核心资源等高危的操作要及时理员。 d.这些操作日志可以过API等方式对接到企业自身的平台。 e.合规和安全风险发送平台理员和资源池理员。 云平台有知机制就要有理权限,比如说某IP存在合规隐患,理员要能查看和操作该IP;否则平台理员只能组织各部门领导开会,平台的理员一般不是公司高,其处理速度和处理效果就很慢也很扰民了。 第五.其他随笔说明 a.过去云平台做计费和权限开发很繁琐,云平台支持精细控制后云平台的对接成本会瞬间降低,那些功能缺失又不是行业标杆的云平台会云平台被逐渐放弃接入。 b.有客户想给不同资源组做不同资源价,这是个弱需求,该需求技术实现繁琐且有客户可接受的变方法,比如子账户登陆只计量不计价,价格在心中。
w****t 2018-07-10
AIOps中的四大金刚
维工程师 在机房故障自愈项目中,维工程师基于日常维工作中所积累的场景、问题和经验,确定以机房故障止损作为要需求和突破口,过定义机房故障止损的问题域、解决思路以及风险点,明确AI可以发力的领域。 在完成问题域的定义后,维工程师需要跟踪整个机房故障自愈解决方案的落地,包括在策略设计前期提供数据标注支持,在中期进行效果的验收,在后期将机房故障自愈方案实际部署行到生产环境。 AIOps时代的职责和技能变化 维工程师承担线上服务质量的责任,是服务质量的关键保证。在工作过程中,会与研发、产品、营等各类角色、不同团队进行深度的沟和协作。 传统维中,维工程师的要职责分为三个方面:质量、成本、效率。 在AIOps落地实施中,维工程师是处于中心的角色,也赋予了新的职责,他们是AIOps具体实施的需求提出者和成果验收者。
m****t 2018-07-11
设计中立公有云云平台
第四附加云资源 前文的必要云资源是狭义但经典的云资源,其要目的是将物理资源抽象化输出资源池化调用。而另一些服务上云更多是技术上强调自己接入了VPC,或者强调自己开箱即用、无限扩容。云平台集成这些资源是为了节省用户人力和统一出账,在人力和工期紧张时,下列服务我们一个也不做,让用户自己在虚拟机上搭建;在人力和时间富裕状态,我们要认真评估如何接入服务。 依赖虚拟IP和共享硬盘的传统群集服务,比如多从MYSQL,Keepalived+Redis,Heardbeat+DRBD+NFS,Oracle RAC。前文在LB阶段已经讲过VIP无法在VPC网络里自由漂移,大部分云厂商又不太支持共享硬盘、心跳线等功能。云平台可以集成这些资源应对中小型客户需求,也可以直接建议客户机部署;重型用户需求产生了就不轻易变动,可以过云平台自测试、云厂商定制开发、接入混合云物理机等方式来个案独处理。 客户端旁观选举的自协商群集服务。最近十年出的新服务,以及一些老服务的Cluster版都在走向智能化群集的方向。
h****e 2018-07-10
程序:我从哪里来?
过部署在机器上的客户端感知到实例的状态变化(比如实例状态由0变成-1,即正常变成非正常),并将数据同步到系统中的分布式缓存,上游模块可以过查询redis.noah.all的实例状态结果,动过滤非正常的实例,也可以在BNS系统中发起屏蔽故障实例的操作,在查询过程中会自动过滤该故障实例。 在下一节中将具体介绍BNS系统的整体架构。 基本架构 BNS系统要包含几个部分:流量接入层,Web Server,存储层,代理客户端。 作为一个底层的基础服务,BNS系统每天的访问量近千亿次,这对系统的可用性提出了很高的要求,因而系统需要在各个层面有完善的容灾能力和流量控能力。 1流量接入层 系统过HTTP接口对外提供变更服务,用户过Web页面或者接口进行服务或实例信息注册。为了保证平台稳定和安全的行,需要对非法和异常请求进行拒绝,在流量接入层(Proxy)端提供了以下两个功能: 流量鉴权:每一个服务组、服务元、实例的注册都需要进行权限验证,用户只有申请了合法的Token才能允许访问,另外系统还提供了白名等其他的鉴权方式。
b****z 2018-07-11
智能维基础-维知识库之ETL
因此,依托『书同文』的理念建立维知识库,提供一个统一的维数据理系统,来维工作中的公共基础数据,打系统间的数据关联,使这些数据能够遵循统一的模型被共享和使用。 为了使这些数据能够遵循统一模型,我们制定了各类数据的模型(Schema),采用ETL机制从各系统获取(Extract)数据、转换(Transform)成统一的模型、并存储(Load)在知识库中,其架构如图所示。 这些维数据在建设时根据业务对数据时效性要求的不同,分为以下三种: 离线数据建设,例如用于维变更效率指标统计等相关的数据; 近线数据建设,例如故障诊断过程中依赖的数据; 实时数据建设,例如智能故障自愈、智能流量调度相关的路由数据等。 对于上述不同的数据我们采用不同的ETL方式,分别是: 拉(Pull ETL),周期性从数据源拉取数据,适用于离线数据的建设; 推(Push ETL),数据源动推送变更的数据,适用于时效性较高的近线数据建设; Federation(Lazy ETL),在查询时从数据源获取数据、按照Schema转换后并返回,适用于实时数据建设。
l****m 2018-07-10
五年前的预言——2012年云计算时代的维职位展望
我在写一篇新的文章,其中会引用到这篇2012年的旧文,所以我原样摘抄下来,很庆能转型进入云计算这个行业。 云计算的时代正在来临,维的工作也将在今后几年中发生翻天覆地的变化。 如果你是一个能给自己做的人,你必须看清形势顺势而为,在变革的时代埋头苦干仍然保证不了你的正常生活;如果你是一个弓骑兵,无论你怎么勤学苦练都打不过坦克手的;铁达尼号上的乘客无论多有钱,总是免不了泡进海水里的。 首先,我作为一个维为何唱衰维这个职业。 我们维靠什么能力在公司里自立哪? A.关心硬件和施工; B.关注网络问题; C.擅长系统和服务的调试维护; D.相对与架构师/DBA的价格优势; E.快速可靠的响应. 大家看看云计算能给企业带来的好处。 A.硬件完全免维护; B.网络接近免维护; C.系统、服务接近免维护; D.无论是硬件还是人力成本都很廉价; E.可靠性高于个人。 我们会发现,云计算的目标就是要做的比维人员更好,好到“不用关心”的地步。从技术上来说,各大云计算营商对用的Web、RDBMS、存储 服务都是可以做到很好的。
TOP