关于 隗闻兼职少妇包夜全套服务薇78792796凌海市特殊服务詹 的搜索结果,共656
疏****月 2018-07-09
一键上线Archer | 百度持续部署的瑞士军刀
干货概览 业部署(熟称上线)是运维领域最常见的业类型,主要涉及线上代码变更、配置文件变更(数据变更由于其高频、大量的点,我们已在数据传输文章《嗖的一下,让数据自动生效》中专门讨论过)。一般的业上线具有不定时操作、业部署情况复杂、单机启停策略复杂等点。在手工运维时代,运维人员需要花费大量精力进行此类重复性工作,且易于出错。从公布的数据显示,Google 70%的生产事故由上线变更触发,如何减变更过程中人为误操作,提供一个灵活、稳定的部署系统是运维平台研发人员所亟需解决的问题。 基本介绍 在运维自动化的大潮下,百度运维管理平台Noah发布了一键上线部署系统——Archer。Archer致力于提供一产品线过程的可迁移发布解决方案,实现一键完成机器初始化、部署、添加模块监控、添加CT任、动态数据文件的分发等过程的自动操作。在操作方面,Archer提供了命令行工具作为发起一次上线的操作入口,这种设计模式也决定了其易于集成的点。在DevOps流水线作业中,Archer可以作为一个环节结合进整条测试发布流水线中。
h****e 2018-07-10
程序:我从哪里来?
干货概览 在计算机程序或者的层次上,我们来试着分析前面提到的几个问题。 问题 1.我是谁? 叫什么,含了哪些实例,规模、部署情况、实例运行状况如何? 2.我从哪里来? 的上游有哪些,不同的上游流量如何分配? 3.我往哪里去? 的下游有哪些,不同的下游流量如何分配? 面对这样的问题,我们的答案是什么呢? 在百度的运维实践中,我们只需“BNS”就可以获得想要的答案。 BNS(Baidu Naming Service,百度名字)是百度云智能运维团队研发的一分布式的名字系统,是百度云Noah智能运维产品中的一个重要基础系统。它为每一个赋予一个独一无二的名字,根据这个名字,我们就可以获取到这个的相关信息 ,这些信息括:在机器上部署信息(机器IP,部署路径,配置,端口信息),的实例运行状况等其他重要信息。简单来讲,它提供了一个名到资源信息的一个映射关系。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
直接损失括访问流量丢失、商业收入下降、用户体验受损、打破等级协议(SLA)造成的商业赔付等,间接损失括用户信任度下降、给竞品占领场机会等。 单机房故障诱因众多不可避免 单机房故障诱因众多,详细复盘若干单机房故障发现故障诱因大致可以分为四类: 基础设施故障:物理机房故障、网络链路拥塞、流量转发基础设施故障等 程序缺陷:程序隐藏bug、程序性能严重退化等 变更故障:测试不充分的程序、配置、数据变更,人工临时介入的误操作等 依赖故障:第三方故障例如通用的认证、支付、存储、计算故障等 单机房故障止损可靠性与效率急需提升 人工处理场景下,运维人员通常选择7*24小时值班,接收大量的报警,随时准备在紧急情况下进行响应、决策、操作一系列故障止损动作,尽量挽回损失,降低故障影响。 但上述解决方案会面临如下问题: 响应可能不够迅速:例如间报警 决策可能不够精确:例如新手OP经验欠缺,误决策 操作可能出现失误:例如止损命令错误输入 “机器人”处理场景下,单机房故障自愈程序可独立完成故障感知、决策、执行的完整故障处理过程,并及时向运维人员同步故障处理状态。
w****0 2018-07-11
单机房故障自愈-黎明之战
本文主要介绍单机房故障自愈前需要进行的准备工作,具体括: 单机房容灾能力建设中遇到的常见问题及解决方法 基于网络故障及业故障场景的面故障发现能力 百度统一前端(BFE)和百度名字(BNS)的流量调度能力 单机房容灾能力--常见问题 单机房故障场景下,流量调度是最简单且最有效的止损手段,但我们发现业线经常会遇到如下问题导致无法通过流量调度进行止损: 1.存在单点 描述:系统内只有一个实例或者多个实例部部署在同一物理机房的程序模块即为单点。 问题:单点所在机房或单点自身发生故障时,无法通过流量调度、主备切换等手段进行快速止损。 要求:浏览请求的处理,不能存在单点;提交请求的处理,若无法消除单点(如有序提交场景下的ID分配),则需要有完整的备份方案(热备或者冷备)保障单机房故障时,可快速切换至其他机房。 2.跨机房混联 描述:上下游之间存在常态的跨机房混联。 问题:逻辑单元未隔离在独立的物理范围内,单机房故障会给产品线带来局性影响。同时流量调度也无法使得恢复正常。
M****点 2018-07-10
中国云计算现状——产品篇
前言 上篇文章《中国云计算现状——成本篇》(大号首发改名为《做好云计算要花多钱》)讲的是成本问题,即什么企业有可能能做云计算。本文是第二篇产品篇,目标客户是云计算产品经理和云计算标准用户。我从一个老用户的角度谈谈每种云计算产品该如何使用,哪些产品改进是刚需放心吐槽,哪些产品有内因就是改不了。本文主要说用云产品的问题,买云产品的问题在采购篇单聊。 正文 现在是2017年,云计算是物理硬件的优质替代方案,客户很认可云计算极低的采购和交付成本优势。这时候我们要被企宣PPT洗脑,追求华而不实的远景,这些PR文章的受众是风险投资、客户决策层和创业者。我们应该摸清楚云方案和硬件方案比有什么点和局限性,客户明白点才能使用得心应手,客户明白局限性才会早作备用方案,产品经理心里不慌才会关注核心功能。 一、IaaS产品 IaaS平台的本质是,产品以做硬件资源的虚拟化为本,业上承接物理硬件替代需求,其优势是最快速度最低成本交付,客户为预占的物理资源付费。IaaS产品是最经典的云计算,核心组件是云主机,如虚拟网络、云硬盘和安组都是为支撑云主机业的。
流****水 2018-07-11
度云企业级运维平台——NoahEE
不同角色(责)的运维人员之间如何协同操作? 对于故障处理与修复,NoahEE通过故障自动发现与工单流程解决了上面的问题。系统自动探测故障放入故障池,并建立故障工单,由相应的人员进行操作。另外,NoahEE提供了不同的工单流程覆盖了日常机房运维中的操作,从设备采购入库、上架、机架变更,直到设备下架、出库生命周期覆盖,做到所有运维操作记录可追溯。有了资产管理,运维人员可以在器完成入库、上架工单后即可在管理中看到该器并进行管理,无须任何其他操作。一图胜千言,我们看看资产管理的点: 图3 资产管理 部署管理 应用部署一直是运维工作中的重点,一般来说,我们面临的问题有: 批量部署难,怎样定位目标机器?如何快速部署? 灰度测试难,怎样通过灵活的部署方式,先进行小流量线上测试,待效果达到预期后再扩大部署? 回滚难,发现问题后怎样回滚? 上面的第一个问题,实际上在管理中已经解决了,也就是说管理帮我们完成了资源定位工作。其他的问题,NoahEE的部署管理模块通过“分级发布”来解决。
追****圣 2018-07-11
给书记省长讲清楚云计算
人不仅要住房子还可以盖房子,不仅会逛超也会开菜场。 政府和大型国企不仅能采购云计算,早晚也会走向发展云计算的路。 本文不谈任何技术细节和商业情怀,而是从政企的角度说明什么是云计算。 本文含如下内容。 从大时代背景来看什么是云计算,云计算为什么会兴起。 云计算如何带动地方经济,这是个不需要物流就可以球的行业。 做云计算要满足哪些条件,如何才能筑巢引凤。 挑选合格的云计算合作厂商,每类厂商有哪些点。 云计算不是万能药,它无法解决哪些问题。 什么是云计算 近20年来,互联网引爆了球的信息技术革命,我国借助这次技术革命的大好机会,已经追上乃至领跑此次技术革命。 互联网技术深刻的改变着我们的生活,其行业生态也在逐步分化扩大,这一现状客观促进了云计算技术的发展。 上世纪80年代,计算机仅应用于科研等数行业,国计算机从业人员不超过万人,从业人员大都有很深的学术背景。 上世纪90年代,门户、论坛、邮件系统开始影响部分群众的生活,国内从业人员约为十万人,可以分为软件和硬件两类工程师。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前都荒废了,因为卡得一匹。
s****d 2018-07-11
亿元级云用户分析
我们先列出来哪些资源是单体贩售能过亿的,云厂商把这些资源和其他的软件资源做打混淆集中交付,云厂商就不是卖资源而是卖梦想了。 3.1 IaaS计算池 IaaS计算池,交付给客户的是CPU+内存+本地盘+本地网+IDC电力,产品形式可以是虚拟机、裸金属、容器,或者预装了数据库-大数据-队列等的模板化云主机,决定资源池成本的是硬件和电力的价格,以及内部浪费程度。销售铁三角对硬件资源池的装,完成资源成本分析、交付展示和付款周期核算;在硬件资源池交付时,云厂商的优势长处是大规模交付和成本控制,至于短处么——家家有本难念的经。 3.2 CDN和带宽池 CDN和带宽池不同于器硬件,其原始资源是相对稀缺死板的广域网带宽,其交付的资源是持续不断的,所以资源部署比较慎重但客户流动成本较低。制约客户量迁移的是厂商的承载能力,而挖角和反挖时刻都在细水长流。CDN和带宽池首先考察的是企业内功,有没有廉价量资源;再考验销售内部协调能力,能不能把好资源好价格抢到手里;而盯客户的路和百万级销售类似,工作力度加大三五倍而已。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
NTPD是一个时间同步,ntpdate是个时间同步命令。很多工程师都会采用Crond+ntpdate的方式同步时间,究其原因是“NTPD不太好用”。 而我不喜欢用ntpdate同步时间的工程师,NTPD是一个体系化的,而ntpdate只是一个动作,大部分人没做好为ntpdate这个动作负责。 正常的时间是个持续增长的向量,即老时间t1肯定小于新时间t2,新时间t2也小于最新的时间t3,而且t1必定会渐进增长到t2和t3。除了数商业数据库自带时钟源以外,大部分业对系统时间是盲目信任,不相信t1会越过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序健壮性和业性,甚至部分程序崩溃的稀里糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目信任;假设一个根NTP不稳定,所有的器获得了错误的时间,虽然现在业层可以容异常,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
前言 云计算是一种不仅要一次性验收其能力,还要持续关注其品质。客户用IaaS云就跟用IDC一样,用谁家的云就知道谁家有故障,用一家就知道一家的短处才是正常,只有前一个厂商烂到无可救药,客户才会对新厂商充满认可和感激。 本文的目的就是归类IaaS云故障的表层现象和深层原因,客户知道云的短板才好做系统设计,云厂商出故障也要老实认错,别总把客户当外行来糊弄。 至于PaaS云和IaaS云的设计实现思路完不同,不在本文讨论范围内。 客户的感知和建议 IaaS云的核心资源是云主机,其他IaaS资源都是依附于云主机的;云主机的可靠性略高于物理机,但并不是云主机永不宕机。 只要云主机采购量稍微上规模,云主机用户总会遇到一些故障。请谅解和忘记供应商的营销话述,云主机用户必须自己在架构设计层面规避这些故障。 网络抖动 现在云平台已经都用SDN组网,SDN本质是“软件定义网络”,其主打卖点是灵活管理和控制,其性能和稳定性并不是主打方向,SDN软件的质量也要略差与于传统厂商。云平台都会有网络IO超卖复用,而且用器CPU软解量报文,其性能还是比传统网络略差的。
小****园 2018-07-10
让PB级云存储不再神秘
窃取用户数据指的是监守者自盗后自用,要是泄露给第三方那是安事故可以直接报警抓人,但平台方自用用户数据很难抓现行。云存储里大都是多媒体数据,谁敢盗播打官司就好;日志文件加密了就用不了云端大数据分析了,但不挂个人信息的基因测序样本被偷了也不怕。如果客户真的别害怕丢数据,云平台确实没手段能自证清白,谁偷过用户数据只能听业内风。 真正让用户头疼的是平台方会根据计费日志估算你的业规模,就像小区保安总共能看到你何时出门一样。据不可靠传,某厂商本来能拿到某云厂商母公司数亿美元投资,自吹数据量有数PB,该司投资部去调了一下他们的消费金额就取消投资了。单一个消费总金额就这么麻烦,访问日志可以看文件数量、用户规模分布和大致的动作类型,一个新兴企业最好还是把业分散在两个厂商那里,毕竟他们两家不能核对你的账单。 最后一条就是有些领先大厂直接压制,故意做技术无关的不容、甚至拒绝、甚至从其他层面正面打压业。这里就不举例了,太明显针对单一厂商。如果只是技术不容那算和其他云平台恶意竞争,如果到了云平台明抢客户自身业的阶段,技术采购决策人请把风险告知公司决策层,该妥协还是硬扛不是你的责范围。
h****8 2018-07-10
能力比梦想更重要——企业级难寻产品经理
:产品经理需要晨从床上跳起来十次,然后手机静音漏掉一次故障,才会对监控频繁误报有切肤之痛。 利害关系:缺乏详细监控信息和故障处理功能,没漂亮的监控页面和月度报告,监控部门只能依赖其他部门排障,又被被公司领导视作闲,没业绩没晋升也没新HC。 我举的第二个例子是一个网店仓库拣货发货系统的合格产品经理: 技术:对IOT传感器、图像识别技术、网店ERP系统有足够了解。 业:对拣货员的拣货路径、数量、看单还是听单、错误信息处理有充分的了解,自己至要做三天拣货员,仓库里的纸板味能熏得你睁不开眼;如果做农业IOT,可能是要养三天的猪,拌猪食扛死猪都要干一干。 利害关系:了解分拣员需要这系统更无脑的拣货,小组长需要用系统约束的分拣员,公司需要这分拣系统更快周转货物。而你既要让客户内部三方满意,也要通过工作的简化明细化,引入自己公司更多的IOT和图像识别设备,甚至用机器人取代一部分人力工作。 某些水货会说这是售前和解决方案的工作,人家跟你又没有隶属关系,凭什么帮你解决就业问题,产品经理要自己调研和汇总客户的合理需求。 2.
若****客 2018-07-10
IT架构的本质--我的五点感悟
应用不可靠,如果该应用能快速重建也不阻塞其他应用,月级偶发的内存泄漏和意外崩溃都是可以接受的。 支撑性不可靠,对于大部分业,预估一年都不丢一次数据,SLA能到99.95%就可以了。 操作系统故障崩溃,现在商用系统内核都很稳定,一般故障都出在硬件驱动容性上,或者有些照本宣科的傻瓜乱改默认参数。 网络不稳定,内网通用的技术方案很成熟,提复杂需求内网就能很稳定,我们最烦的是单条网线处于半死不活状态;IDC的外网SLA默认就是3个9,所以我说支撑性能到99.95%就已经很可靠了。 硬件不稳定,大部分架构师根本不懂硬件,只要不出硬件批次故障,架构师就可以将单点硬件和系统、绑在一起做可靠性设计。 人力误操作,我们招不到不出故障的人,我自己达不到不出错的标准。只要员工没有恶意破坏,出了大范围故障就是群集健壮性设计不到位,别让操作工给技术总监和架构师顶。 监控和备份是运维的责,但架构师需要帮忙确认目的正确性,别备份了半天废数据,监控只看telnet80。 结束语 架构之术繁琐,架构之道浅显 本文讲的是架构工作的“道”,对与架构之“术”并不提及。
l****m 2018-07-10
五年前的预言——2012年云计算时代的运维位展望
当前云计算技术的势头很好,但因为技术和场等原因还需要慢慢发展,而且云计算做的是“锦上添花”的事情,企业用不用云计算对自身业功能影响不大。我们运维人员从做事的可靠性、有局意识,凭借这些性仍然能活的很好。运维这个岗位可能会消失,但做过运维的人还是有很多路可以走的。 大家都知道黑云压城也该未雨绸缪了,如果你已经是个运维老鸟或者很快就投身运维工作,我建议大家往这几个方向上动动脑子: 1、企业采用公有云方案后,仍然需要一个懂行的人解决公有云平台的监控、评估、采购、报修这类问题。但这个位应该一个公司公司只需要一个人,且再等上十年云计算彻底标准化后还会再次消失。当然了,我相信能胜任这个岗位的人,在云计算已经规范到不需要专人维护的时候,他们也会有能力找到更合适的岗位。 2、进行云计算器维护;几大云供应商自己也要维护器,那些大中型企业肯定会自己做私有云,在这个云计算平台里也是需要运维人员进行从低端监控到高端架构的一系列维护工作,但自动化运维技术会让运维人员的数量大大减,可能每个公司都只有一两个小团队了。
w****t 2018-07-10
AIOps中的四大金刚
通用框架无法满足所有需求 部分业线需要对原有的策略进行部分重写才能够满足需求。例如,部分业在流量调度时,需要联动降级来满足容量需求,这就需要额外增加降级联动的逻辑。 那么,就需要运维研发工程师出手来解决这个问题。根据业线的实际情况,对策略和参数进行配置和调优,对通用框架无法满足的需求,进行定制化研发,使得单机房故障自愈方案能够实际应用在不同业线上。 AIOps时代的责和技能变化 运维研发工程师负责基于业线征的运维研发工作,在传统运维中,是运维自动化的实施者,实现了针对业场景的自动化运维实施落地。 在AIOps时代,运维研发工程师承担了AIOps智能化运维解决方案在业线实施落地的责。他们是AIOps场景的实践者,将AIOps解决方案与业架构征相结合,实现AIOps在业线的落地。 一方面,他们会与运维工程师紧密配合,对业问题进行深度分析,理解业点。另一方面,他们与平台研发工程师、AI工程师相配合,基于AIOps解决方案的策略和框架,进行定制化开发,使其适合自身业线的征。
p****d 2018-07-11
单机房故障自愈--运维的春天
干货概览 在单机房故障自愈--黎明之战中,我们介绍了单机房故障自愈的准备工作和基础设施,括容灾能力建设、监控平台以及流量调度平台。本篇主要介绍单机房故障自愈的具体解决方案,内容括: 单机房故障止损的能力标准 单机房故障自愈的整体架构 单机房故障自愈的常见问题和解决方案 单机房故障止损的能力标准 在单机房容灾能力、故障发现能力、流量调度能力基础上,业线具备了通过流量调度进行单机房故障止损的条件。理想情况下,我们希望构建一完整、自动、智能的自愈方案,但各个业线的点不同和基础能力参差不齐,很难一蹴而就,所以我们建立起一自愈能力的等级标准,业线根据自身情况制定相应建设计划,逐步提升自愈能力。 自愈能力等级标准划分为5级,从Level 0的完人工止损,到Level 4的自动化、智能化止损。对于Level0、Level1,人工感知止损面临着速度慢、误操作、场景覆盖不、风险控制能力不足等问题;、Level2则实现了止损操作的平台化、预案化,一定程度上提升了止损效率;Level3则实现了自动化报警联动故障止损,实现了止损效率的进一步提升。
布****五 2018-07-10
如何执行一条命令
部署过程可以拆解为两个小的步骤,一是新软件的上传,二是进程的重新启动。进程的重新启动不必多说,软件的上传可能有多种方式,如sftp的集中式,p2p的点对点式等。 监控采集 软件运维过程需要时刻监控系统及业软件的运行状态,各种运维决策都是以这些数据为依据进行的。随着自动化运维的发展,很多运维动作都从人工执行变为了自动执行,自动执行的决策过程更是需要采集大量的实时信息(前期文章《百度大规模时序数据存储》中介绍的TSDB就是为了解决这些数据的存储问题而研发的)。监控数据的来源主要分两种,一种是通过业软件提供的接口直接读取状态数据,另一种是通过日志/进程状态/系统状态等(如使用grep提取日志,通过ps查询进程状态,通过df查询磁盘使用等)方式间接查询。 无论是配置管理、部署变更还是监控采集,都有一个共同的目的:控制器。在现阶段,要想对器进行控制,离不开“在大量器上执行命令并收集结果”这一基础能力,这也是今天我们的主题“如何执行一条命令”的意义所在。
TOP