关于 小妹找服务全套【v信78792796】溧阳溧城特殊服务bkda 的搜索结果,共792
h****e 2018-07-10
程序:我从哪里来?
干货概览 在计算机程序或者的层次上,我们来试着分析前面提到的几个问题。 问题 1.我是谁? 叫什么,包含了哪些实例,规模、部署情况、实例运行状况如何? 2.我从哪里来? 的上游有哪些,不同的上游流量如何分配? 3.我往哪里去? 的下游有哪些,不同的下游流量如何分配? 面对这样的问题,我们的答案是什么呢? 在百度的运维实践中,我们只需“BNS”就可以获得想要的答案。 BNS(Baidu Naming Service,百度名字)是百度云智能运维团队研发的一分布式的名字系统,是百度云Noah智能运维产品中的一个重要基础系统。它为每一个赋予一个独一无二的名字,根据这个名字,我们就可以获取到这个的相关息 ,这些息包括:在机器上部署息(机器IP,部署路径,配置,端口息),的实例运行状况等其他重要息。简单来讲,它提供了一个名到资源息的一个映射关系。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
在传统的运维方式中,由于故障感知判断、流量调度决策的复杂性,通常需要人工止损,但人工处理的时效性会影响的恢复速度,同时人的不可靠性也可能导致问题扩大。 为了解决这类问题,我们针对百度内外部网络环境建设了基于智能流量调度的单机房故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业指标监控构建了方位故障发现能力,基于百度统一前端(BFE)与百度名字(BNS)实现了智能流量调度与自动止损能力。同时,基于实时容量与实时流量调度自动止损策略与管控风险,实现了任意单机房故障时业均可快速自愈的效果。当前此解决方案已覆盖搜索、广告、息流、贴吧、地图等众多核心产品的单机房故障自愈场景。 单机房故障频发影响业可用性 回顾近2年来各大互联网公司被披露的故障事件,单机房故障层出不穷。例如: 2015年6月某公司云香港IDC节点电力故障崩溃12时 2016年5月某公司杭州电接入故障,中断时级别 2017年1月某业天津机房故障,数时无法提供 2017年6月北京某处机房掉电,多家互联网公司受影响 单机房故障频繁影响业的可用性并且会给公司带来直接或间接的损失。
疏****月 2018-07-09
一键上线Archer | 百度持续部署的瑞士军刀
干货概览 业部署(熟称上线)是运维领域最常见的业类型,主要涉及线上代码变更、配置文件变更(数据变更由于其高频、大量的点,我们已在数据传输文章《嗖的一下,让数据自动生效》中专门讨论过)。一般的业上线具有不定时操作、业部署情况复杂、单机启停策略复杂等点。在手工运维时代,运维人员需要花费大量精力进行此类重复性工作,且易于出错。从公布的数据显示,Google 70%的生产事故由上线变更触发,如何减少变更过程中人为误操作,提供一个灵活、稳定的部署系统是运维平台研发人员所亟需解决的问题。 基本介绍 在运维自动化的大潮下,百度运维管理平台Noah发布了一键上线部署系统——Archer。Archer致力于提供一产品线过程的可迁移发布解决方案,实现一键完成机器初始化、部署、添加模块监控、添加CT任、动态数据文件的分发等过程的自动操作。在操作方面,Archer提供了命令行工具作为发起一次上线的操作入口,这种设计模式也决定了其易于集成的点。在DevOps流水线作业中,Archer可以作为一个环节结合进整条测试发布流水线中。
追****圣 2018-07-11
给书记省长讲清楚云计算
当前云计算公司聚集在一线大市,环境规范稳定但成本极高竞争压力极大,云计算企业也在尝试向二三线转移突围。二三线市不仅要积极准备云计算硬性资源,还可以用合作融资、税收优惠等等灵活政策承担产能转移的,最终说云计算公司将GDP和税收留在当地。 云计算平台提供的都是互联网,大量的互联网部署在本地会有极大的管控压力。二三线市对互联网还只是简单的管控,稍有不解可能就会封禁一大批互联网,但一道封网命令就可以毁掉一个云计算公司的声誉。如果当地政企要做好云计算就要从管理者变为者,必须在管控违规违法时不惊扰正常业,甚至主动出击为正常网络保驾护航。 前几条都是从降低成本可靠的角度请云计算企业来合作建厂,如果你有市场有客户那对方会主动上门寻求合作。从长周期来看云计算的客户是覆盖行业的,各地内部采购的计算机项目根本不值一提,市场和客户要靠云计算厂商自己去。但现在云计算厂商还在早期扩张摸索之中,云厂商极端渴求各种政云企业云成功模式案例,一旦摸出来案例会迅速推广到国。
w****0 2018-07-11
单机房故障自愈-黎明之战
本文主要介绍单机房故障自愈前需要进行的准备工作,具体包括: 单机房容灾能力建设中遇到的常见问题及解决方法 基于网络故障及业故障场景的面故障发现能力 百度统一前端(BFE)和百度名字(BNS)的流量调度能力 单机房容灾能力--常见问题 单机房故障场景下,流量调度是最简单且最有效的止损手段,但我们发现业线经常会遇到如下问题导致无法通过流量调度进行止损: 1.存在单点 描述:系统内只有一个实例或者多个实例部部署在同一物理机房的程序模块即为单点。 问题:单点所在机房或单点自身发生故障时,无法通过流量调度、主备切换等手段进行快速止损。 要求:浏览请求的处理,不能存在单点;提交请求的处理,若无法消除单点(如有序提交场景下的ID分配),则需要有完整的备份方案(热备或者冷备)保障单机房故障时,可快速切换至其他机房。 2.跨机房混联 描述:上下游之间存在常态的跨机房混联。 问题:逻辑单元未隔离在独立的物理范围内,单机房故障会给产品线带来局性影响。同时流量调度也无法使得恢复正常。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
NTPD是一个时间同步,ntpdate是个时间同步命令。很多工程师都会采用Crond+ntpdate的方式同步时间,究其原因是“NTPD不太好用”。 而我不喜欢用ntpdate同步时间的工程师,NTPD是一个体系化的,而ntpdate只是一个动作,大部分人没做好为ntpdate这个动作负责。 正常的时间是个持续增长的向量,即老时间t1肯定于新时间t2,新时间t2也于最新的时间t3,而且t1必定会渐进增长到t2和t3。除了少数商业数据库自带时钟源以外,大部分业对系统时间是盲目任,不相t1会越过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序健壮性和业性,甚至部分程序崩溃的稀里糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目任;假设一个根NTP不稳定,所有的器获得了错误的时间,虽然现在业层可以包容异常,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前都荒废了,因为卡得一匹。
流****水 2018-07-11
度云企业级运维平台——NoahEE
一图胜千言,我们看看资产管理的点: 图3 资产管理 部署管理 应用部署一直是运维工作中的重点,一般来说,我们面临的问题有: 批量部署难,怎样定位目标机器?如何快速部署? 灰度测试难,怎样通过灵活的部署方式,先进行流量线上测试,待效果达到预期后再扩大部署? 回滚难,发现问题后怎样回滚? 上面的第一个问题,实际上在管理中已经解决了,也就是说管理帮我们完成了资源定位工作。其他的问题,NoahEE的部署管理模块通过“分级发布”来解决。在部署管理模块中,我们可以方便的定义并发度、部署步骤、影响范围以及暂停操作等,在部署的过程中发现问题即可暂停并回滚至之前的状态。除了部署等操作,部署管理模块还提供了批量执行命令等操作(比如批量启停某一)。如图来总结部署系统的能力: 图4 部署管理 监控管理 在任何工作里,息掌握的面与否往往关乎到工作的成败。“知己知彼百战不殆”这句话说的就是这个道理。运维工作中,监控系统就是这个让我们做到这点的关键。软硬件是否工作正常,出了问题是否能及时发现与报警,甚至是对异常事件等进行提前预测,都仰仗监控系统。
M****点 2018-07-10
中国云计算现状——产品篇
最常见的PaaS是数据库,最重要的PaaS是对象存储,最成熟的PaaS是CDN,最有魅力的PaaS是Serverless,我们重点看这四个。 一个经典PaaS应该只是一个进程,进程是无法长期存储数据的,量结构化数据依赖数据库存储,海量数据依赖对象存储。 云数据库(如RDS)很重要但想象空间有限,因为企业里已经有数据库和DBA了,DBA并不任云端未知架构数据库的性能、稳定性和数据安性,而且企业仍然需要DBA承担设计维护工作。 对象存储是新兴需求,企业里本来就没大规模对象存储搭建能力,而且对象存储对应用程序友好上手简单,客户对它是积极拥抱甚至业依赖。一旦用户在对象存储平台堆积了上TB的数据,大数据和AI分析应用自然就部署上来了。广域网传输稳定性不够成本又过高,只能是计算组件跟着存储就近部署,PaaS云创业公司从对象存储入手才更有客户粘性和横向扩展空间。 大数据类PaaS类似于云数据库,用户要自带海量数据过来,Mapreduce过程和结果又都要用户负责,最终客户觉得云平台什么都没做,大数据PaaS都用成IaaS定制模板虚拟机了。
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
如果甲方给够钱了,乙方仍然用劣质硬件IDC和过高超售比,云厂商一般是老板带头节俭,而大云厂商很可能是执行层的人弄错了,作为甲方该闹就要闹。 人为原因 云厂商的人为故障总是糊涂账,但细心的甲方是能看出来端倪的。有时候厂商想遮蔽技术和资源的问题,会说是人为原因,缓过这一次故障赶紧修订BUG和准备资源;有时候明明是人为原因,但人为故障都是打脸实锤,厂商脸会肿而且要赔偿,可能会个其他原因来给脸部降降温。 对于落实是人为导致的故障,甲方单纯的索赔追责并不能解决问题,因为云厂商总是比甲方的实际损失更,甲方无法触及云厂商能倒腾出故障的部门。甲方只能根据云厂商销售和线的能力和态度,确认自己交钱了能否买到靠谱的。 最重是商誉 云计算既是资源又是,资源相对可以量化,但短期内看直观感受,长期看商业誉。商誉分为企业商誉和个人商誉,云厂商的企业商誉都积淀不足,胜者也是比烂大赛中靠友商更烂胜出的,和IDC/CDN的比优大赛无法相提并论。大客户在吃够了厂商的亏以后,会选择任能有个人商誉,能做出承诺、调动资源和平复问题的销售和人员。
s****d 2018-07-11
亿元级云用户分析
硬件和系统管理——硬件是标准还是配、产权是租是卖、内网代维还是自主设计、器交钥匙还是黑盒——不同的客户项目需求,导致硬件管理和监控不同于传统方案也不同于其他云项目。 广域网联通方案——云厂商大都是互联网出身,他们拥有DDOS的资源和统一前端的实践经验,还有海量廉价优质带宽。限制客户梦想的是老旧系统是否支持常见协议,还有底层工程师能否推动上层业测试和变动。 API调用PaaS——API云就是不可控过程的黑箱,客户没预算没精力就盲目任云厂商。客户有精力就做多云冗余校验,有预算就做专有资源池部署;未来云厂商还会自定义SLA标准——大部分API云连等待超时都没定义。 版本发布和数字化转型——无论是微观的版本发布还是宏观的数字化转型,其实都和上云没直接联系,一个是室内装修工作,一个是新建房屋工作,但装修的最好时机是房屋重建的时候,云厂商要帮客户推动IT技术革新。 5.输出分析 云厂商输出给客户的即有云端IT资源,也有平台输出。是个比资源更难量化的概念,我只引一把火苗出来。
M****H 2018-07-11
故障定位场景下的数据可视化实践
基于上面的需求,可以总结为以下三个定位的层次,从整体到局部逐步缩故障范围,到故障根因: 局问题定位:快速确认线上状态,缩故障判定范围。为可能的止损操作提供判断依据。本文会介绍如何构建一个景分析仪表盘。 细分维度定位:通过分析地域、机房、模块、接口、错误码等细分维度,进一步缩问题范围,确定需要排障的目标模块、接口等。本文会介绍如何基于多维度数据可视化解决维度数量暴增带来的定位难题。 故障根因确认:一些情况下,问题的根因需要借助除监控指标之外的数据进行分析。例如上线变更、运营活动导致的故障。本文针对导致故障占比最高的变更上线类故障进行分析,看如何快速到可能导致故障的变更事件。 景掌控缩范围 对于一个乃至一条产品线而言,拥有一个布局合理、息丰富的景监控仪表盘(Dashboard)对于状态景掌控至关重要,因此在百度智能监控平台中,我们提供了一款可定制化的、组件丰富的仪表盘。 用户可以根据征,自由灵活的组织仪表盘布局,配置所需要展示的数据息。
小****园 2018-07-10
让PB级云存储不再神秘
云存储都对接多媒体处理,市面上的多媒体处理大都用imagemagick和ffmpeg,各家的主体功能趋同,细节毛刺上区别的这个级别的用户感觉不出来,有新需求也会被礼貌性无视。 对象存储的业形态很容易被平台方窃取数据,即使你做了数据加密也可以根据你的计费日志评估你的业量,但你现在只有G级别的数据,暂时不用考虑太多厂商中立性。 容量数据也很容易迁移,假设你要从云存储迁移100G的数据到虚拟机,总成本不超过300元,迁移时间也可以控制在一天以内。有了方便迁移这个性,云存储平台有什么让你不爽的,直接迁走。 2、中型用户三思后行 GB级用户不在意的坑,TB级用户部要踩一遍;而TB级客户在面对繁杂市场宣传,很难看透云存储的本质内容。对象存储都是用API接口调用,普通用户看不到也不关心群集规模和技术细节。大家读完本文以后可以更理性和警惕的评估云存储供应商。 首先说数据持久性和安性不用太关心。云存储厂商都宣称数据可靠性超过10个9,在我看来各种SLA超过8个9就已经比第三次世界大战的几率还了; 平台说自己能到多少个9,我们都笑笑就好,故障出来了平台总能到理由的。
h****8 2018-07-10
能力比梦想更重要——企业级难寻产品经理
:产品经理需要凌晨从床上跳起来十次,然后手机静音漏掉一次故障,才会对监控频繁误报有切肤之痛。 利害关系:缺乏详细监控息和故障处理功能,没漂亮的监控页面和月度报告,监控部门只能依赖其他部门排障,又被被公司领导视作闲职,没业绩没晋升也没新HC。 我举的第二个例子是一个网店仓库拣货发货系统的合格产品经理: 技术:对IOT传感器、图像识别技术、网店ERP系统有足够了解。 业:对拣货员的拣货路径、数量、看单还是听单、错误息处理有充分的了解,自己至少要做三天拣货员,仓库里的纸板味能熏得你睁不开眼;如果做农业IOT,可能是要养三天的猪,拌猪食扛死猪都要干一干。 利害关系:了解分拣员需要这系统更无脑的拣货,组长需要用系统约束的分拣员,公司需要这分拣系统更快周转货物。而你既要让客户内部三方满意,也要通过工作的简化明细化,引入自己公司更多的IOT和图像识别设备,甚至用机器人取代一部分人力工作。 某些水货会说这是售前和解决方案的工作,人家跟你又没有隶属关系,凭什么帮你解决就业问题,产品经理要自己调研和汇总客户的合理需求。 2.
布****五 2018-07-10
如何执行一条命令
支持回调,要求支持自定义用户回调,如任执行失败调用相应回调接口。 除了以上的业需求外,一个分布式系统的搭建,还要考虑可用性、可扩展性、性能、一致性等方面的硬性要求。 如何解决 为了解决这个简单的难题,我们设计了如图3所示的百度集群控制系统(Cluster Control System,简称CCS系统),通过分离控制息与执行息建立了两级数据模型,结合命令执行及机房部署点建立了四级传输模型,通过三级守护方式建立了稳定的执行代理,在大规模器集群上解决了“命令三要素”问题。 图3百度集群控制系统架构 截至目前,CCS系统已经部署在百度的所有机房中,用户可以方便的在任意一台机器上进行秒级命令下发和结果收集,日均承载数亿次来自各产品的接口调用。关于数据模型、传输模型、执行代理这“分布式命令三要素”的设计及应用,我们将在下一篇文章中详细介绍。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动过程
遇到过几次倒霉事以后,我习惯用dd备份每台器的前512字节,但自从我做完备份以后,就再也没倒霉过。 4.GRUB引导启动vmlinuz内核。 GRUB2如果细说有stage1、stage1.5、stage2多个步骤,我们可以简单认为前面两步是为了苟到stage2加载为止。 我们用GRUB来选定要加载的内核,并向其传递大量启动参数,这样就可以在多OS、多Kernel、多runlevel之间来回切换。网上的GRUB调试教程都集中在这一步,我们还可以直接传参以单用户模式启动,直接无密码登陆器。 有些人习惯给/boot一个128M的分区,可能是老师的老师说过这样比较“安”。那是在更早的版本GRUB程序读不了GB级磁盘分区,没办法加载vmlinuz内核,现在已经只是一个迷而已。 5.内核启动加载驱动,但这还没触及任何业。 不同硬件同一个版本的vmlinuz内核hash值是相同的,因为驱动息放在initrd*.img里。Initrd*.img是一个精简但带了所有驱动的linux镜像,一般系统安装完之后自动生成,也可以事后手动生成。
p****d 2018-07-11
单机房故障自愈--运维的春天
2.即使按照容量进行调度,过载仍可能发生,容量数据本身存在一定误差,流量成分的变化以及变更等导致的容量退化,都可能导致原先容量无法完。 【解决方案】 基于容量水位的动态均衡 在流量调度时,对于容量不准确存在的风险,我们划分两条容量警戒线。 安水位线:流量处于在安线以下则风险较,可以一步进行切换。 水位上限:该水位线表明的最大承载能力,一旦流量超过故障水位线,很大概率会导致容量过载。 如果安水位线提供的容量不足以满足止损,那我们期望使用上两条中间的容量buffer,同时流量调度过程中进行分步试探,避免一次性调度压垮。 基于快速熔断的过载保护 在流量调度时,建立快速的熔断机制作为防止过载的最后屏障。一旦出现过载风险,则快速停止流量调度,降低次生故障发生的概率。 基于降级功能的过载保护 在流量调度前,如果已经出现对应机房的容量过载情况,则动态联动对应机房的降级功能,实现故障的恢复。
TOP