关于 小妹找服务全套薇78792796石狮锦尚镇莞式服务哪里比较多贡 的搜索结果,共1203
h****e 2018-07-10
程序:我从来?
干货概览 在计算机程序或者的层次上,我们来试着分析前面提到的几个问题。 问题 1.我是谁? 叫什么,包含了些实例,规模、部署情况、实例运行状况如何? 2.我从来? 的上游有些,不同的上游流量如何分配? 3.我往去? 的下游有些,不同的下游流量如何分配? 面对这样的问题,我们的答案是什么呢? 在百度的运维实践中,我们只需“BNS”就可以获得想要的答案。 BNS(Baidu Naming Service,百度名字)是百度云智能运维团队研发的一分布的名字系统,是百度云Noah智能运维产品中的一个重要基础系统。它为每一个赋予一个独一无二的名字,根据这个名字,我们就可以获取到这个的相关信息 ,这些信息包括:在机器上部署信息(机器IP,部署路径,配置,端口信息),的实例运行状况等其他重要信息。简单来讲,它提供了一个名到资源信息的一个映射关系。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
在传统的运维方中,由于故障感知判断、流量调度决策的复杂性,通常需要人工止损,但人工处理的时效性会影响的恢复速度,同时人的不可靠性也可能导致问题扩大。 为了解决这类问题,我们针对百度内外部网络环境建设了基于智能流量调度的单机房故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业指标监控构建了方位故障发现能力,基于百度统一前端(BFE)与百度名字(BNS)实现了智能流量调度与自动止损能力。同时,基于实时容量与实时流量调度自动止损策略与管控风险,实现了任意单机房故障时业均可快速自愈的效果。当前此解决方案已覆盖搜索、广告、信息流、贴吧、地图等众核心产品的单机房故障自愈场景。 单机房故障频发影响业可用性 回顾近2年来各大互联网公司被披露的故障事件,单机房故障层出不穷。例如: 2015年6月某公司云香港IDC节点电力故障崩溃12时 2016年5月某公司杭州电信接入故障,中断时级别 2017年1月某业天津机房故障,数时无法提供 2017年6月北京某处机房掉电,家互联网公司受影响 单机房故障频繁影响业的可用性并且会给公司带来直接或间接的损失。
流****水 2018-07-11
度云企业级运维平台——NoahEE
管理 我们首先介绍管理是因为管理是整个运维工作的基础,也是NoahEE这个平台上各个系统能够进行批量自动化操作的关键。管理这个概念的出现,是随着业快速膨胀的必然,其要解决的主要问题是一个“量”,或者说“规模”的问题。在早期业为简单时,一个可能部署在几台甚至一台机器上,进行变更等运维操作简单直接,登录到机器上人工操作就好了。随着业的发展,分布应用与的广泛使用,我们越来越的面临着运维场景与运维执行之间的脱节。 举个例子,今天17:00开始对X机房的地图导航模块进行升级。对于产品研发的同学来说,关注点是语义明确且更具描述性的“运维场景”;而对于运维人员来说,关注点是此次升级操作所涉及的机器等资源在。在业规模发展到一定程度后,运维工作还停留在早期人工或脚本方执行的阶段时,这样的差异非常频繁的发生。 在实际的运维中,还有更的因素需要考虑,例如机器是否会分配给不同部门(资源的隔离)?权限又该如何控制?随着规模变大,人力成本等管理成本上升,然而效率低下、可用性不升反降等等都是非常可能出现的问题。百度对于这个问题给出的答案是,必须先要解决资源组织管理问题。
s****d 2018-07-11
亿元级云用户分析
3.2 CDN和带宽池 CDN和带宽池不同于器硬件,其原始资源是相对稀缺死板的广域网带宽,其交付的资源是持续不断的,所以资源部署慎重但客户流动成本低。制约客户量迁移的是厂商的承载能力,而挖角和反挖时刻都在细水长流。CDN和带宽池首先考察的是企业内功,有没有廉价海量资源;再考验销售内部协调能力,能不能把好资源好价格抢到手;而盯客户的路和百万级销售类似,工作力度加大三五倍而已。 3.3数据存储池 数据存储池是很难年均摊营收上亿的,但定个1000万的目标是能实现的;如果有1000万的非冷备存储池,那很容易带来数倍数十倍的计算和带宽消费。存储资源是大订单曲线突破的好选项,还是AI和大数据项目的基,我们和客户讲的是有技术含量的故事,需要精英售前给销售做幕后军师。 配图说明:谁掌握了数据,谁就掌握了真理 3.4人力资源池 亿元项目不可能是客户自助实施的,人力营收占很低但画龙点睛,可能会干掉纯卖资源的友商,也可能晚交付半月就亏损上千万。
w****0 2018-07-11
单机房故障自愈-黎明之战
实现从运营商外网链路、百度内部网络设备/链路、/实例、机器/容器的方位数据采集与监控。满足网络类单机房故障、业类单机房故障的监控覆盖需求。 同时提供一系列数据分析方法。如智能异常检测、趋势预测、维度分析、关联分析、和链路拓扑分析,实现故障的精准发现和定位。 故障止损:百度流量调度平台 针对百度的网络架构和业架构,我们将流量调度拆分为三层:接入层、层、依赖层。 接入层:从外网用户发起请求经过运营商网络到百度统一前端(BFE)的过程,使用DNS实现外网流量调度。 层:从BFE流量转发至内网的过程,使用BFE提供的GSLB动态负载均衡进行流量调度。 依赖层:内网上下游业之间的流量调度过程,使用百度名字(BNS)进行流量调度。 对于单机房止损场景来说,DNS流量调度的生效时间层、依赖层的流量调度生效时间要慢很,所以我们期望在发生某个业的局部单机房故障时,优先进行层、依赖层调度。提升止损时效性。 在单机房容灾能力、智能监控平台、流量调度平台的基础上,启动单机房故障自愈工作的时机已经成熟。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
NTPD是一个时间同步,ntpdate是个时间同步命令。很工程师都会采用Crond+ntpdate的方同步时间,究其原因是“NTPD不太好用”。 而我不喜欢用ntpdate同步时间的工程师,NTPD是一个体系化的,而ntpdate只是一个动作,大部分人没做好为ntpdate这个动作负责。 正常的时间是个持续增长的向量,即老时间t1肯定于新时间t2,新时间t2也于最新的时间t3,而且t1必定会渐进增长到t2和t3。除了少数商业数据库自带时钟源以外,大部分业对系统时间是盲目信任,不相信t1会越过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序健壮性和业性,甚至部分程序崩溃的稀糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目信任;假设一个根NTP不稳定,所有的器获得了错误的时间,虽然现在业层可以包容异常,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。
h****8 2018-07-10
能力梦想更重要——企业级难寻产品经理
个人产品经理是一个需要梦想和热情的职业,但在政企和工业级IT领域,能力梦想更重要。 本文是想说清楚,政企和工业级软件领域,能力梦想更重要,个人产品经理来到这个行业就会被秒成渣。如果一个企业要招产品经理,要知道这个行业有些难点痛点,需要什么样的产品经理(其实是软件和设计师)。 1. 需求拆解的能力 个人产品经理在设计一款APP时,是可以用生理上的主观感受给产品打分的。但是让一个产品经理来设计个流水线自控系统,他的主观感受并不重要,必须用技术和业能力将客户需求描述和引导。某些产品经理因为自己毫无感受憋不出词来,就把客户的要求当做圣旨跪拜,这不仅是吃扒外,还是会搅黄项目的搅屎棍。 要拆解客户的需求,必须技术上能跟客户做平等对话,业上了解客户工作流程,还要理解大型客户内部的利害关系,不能靠“视察”客户会议室装专家上宾,也不能像外行一样凡事都跪问客户。 我举第一个例子是很系统都有监控,监控系统的产品经理要完成下列工作才合格: 技术:产品经理对“check tcp 80”和“check http 200”这类业术语没概念,需要客户被坑一次骂一次才能改一点点。
疏****月 2018-07-09
一键上线Archer | 百度持续部署的瑞士军刀
干货概览 业部署(熟称上线)是运维领域最常见的业类型,主要涉及线上代码变更、配置文件变更(数据变更由于其高频、大量的特点,我们已在数据传输文章《嗖的一下,让数据自动生效》中专门讨论过)。一般的业上线具有不定时操作、业部署情况复杂、单机启停策略复杂等特点。在手工运维时代,运维人员需要花费大量精力进行此类重复性工作,且易于出错。从公布的数据显示,Google 70%的生产事故由上线变更触发,如何减少变更过程中人为误操作,提供一个灵活、稳定的部署系统是运维平台研发人员所亟需解决的问题。 基本介绍 在运维自动化的大潮下,百度运维管理平台Noah发布了一键上线部署系统——Archer。Archer致力于提供一产品线过程的可迁移发布解决方案,实现一键完成机器初始化、部署、添加模块监控、添加CT任、动态数据文件的分发等过程的自动操作。在操作方面,Archer提供了命令行工具作为发起一次上线的操作入口,这种设计模也决定了其易于集成的特点。在DevOps流水线作业中,Archer可以作为一个环节结合进整条测试发布流水线中。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动过程
遇到过几次倒霉事以后,我习惯用dd备份每台器的前512字节,但自从我做完备份以后,就再也没倒霉过。 4.GRUB引导启动vmlinuz内核。 GRUB2如果细说有stage1、stage1.5、stage2个步骤,我们可以简单认为前面两步是为了苟到stage2加载为止。 我们用GRUB来选定要加载的内核,并向其传递大量启动参数,这样就可以在OS、Kernel、runlevel之间来回切换。网上的GRUB调试教程都集中在这一步,我们还可以直接传参以单用户模启动,直接无密码登陆器。 有些人习惯给/boot一个128M的分区,可能是老师的老师说过这样“安”。那是在更早的版本GRUB程序读不了GB级磁盘分区,没办法加载vmlinuz内核,现在已经只是一个迷信而已。 5.内核启动加载驱动,但这还没触及任何业。 不同硬件同一个版本的vmlinuz内核hash值是相同的,因为驱动信息放在initrd*.img。Initrd*.img是一个精简但带了所有驱动的linux镜像,一般系统安装完之后自动生成,也可以事后手动生成。
M****点 2018-07-10
中国云计算现状——产品篇
前言 上篇文章《中国云计算现状——成本篇》(特大号首发改名为《做好云计算要花少钱》)讲的是成本问题,即什么企业有可能能做云计算。本文是第二篇产品篇,目标客户是云计算产品经理和云计算标准用户。我从一个老用户的角度谈谈每种云计算产品该如何使用,些产品改进是刚需放心吐槽,些产品有内因就是改不了。本文主要说用云产品的问题,买云产品的问题在采购篇单聊。 正文 现在是2017年,云计算是物理硬件的优质替代方案,客户很认可云计算极低的采购和交付成本优势。这时候我们要少被企宣PPT洗脑,追求华而不实的远景,这些PR文章的受众是风险投资、客户决策层和创业者。我们应该摸清楚云方案和硬件方案有什么特点和局限性,客户明白特点才能使用得心应手,客户明白局限性才会早作备用方案,产品经理心不慌才会关注核心功能。 一、IaaS产品 IaaS平台的本质是,产品以做硬件资源的虚拟化为本,业上承接物理硬件替代需求,其优势是最快速度最低成本交付,客户为预占的物理资源付费。IaaS产品是最经典的云计算,核心组件是云主机,如虚拟网络、云硬盘和安组都是为支撑云主机业的。
M****H 2018-07-11
故障定位场景下的数据可视化实践
如上图所示,我们可以按照问题定位的思路,将整体的可用性情况、分功能可用性情况、分模块的核心指标、流量的同环、分IDC的流量对等,依次通过丰富的可视化组件进行呈现。使得在收到报警时,可以快速将故障缩到具体功能、模块、接入流量、机房级别。 深入数据确定根因 在故障处理过程中,景数据仪表盘为我们缩了故障定位的范围,但大数的根因仍然隐藏在数据的细分维度中。由此维度分析的重要性就体现出来了。常见的维度分析包括如下几种场景: 单维度取值对分析:针对同一个维度的不同取值进行对分析,例如确定流量下跌出现在个省份。 维度关联分析:分析两个甚至更维度互相作用后数据的分析,例如如何确定一个下跌是机房级别还是模块级别。 维度下钻分析:一些维度包含个层级,例如省份、城市等相关联维度的逐层下钻定位。 我们针对这些场景,设计了相应的解决方案。 单维度取值对分析 维度取值对分析是一种最常见的细分维度定位方。对于同一个维度下取值数量少的情况,可以通过维度趋势图和饼图等可视化方进行快速的分析,查看不同维度取值的取值状态,以及占整体例情况。
小****园 2018-07-10
让PB级云存储不再神秘
这种存储实现原理简单,单链接速度上限就是单盘顺序读写速度,磁盘再慢也网络块,插上十几块盘就能跑满本机网卡。这类存储大作为纠删码大存储池的持久化写缓冲组件,单独使用三副本消耗太硬盘了,即使不在意硬盘的价格,硬盘越机器就越组网就越麻烦。 数据库型存储,读写代理将数据文件处理成Nkb级碎片,然后塞入数据库中做持久化写缓冲组件,后端有消费者将数据取出另存到纠删码大存储池。我实践中不太推荐这种方,因为对三副本存储没太大优势。 纠删码存储是老技术了,大家买的超强纠错的VCD盘片就用的本地纠删码技术。我们可以简单把纠删码技术类成网络版Raid5,这种技术大大的节省磁盘,而且可以设置块校验盘来提高数据安性,是PB级存储的主力存储池。但它的缺点也很明显,因为数据要做聚合条带后重新编码,写入速度慢;Raid5磁盘修复时IO放大问题在EC同样严重;而且纠删码回收已删除文件的空间难度很大速度很慢。 SSD文件存储,这其实是标准三副本存储的SSD版本,一般用来存储文件,SSD盘再贵也缓存的内存便宜。文件存储的数据总量不大,一般在本盘存储即可,不用导入纠删码存储中。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前都荒废了,因为卡得一匹。
追****圣 2018-07-11
给书记省长讲清楚云计算
二三线城市不仅要积极准备云计算硬性资源,还可以用合作融资、税收优惠等等灵活政策承担产能转移的,最终说云计算公司将GDP和税收留在当地。 云计算平台提供的都是互联网,大量的互联网部署在本地会有极大的管控压力。二三线城市对互联网还只是简单的管控,稍有不解可能就会封禁一大批互联网,但一道封网命令就可以毁掉一个云计算公司的声誉。如果当地政企要做好云计算就要从管理者变为者,必须在管控违规违法时不惊扰正常业,甚至主动出击为正常网络保驾护航。 前几条都是从降低成本可靠的角度请云计算企业来合作建厂,如果你有市场有客户那对方会主动上门寻求合作。从长周期来看云计算的客户是覆盖行业的,各地内部采购的计算机项目根本不值一提,市场和客户要靠云计算厂商自己去。但现在云计算厂商还在早期扩张摸索之中,云厂商极端渴求各种政云企业云成功模案例,一旦摸出来案例会迅速推广到国。这个窗口期只有三五年,随着政云企业云被其他公司摸透并推广开,这些项目就从首发明星案例变为普通捆绑销售了。 挑选合格的云计算合作厂商,每类厂商有些特点。 前文说的为何要引凤,如何算筑巢。
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
附录 请各位琢磨评估本厂的云到底些组件是靠谱的,不要让信赖你的客户受伤又受骗。如要学习云计算相关知识,可以关注我往期云计算文章,如说 云计算最重要的工作是配合销售和客户:云客户需求引导管理--实战型IT太极拳 中国云计算现状系列汇总: 做云计算要花些钱,请看第一篇成本篇,原创链接。 云计算产品各有什么特色该如何分类,请看第二篇产品篇,原创链接 客户的采购人员如何看云计算,厂商如何锁定采购人员需求,请看第三篇采购篇,原创连接。 如果我们? 时无英雄使竖子成名,但这也是机遇, 看云厂商花作死的九种方法 。
p****d 2018-07-11
单机房故障自愈--运维的春天
容量保护模:针对固定例模存在的容量风险问题,改进的流量调度方为执行前判断容量是否充足,容量充足则进行流量调度,否则不进行调度并通知人工介入处理。但此种方案面对的问题是: 1.容量仍有buffer可以进行部分止损。期望能够在不超过容量保护的情况下进行尽可能的调度,减少对用户的影响。 2.即使按照容量进行调度,过载仍可能发生,容量数据本身存在一定误差,流量成分的变化以及变更等导致的容量退化,都可能导致原先容量无法完可信。 【解决方案】 基于容量水位的动态均衡 在流量调度时,对于容量不准确存在的风险,我们划分两条容量警戒线。 安水位线:流量处于在安线以下则风险,可以一步进行切换。 水位上限:该水位线表明的最大承载能力,一旦流量超过故障水位线,很大概率会导致容量过载。 如果安水位线提供的容量不足以满足止损,那我们期望使用上两条中间的容量buffer,同时流量调度过程中进行分步试探,避免一次性调度压垮。 基于快速熔断的过载保护 在流量调度时,建立快速的熔断机制作为防止过载的最后屏障。一旦出现过载风险,则快速停止流量调度,降低次生故障发生的概率。
TOP