关于 双流县找小姐保健按摩服务〖8843O306VX〗服务真实喊饶币 的搜索结果,共948
h****e 2018-07-10
程序:我从哪里来?
通过部署在机器上的客户端感知到例的状态变化(比如例状态由0变成-1,即正常变成非正常),并将数据同步到系统中的分布式缓存,上游模块可以通过查询redis.noah.all的例状态结果,主动过滤非正常的例,也可以在BNS系统中发起屏蔽故障例的操作,在查询过程中会自动过滤该故障例。 在下一节中将具体介绍BNS系统的整体架构。 基本架构 BNS系统主要包含几个部分:量接入层,Web Server,存储层,代理客户端。 作为一个底层的基础,BNS系统每天的访问量近千亿次,这对系统的可用性提出了很高的要求,因而系统需要在各个层面有完善的容灾能力和量管控能力。 1量接入层 系统通过HTTP接口对外提供变更,用户通过Web页面或者接口进行例信息注册。为了证平台稳定和安全的运行,需要对非法和异常请求进行拒绝,在量接入层(Proxy)端提供了以下两个功能: 量鉴权:每一个组、单元、例的注册都需要进行权限验证,用户只有申请了合法的Token才能允许访问,另外系统还提供了白名单等其他的鉴权方式。
w****0 2018-07-11
单机房故障自愈-黎明之战
单机房容灾能力--盲测验收 完成以上四点单机房容灾能力建设后,业线就具备了通过量调度进行止损单机房故障的基本条件。那么如何验证业线是否具备该能力、能力是否出现退化,我们采取盲测验收的方式,模拟或制造故障,验证不同业线故障情况及止损效率,并给出相应的优化意见。 根据业线进行容灾能力建设的不同阶段,我们从对产品际可用性影响程度、成本、效果等方面权衡,将盲测分为三种类型: 无损盲测:仅从监控数据层面假造故障,同时被测业可根据监控数据决策量调度目标,对于业际无影响,主要验证故障处置程是否符合预期、入口级量切换预案是否完整。 提前通知有损盲测:植入际故障,从网络、连接关系等基础设施层面植入错误,对业有损,用于战验证产品线各个组件的逻辑单元隔离性、故障应急处置能力。同时提前告知业盲测时间和可能的影响,业线运维人员可以提前准备相应的止损操作,减少单机房止损能力建设不完善导致的损失。 无通知有损盲测:在各业线单机房容灾能力建设完成后,进行不提前通知的有损盲测,对业来说与发生故障场景完全相同。验证业线在单机房故障情况下的止损恢复能力。
红****2 2018-07-10
故障自愈机器人,你安心好睡眠
在传统的运维方式中,由于故障感知判断、量调度决策的复杂性,通常需要人工止损,但人工处理的时效性会影响的恢复速度,同时人的不可靠性也可能导致问题扩大。 为了解决这类问题,我们针对百度内外部网络环境建设了基于智能量调度的单机房故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与百度名字(BNS)现了智能量调度与自动止损能力。同时,基于时容量与量调度自动止损策略与管控风险,现了任意单机房故障时业均可快速自愈的效果。当前此解决方案已覆盖搜索、广告、信息、贴吧、地图等众多核心产品的单机房故障自愈场景。 单机房故障频发影响业可用性 回顾近2年来各大互联网公司被披露的故障事件,单机房故障层出不穷。例如: 2015年6月某公司云香港IDC节点电力故障崩溃12时 2016年5月某公司杭州电信接入故障,中断时级别 2017年1月某业天津机房故障,数时无法提供 2017年6月北京某处机房掉电,多家互联网公司受影响 单机房故障频繁影响业的可用性并且会给公司带来直接或间接的损失。
M****点 2018-07-10
中国云计算现状——产品篇
用好PaaS产品可以更省人力、更快交付,用量付费可能会比资源付费更便宜(也可能更贵),而PaaS平台的恼人和诱人之处均在于产品形态很模糊、质量很难评估、很难独立运营、没有领头羊企业和事标准。 PaaS云平台和IaaS云资源的区别就在于,平台需要理解客户的动作和状态。对象存储和CDN就是最典型的PaaS,云平台照数据容量、访问量、访问次数和方法收费;Mysql RDS只能照内存和日志空间上限计费,但仍然可以替客户做数据库状态展示、分析和备份,这是过渡性的PaaS。 最常见的PaaS是数据库,最重要的PaaS是对象存储,最成熟的PaaS是CDN,最有魅力的PaaS是Serverless,我们重点看这四个。 一个经典PaaS应该只是一个进程,进程是无法长期存储数据的,量结构化数据依赖数据库存储,海量数据依赖对象存储。 云数据库(如RDS)很重要但想象空间有限,因为企业里已经有数据库和DBA了,DBA并不信任云端未知架构数据库的性能、稳定性和数据安全性,而且企业仍然需要DBA承担设计维护工作。
疏****月 2018-07-09
一键上线Archer | 百度持续部署的瑞士军刀
另外,Archer也可作为上层托管平台的底层工具链,为PaaS平台提供稳定的底层部署。 通用场景 在百度内部,通用的部署系统需要适用于以下场景: 各业线拥有各自的包规范,语言、框架不统一,部署策略不一致; 支持分级发布,及时拦截部署引入的线上故障; 业的多地域部署; 多种网络环境及大包部署; 提高自动化效率,能够集成测试发布自动化水线。 后面,我们将结合上面场景,向大家介绍百度持续部署是如何现的。 架构 整个系统由命令行工具、web、中转及单机agent+部署插件几部分组成(如图2所示)。用户通过命令行工具触发一次变更,在web端进行参数解析及任分发,对应执行机器agent通过心跳获取任后,调用部署插件执行际任。涉及大包及不同网络环境的部署会进行中转下载。 解决方案 各业线拥有各自的包规范,语言、框架不统一,部署策略不一致 为避免杂乱无章又不规范的代码及配置文件的目录结构,Archer规定了一套既灵活又完整的包规范。
p****d 2018-07-11
单机房故障自愈--运维的春天
【解决方案】 基于容量水位的动态均衡 在量调度时,对于容量不准确存在的风险,我们划分两条容量警戒线。 安全水位线:量处于在安全线以下则风险较,可以一步进行切换。 水位上限:该水位线表明的最大承载能力,一旦量超过故障水位线,很大概率会导致容量过载。 如果安全水位线提供的容量不足以满足止损,那我们期望使用上两条中间的容量buffer,同时量调度过程中进行分步试探,避免一次性调度压垮。 基于快速熔断的过载护 在量调度时,建立快速的熔断机制作为防止过载的最后屏障。一旦出现过载风险,则快速停止量调度,降低次生故障发生的概率。 基于降级功能的过载护 在量调度前,如果已经出现对应机房的容量过载情况,则动态联动对应机房的降级功能,现故障的恢复。 2业线止损策略需求差异大 【问题描述】 我们现了基础的单机房故障量调度止损算法,但在部分业线中仍存在较大的需求差异,比如: 分步动态调度需求:业存在充Cache的情况,过程中能力降低,需要控制切换速度。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
而我不喜欢用ntpdate同步时间的工程师,NTPD是一个体系化的,而ntpdate只是一个动作,大部分人没做好为ntpdate这个动作负责。 正常的时间是个持续增长的向量,即老时间t1肯定于新时间t2,新时间t2也于最新的时间t3,而且t1必定会渐进增长到t2和t3。除了少数商业数据库自带时钟源以外,大部分业对系统时间是盲目信任,不相信t1会越过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序壮性和业安全性,甚至部分程序崩溃的稀里糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目信任;假设一个根NTP不稳定,所有的器获得了错误的时间,虽然现在业层可以包容异常,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。我们就说联机调试分布式日志,几个节点的时间有错可能日志就看不懂了。
s****d 2018-07-11
亿元级云用户分析
咨询规划--如果直接给客户买资源,那就只能谈性价比,而且资源本身不会说话,所以云厂商要做好咨询规划。 明晰验收--云项目的施和结项都是以结果为导向的,明确的过程控制和验收标准对供求方都是护。 友好接口--面对亿元大金主,云厂商的下限是类比传统IDC,要把金主伺候舒了就要学IOE类集成商。 资源持续--亿元大客户不要求云平台永不故障,但要云平台承诺清晰SLA,事后给个合理的故障报告。 后记 如我在《复制阿里云并不难》中所说的,一个云行业半个IT界”,云行业将垄断IT界一半的营收和利润。本文讨论的亿元大项目,目标就是拿下IT圈的营收上限。现在亿元大单都是云厂商在侵入系统集成商的势力范围,后面云厂商会得到越来越多的亿元大单。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前都荒废了,因为卡得一匹。
流****水 2018-07-11
度云企业级运维平台——NoahEE
资产管理 在机房里,各种各样的器、网络设备和安全设备7x24时的运转,为我们的业提供了硬件障,是企业的重要资产。各种设备的物理损坏、升级、新增、搬迁等等都在考验着机房运维人员的能力。怎样维护这些资产并记录信息,是个很重要的问题,搞得不好,这些资产可能变成运维人员的“包袱”,越多越头疼。 对这些设备的运维操作,通常都涉及不少的物理操作,比如说更换损坏的硬盘,增加内存条等等。这里涉及到几个要解决的问题: 故障如何及时发现?发现后由谁来进行修复? 物理操作维护怎样反应到系统里? 不同角色(职责)的运维人员之间如何协同操作? 对于故障处理与修复,NoahEE通过故障自动发现与工单程解决了上面的问题。系统自动探测故障放入故障池,并建立故障工单,由相应的人员进行操作。另外,NoahEE提供了不同的工单程覆盖了日常机房运维中的操作,从设备采购入库、上架、机架变更,直到设备下架、出库全生命周期覆盖,做到所有运维操作记录可追溯。有了资产管理,运维人员可以在器完成入库、上架工单后即可在管理中看到该器并进行管理,无须任何其他操作。
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
资源投入 云资源贩售过程中,合格的厂商可以让云资源物有所值,但巧妇难为无米之炊,原始资源投入不够云就不可能很稳定。面向中客户的时候,云厂商很忌讳透露具体硬件成本,也尽量避免承认资源不足,但面对大客户时会很坦诚。 作为持久共生的大甲方,请关注乙方的成本红线,买家永远没有卖家精。如果甲方给够钱了,乙方仍然用劣质硬件IDC和过高超售比,云厂商一般是老板带头节俭,而大云厂商很可能是执行层的人弄错了,作为甲方该闹就要闹。 人为原因 云厂商的人为故障总是糊涂账,但细心的甲方是能看出来端倪的。有时候厂商想遮蔽技术和资源的问题,会说是人为原因,缓过这一次故障赶紧修订BUG和准备资源;有时候明明是人为原因,但人为故障都是打脸锤,厂商脸会肿而且要赔偿,可能会个其他原因来给脸部降降温。 对于落是人为导致的故障,甲方单纯的索赔追责并不能解决问题,因为云厂商总是比甲方的际损失更,甲方无法触及云厂商能倒腾出故障的部门。甲方只能根据云厂商销售和线的能力和态度,确认自己交钱了能否买到靠谱的。 最重是商誉 云计算既是资源又是,资源相对可以量化,但短期内看直观感受,长期看商业信誉。
w****t 2018-07-10
AIOps中的四大金刚
在AIOps落地施中,运维工程师是处于中心的角色,也赋予了新的职责,他们是AIOps具体施的需求提出者和成果验收者。具体职责包括: 在AIOps时代,运维工程师一方面需要熟悉运维领域的知识,了解运维的难题和解决思路;另一方面需要了解人工智能和机器学习的思路,能够理解哪些场景问题适合用机器学习方法解决,需要提供怎样的样本和数据,即成为AI在运维领域落地施的解决方案专家。 运维AI工程师 在单机房故障自愈场景中,运维AI工程师将机器学习的算法与际的故障处理业场景相结合,针对单机房故障场景的风险点,进行策略研发与验工作。如下图所示: 运维AI工程师分别设计了如下算法策略来满足整个复杂故障场景的自动决策: 异常检测算法:解决故障发现时指标异常判断问题,基于AI方法现较高的准确率和召回率,作为整个故障自愈的数据基础。 策略编排算法:基于当前线上的量和状态,设计损益计算模型,判断基于何种方式的操作组合或步骤,能够使整个自动止损带来收益最大,风险最量调度算法:基于线上容量与量情况,进行精确量比例计算,防御容量不足或不准风险,并量调度收益最大化。
布****五 2018-07-10
如何执行一条命令
可是如果要在几十万台机器上每天执行几十亿条命令,同时证时效性,证执行成功率,证结果正确收集,证7*24时稳定运行,就不是一件简单的事情了。所谓远行无轻担,量大易也难,在构建这样的执行系统的过程中要面临诸多困难,此处举几个突出的例子如下: 信息存储问题:为了支持水平扩展,需要高效的内存数据库作为缓存。为了做到执行命令的可追溯、可统计,需要对执行过的命令信息持久化。日均几十亿的热数据,年均上万亿的冷数据,需要仔细选择存储方案。 任调度问题:为了达到在任意多台器上执行命令的要求,需要确定何时分发命令、何时回收结果以及怎么样的并发度批量下发。 消息传输问题:为了证命令高效正确送达目标器,需要构建一个可靠的命令传输网络,使命令信息在准确送达的前提下障传输的可靠与高效,毕竟百度的几十万台器分布在世界各地。 代理执行问题:为了更好的处理权限、单机并发等单机执行问题,需要在目标机构建执行代理,以应对单机的复杂执行环境。
追****圣 2018-07-11
给书记省长讲清楚云计算
云计算不会产生污染,所以不用考虑环减排问题,但其带来的环节能问题很严重,每个数据中心都会占用大量电力。 对于四线城市政府和中型国企,因为现困难资源有限是搞不了云计算的;二三线城市和大型国企才能提供云计算公司感兴趣的资源。
若****客 2018-07-10
IT架构的本质--我的五点感悟
各角色分工明确方便快速现业,但是给架构优化也埋下大坑,底层的盲目支撑是巨大资源浪费,平级调度协作也没任何弹性。前端一个逻辑需求会导致后端大规模联动,不同也没权限理解对方的内存数据,各个角色的工程师都只看自己的工作范围,这是正常又无奈的现状。 我们要搞架构设计最重要的就是砍需求,将上层应用的需求优化删减,让同级的业能容错。上层需求优化,即前端对后端少输入少查询多容错,而同级容错可以看做应用间的需求优化,比如两个可以幂等重试就是好解耦,而A系统会等B系统等到死锁就是架构悲剧。 某电商ERP系统的用户点一次查询钮,后台系统就锁库查询一次;操过程中系统越慢用户就重复点查询钮,而并行查询越多后台速度就更慢。这种环境要搞架构优化,首先要理解自然人并不要求时数据,ERP客户端限制每15秒才能点一次查询钮,在Web接入层限制每个Session每分钟只能查询一次,还可在数据库链接类库上做一层控制策略。
h****8 2018-07-10
能力比梦想更重要——企业级难寻产品经理
个人产品经理是一个需要梦想和热情的职业,但在政企和工业级IT领域,能力比梦想更重要。 本文是想说清楚,政企和工业级软件领域,能力比梦想更重要,个人产品经理来到这个行业就会被秒成渣。如果一个企业要招产品经理,要知道这个行业有哪些难点痛点,需要什么样的产品经理(其是软件和设计师)。 1. 需求拆解的能力 个人产品经理在设计一款APP时,是可以用生理上的主观感受给产品打分的。但是让一个产品经理来设计个水线自控系统,他的主观感受并不重要,必须用技术和业能力将客户需求描述和引导。某些产品经理因为自己毫无感受憋不出词来,就把客户的要求当做圣旨跪拜,这不仅是吃里扒外,还是会搅黄项目的搅屎棍。 要拆解客户的需求,必须技术上能跟客户做平等对话,业上了解客户工作程,还要理解大型客户内部的利害关系,不能靠“视察”客户会议室装专家上宾,也不能像外行一样凡事都跪问客户。 我举第一个例子是很多系统都有监控,监控系统的产品经理要完成下列工作才合格: 技术:产品经理对“check tcp 80”和“check http 200”这类业术语没概念,需要客户被坑一次骂一次才能改一点点。
M****H 2018-07-11
故障定位场景下的数据可视化
干货概览 百度拥有上百条产品线,数十万的,每个时时刻刻都在产生着海量的监控数据,形成的监控项规模总数已达数十亿。面对如此海量的数据,在日常运维(如故障诊断、成本分析、性能优化等场景)过程中,传统的统计图表难以有效直观地展示如此庞大的数据。因此,优秀的监控数据可视化产品就呼之欲出,他既要数据准确、全面、时效性高,也需要提升用户的使用体验,使其能在茫茫数据中一眼就能发现想要观察的数据。 那么怎么做才能适应用户需求、完成精准展示,同时又能挖掘数据价值呢?下面我们从故障诊断的场景出发,来看百度智能监控平台是如何充分利用数据可视化武器来解决际业问题的。 故障定位可视化思路 在标准的故障处理程中,故障定位一般可分为两个阶段: 故障止损前:期望可以快速获得可用于止损决策的信息,做出相应的止损操作使得恢复。比如通过确定故障范围,调度量绕过故障机房或摘除故障例等。 故障止损后:仍需要进一步到导致故障的深层次原因,确定故障根因,将线上环境恢复到正常状态。
TOP