关于 小妹保健服务_v信78792796城步县服务vyeaoz冷 的搜索结果,共598
h****e 2018-07-10
程序:我从哪里来?
Naming Agent:提供BNS的查询功能,用户可以根据一个名字(组、单元、实例)就能得到详细的息。Naming Agent与Cache层的数据交互,采用推拉结合的方式,Naming Agent主动拉取数据和Cache模块推送变更数据,同时Naming Agent客户端会将查询过的数据置于本地缓存中,以此降低Cache层的查询压力。 Check Agent:提供BNS实例的康检查功能,用户通过在Web页面对每一个实例配置康检查的方式,机器上的Check Agent会主动探测所有实例的运行状况,并将康检查的结果上报给Cache层,同时更新数据库内容。 总结 BNS系统满足间交互中常见的的资源定位、IP白名单维护等需求,也可以用于机器列表查询,使用场景包括机器列表查询、定位、白名单维护、数据库智能授权等,解决了程序“我是谁?我从哪里来?该往哪里去?”的问题。 今天我们一起聊了百度云Noah智能运维产品中的BNS系统,目前系统还在持续迭代和优化中,若您想进一了解BNS问题,欢迎大家积极留言。
红****2 2018-07-10
故障自愈机器人,你安心好睡眠
在传统的运维方式中,由于故障感知判断、流量调度决策的复杂性,通常需要人工止损,但人工处理的时效性会影响的恢复速度,同时人的不可靠性也可能导致问题扩大。 为了解决这类问题,我们针对百度内外部网络环境建设了基于智能流量调度的单机房故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与百度名字(BNS)实现了智能流量调度与自动止损能力。同时,基于实时容量与实时流量调度自动止损策略与管控风险,实现了任意单机房故障时业均可快速自愈的效果。当前此解决方案已覆盖搜索、广告、息流、贴吧、地图等众多核心产品的单机房故障自愈场景。 单机房故障频发影响业可用性 回顾近2年来各大互联网公司被披露的故障事件,单机房故障层出不穷。例如: 2015年6月某公司云香港IDC节点电力故障崩溃12时 2016年5月某公司杭州电接入故障,中断时级别 2017年1月某业天津机房故障,数时无法提供 2017年6月北京某处机房掉电,多家互联网公司受影响 单机房故障频繁影响业的可用性并且会给公司带来直接或间接的损失。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
而我不喜欢用ntpdate同时间的工程师,NTPD是一个体系化的,而ntpdate只是一个动作,大部分人没做好为ntpdate这个动作负责。 正常的时间是个持续增长的向量,即老时间t1肯定于新时间t2,新时间t2也于最新的时间t3,而且t1必定会渐进增长到t2和t3。除了少数商业数据库自带时钟源以外,大部分业对系统时间是盲目任,不相t1会越过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序壮性和业安全性,甚至部分程序崩溃的稀里糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目任;假设一个根NTP不稳定,所有的器获得了错误的时间,虽然现在业层可以包容异常,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。我们就说联机调试分布式日志,几个节点的时间有错可能日志就看不懂了。
w****0 2018-07-11
单机房故障自愈-黎明之战
干货概览 在故障自愈机器人,你安心好睡眠一文中,我们介绍了单机房故障自愈的必要性和解决思路。本文主要介绍单机房故障自愈前需要进行的准备工作,具体包括: 单机房容灾能力建设中遇到的常见问题及解决方法 基于网络故障及业故障场景的全面故障发现能力 百度统一前端(BFE)和百度名字(BNS)的流量调度能力 单机房容灾能力--常见问题 单机房故障场景下,流量调度是最简单且最有效的止损手段,但我们发现业线经常会遇到如下问题导致无法通过流量调度进行止损: 1.存在单点 描述:系统内只有一个实例或者多个实例全部部署在同一物理机房的程序模块即为单点。 问题:单点所在机房或单点自身发生故障时,无法通过流量调度、主备切换等手段进行快速止损。 要求:浏览请求的处理,不能存在单点;提交请求的处理,若无法消除单点(如有序提交场景下的ID分配),则需要有完整的备份方案(热备或者备)障单机房故障时,可快速切换至其他机房。 2.跨机房混联 描述:上下游之间存在常态的跨机房混联。 问题:逻辑单元未隔离在独立的物理范围内,单机房故障会给产品线带来全局性影响。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前都荒废了,因为卡得一匹。
追****圣 2018-07-11
给书记省长讲清楚云计算
他们最大的优点和缺点都是为政府和国企为生,他们可以买技术搭建出云平台,但他们建好云平台的目的是再卖给本地政府和国企。这类企业需要完成从供应商到合作方的转变。 云计算不是万能药,它无法解决哪些问题。 在地方政企看来,云计算只是一种商业形式,不能对它报以不切实际的期望值。 云计算行业不需要大量雇佣本地劳动力,无法解决大批就业问题;云计算核心员工会呆在一线市远程操控,很难将云计算人才引进到当地。 云计算不会产生污染,所以不用考虑环减排问题,但其带来的环节能问题很严重,每个数据中心都会占用大量电力。 对于四线市政府和中型国企,因为现实困难资源有限是搞不了云计算的;二三线市和大型国企才能提供云计算公司感兴趣的资源。
布****五 2018-07-10
如何执行一条命令
监控数据的来源主要分两种,一种是通过业软件提供的接口直接读取状态数据,另一种是通过日志/进程状态/系统状态等(如使用grep提取日志,通过ps查询进程状态,通过df查询磁盘使用等)方式间接查询。 无论是配置管理、部署变更还是监控采集,都有一个共同的目的:控制器。在现阶段,要想对器进行控制,离不开“在大量器上执行命令并收集结果”这一基础能力,这也是今天我们的主题“如何执行一条命令”的意义所在。 面临的困难 命令行的三要素,也是如何执行一条命令行面对的三个问题,如前文所述,对于单机环境来说,这三个问题在前人的努力下已经被很好的解决。可是如果要在几十万台机器上每天执行几十亿条命令,同时证时效性,证执行成功率,证结果正确收集,证7*24时稳定运行,就不是一件简单的事情了。所谓远行无轻担,量大易也难,在构建这样的执行系统的过程中要面临诸多困难,此处举几个突出的例子如下: 息存储问题:为了支持水平扩展,需要高效的内存数据库作为缓存。为了做到执行命令的可追溯、可统计,需要对执行过的命令息持久化。日均几十亿的热数据,年均上万亿的数据,需要仔细选择存储方案。
流****水 2018-07-11
度云企业级运维平台——NoahEE
简单的说,管理要解决的最核心问题就是如何对资源进行有效组织管理与定位: 图2 解决规模带来的问题 在管理这个地基打好后,我们再来回顾下上面的例子。这个例子中,地图研发的同学就可以在运维平台中选中导航的模块进行升级,运维平台会通过管理来定位此次升级操作需要影响的机器并进行批量的操作。NoahEE中的所有运维系统,都以管理为基础来进行运维操作,例如在监控系统中,我们可以对导航模块(而不是单台机器进行操作)添加一些指标采集任,并在一定条件达成时报警。管理通过对资源合理的组织,极大的简化了运维操作,提升了运维效率。 资产管理 在机房里,各种各样的器、网络设备和安全设备7x24时的运转,为我们的业提供了硬件障,是企业的重要资产。各种设备的物理损坏、升级、新增、搬迁等等都在考验着机房运维人员的能力。怎样维护这些资产并记录息,是个很重要的问题,搞得不好,这些资产可能变成运维人员的“包袱”,越多越头疼。 对这些设备的运维操作,通常都涉及不少的物理操作,比如说更换损坏的硬盘,增加内存条等等。这里涉及到几个要解决的问题: 故障如何及时发现?发现后由谁来进行修复?
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
有个客户非常任某个云销售,他告诉该销售,虽然某大云有高层合作,某大云也说报价肯定比某云低5%;但是某大云的机制有问题,出故障从来都是衙门话,每次故障都要客户去乱猜和背锅。最终这个单子在客户执行层的暗助之下,该云快速把业切过来并坐实站住了,这份暗中相助就是靠个人商誉带来的任。 我和大客户谈故障的时候,喜欢把详细故障原因刨析给客户,企业客户是讲道理的,不要把糊弄ToC用户的手段来对付ToB客户。面对意外故障,我们有心向客户证明,换了其他厂商也一样会挂;面对人为故障,踏实认错是对客户的最后尊重,而公开事实也是逼着内部不会重蹈覆辙犯同样的错误。 过去大家卖IDC、CDN、器和软硬件积累的个人商誉,是可以应用到云计算领域的。而云的高科技光环褪去、产品同质化以后,企业的核心竞争力仍然是有商誉的销售-售前-售后团队,这类人才永远是稀缺资源。 附录 请各位多琢磨评估本厂的云到底哪些组件是靠谱的,不要让赖你的客户受伤又受骗。
s****d 2018-07-11
亿元级云用户分析
限制客户梦想的是老旧系统是否支持常见协议,还有底层工程师能否推动上层业测试和变动。 API调用PaaS——API云就是不可控过程的黑箱,客户没预算没精力就盲目任云厂商。客户有精力就做多云冗余校验,有预算就做专有资源池部署;未来云厂商还会自定义SLA标准——大部分API云连等待超时都没定义。 版本发布和数字化转型——无论是微观的版本发布还是宏观的数字化转型,其实都和上云没直接联系,一个是室内装修工作,一个是新建房屋工作,但装修的最好时机是房屋重建的时候,云厂商要帮客户推动IT技术革新。 5.输出分析 云厂商输出给客户的即有云端IT资源,也有平台输出。是个比资源更难量化的概念,我只引一把火苗出来。 咨询规划--如果直接给客户买资源,那就只能谈性价比,而且资源本身不会说话,所以云厂商要做好咨询规划。 明晰验收--云项目的实施和结项都是以结果为导向的,明确的过程控制和验收标准对供求双方都是护。 友好接口--面对亿元大金主,云厂商的下限是类比传统IDC,要把金主伺候舒了就要学IOE类集成商。
疏****月 2018-07-09
一键上线Archer | 百度持续部署的瑞士军刀
每次执行时,单机agent会从插件集群下载最新MD5,如果有变更,将重新下载最新插件进行任的执行。这种设计形式增强了执行端功能的可横向扩展性,并且极大降低了每次自身升级的成本。每次升级只需更新一个集群的插件代码,在全部机器上即可生效。 总结 百度部署经历了手工上线- Web化- 开放化一系列发展进程,目前正在向智能化逐发展。Archer作为开放化一代的运维产品,在百度内部具有极高的使用率。期待本文的介绍能为您提供一些思路,也欢迎同行们与我们进行交流,共同促进AIOps的发展!
M****点 2018-07-10
中国云计算现状——产品篇
用好PaaS产品可以更省人力、更快交付,按用量付费可能会比按资源付费更便宜(也可能更贵),而PaaS平台的恼人和诱人之处均在于产品形态很模糊、质量很难评估、很难独立运营、没有领头羊企业和事实标准。 PaaS云平台和IaaS云资源的区别就在于,平台需要理解客户的动作和状态。对象存储和CDN就是最典型的PaaS,云平台按照数据容量、访问流量、访问次数和方法收费;Mysql RDS只能按照内存和日志空间上限计费,但仍然可以替客户做数据库状态展示、分析和备份,这是过渡性的PaaS。 最常见的PaaS是数据库,最重要的PaaS是对象存储,最成熟的PaaS是CDN,最有魅力的PaaS是Serverless,我们重点看这四个。 一个经典PaaS应该只是一个进程,进程是无法长期存储数据的,量结构化数据依赖数据库存储,海量数据依赖对象存储。 云数据库(如RDS)很重要但想象空间有限,因为企业里已经有数据库和DBA了,DBA并不任云端未知架构数据库的性能、稳定性和数据安全性,而且企业仍然需要DBA承担设计维护工作。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动过程
遇到过几次倒霉事以后,我习惯用dd备份每台器的前512字节,但自从我做完备份以后,就再也没倒霉过。 4.GRUB引导启动vmlinuz内核。 GRUB2如果细说有stage1、stage1.5、stage2多个骤,我们可以简单认为前面两是为了苟到stage2加载为止。 我们用GRUB来选定要加载的内核,并向其传递大量启动参数,这样就可以在多OS、多Kernel、多runlevel之间来回切换。网上的GRUB调试教程都集中在这一,我们还可以直接传参以单用户模式启动,直接无密码登陆器。 有些人习惯给/boot一个128M的分区,可能是老师的老师说过这样比较“安全”。那是在更早的版本GRUB程序读不了GB级磁盘分区,没办法加载vmlinuz内核,现在已经只是一个迷而已。 5.内核启动加载驱动,但这还没触及任何业。 不同硬件同一个版本的vmlinuz内核hash值是相同的,因为驱动息放在initrd*.img里。Initrd*.img是一个精简但带了所有驱动的linux镜像,一般系统安装完之后自动生成,也可以事后手动生成。
p****d 2018-07-11
单机房故障自愈--运维的春天
容量护模式:针对固定比例模式存在的容量风险问题,改进的流量调度方式为执行前判断容量是否充足,容量充足则进行流量调度,否则不进行调度并通知人工介入处理。但此种方案面对的问题是: 1.容量仍有buffer可以进行部分止损。期望能够在不超过容量护的情况下进行尽可能的调度,减少对用户的影响。 2.即使按照容量进行调度,过载仍可能发生,容量数据本身存在一定误差,流量成分的变化以及变更等导致的容量退化,都可能导致原先容量无法完全可。 【解决方案】 基于容量水位的动态均衡 在流量调度时,对于容量不准确存在的风险,我们划分两条容量警戒线。 安全水位线:流量处于在安全线以下则风险较,可以一进行切换。 水位上限:该水位线表明的最大承载能力,一旦流量超过故障水位线,很大概率会导致容量过载。 如果安全水位线提供的容量不足以满足止损,那我们期望使用上两条中间的容量buffer,同时流量调度过程中进行分试探,避免一次性调度压垮。 基于快速熔断的过载护 在流量调度时,建立快速的熔断机制作为防止过载的最后屏障。一旦出现过载风险,则快速停止流量调度,降低次生故障发生的概率。
h****8 2018-07-10
能力比梦想更重要——企业级难寻产品经理
如果你的团队运气好,遇到一个合适的产品经理,请容忍他短时间不出活,请容忍他拒了客户需求,请容忍他给研发添工作量,因为合格的产品经理要背负和团队负责人一样大的选型责任,他名字叫产品经理,但本质上是软件和设计师。
小****园 2018-07-10
让PB级云存储不再神秘
大客户的数据一般都是存在于旧系统的,其迁移方案比客户复杂,拉专线、寄设备、追增量、切业等等方面都要考虑到。一般迁移方案是现有数百T数据,规划未来3年到10PB,数十个轻量应用对接代理网关继续使用,几个核心高负载应用改成直接访问存储。为了更好的发挥对象存储优势,厂商还要诱导客户使用云平台的各种新功能。迁移方案要靠谱必须说清楚所依赖环境、操作时间规划、各风险评估、验证验收标准等息。 大客户同样在于云平台的职业操守,但其反击能力要强于中客户,因为他们不会用云平台的标准合同,而是自己订制合同内容。法律合同上能震慑平台的一部分动作,但计费统计数据云平台还是会拿到,客户可以考虑多分几个供应商多做几个存储池。 4、何时选择私有云 对象存储一般是公有云,但是超大型国企、电运营商、国家级项目、大型独立互联网企业、金融行业、智慧市、基因、气象、医疗等行业都因特定原因使用私有云存储。 对象存储适用于私有云主要基于这三方面考虑: (1)建设成本 公有云建设成本有三大头,器、IDC和公网带宽。公有云对比对中型客户在这三方面成本有巨大优势,但也给自己留了利润空间。
若****客 2018-07-10
IT架构的本质--我的五点感悟
架构师将一个无脑大事拆分成多个,这就是异架构,但拆分事就跟拆分数据表一样,拆散的需要更高业层级上做全局事障。 在群集性能规划中,网络和硬盘IO+CPU算力+磁盘和内存空间是可以互换的,架构师要完成补不足而损有余的选型。比如数据压缩技术就是用算力资源来置换IO和空间,缓存技术是用空间和IO来缓解算力压力,每个新选型都会带来细节上的万千变化,但每种变化都是符合自然规律有章可循的。 一个经典微机系统就是中央处理器+主存储器+IO设备,这几个概念居然和群集性能规划是一一对应。 3. 理解硬件天性 角色选型时要看硬件的天然特性 别让硬盘扛性能,别让内存持久,别让网线扛稳定。 架构层软件技术已经足够成熟,所谓技术选型不如说是适应场景;在做具体角色选型时,最深度也最易忽视的原则是顺应硬件天性。 我的精神导师说过,如果一个依赖硬盘,那这个就不适合扛性能压力。我经常将读写引到/dev/shm;SSD盘让很多细节调优聊胜于无,还让Fat32枯木逢春;个别队列和分布式存储在意硬盘的性能力,但都是应用了顺序读写内容,且不介意磁盘空间浪费。
TOP