关于 常州武进横山桥找少妇服务特殊〖10669708薇信〗 的搜索结果,共774
h****e 2018-07-10
程序:我从哪里来?
通过部署在机器上的客户端感知到实例的状态变化(比如实例状态由0变成-1,即正变成非正),并将数据同步到系统中的分布式缓存,上游模块可以通过查询redis.noah.all的实例状态结果,主动过滤非正的实例,也可以在BNS系统中发起屏蔽故障实例的操作,在查询过程中会自动过滤该故障实例。 在下一节中将具体介绍BNS系统的整体架构。 基本架构 BNS系统主要包含几个部分:流量接入层,Web Server,存储层,代理客户端。 作为一个底层的基础,BNS系统每天的访问量近千亿次,这对系统的可用性提出了很高的要求,因而系统需要在各个层面有完善的容灾能力和流量管控能力。 1流量接入层 系统通过HTTP接口对外提供变更,用户通过Web页面或者接口或实例息注册。为了保证平台稳定和安全的运行,需要对非法和异请求行拒绝,在流量接入层(Proxy)端提供了以下两个功能: 流量鉴权:每一个组、单元、实例的注册都需要行权限验证,用户只有申请了合法的Token才能允许访问,另外系统还提供了白名单等其他的鉴权方式。
疏****月 2018-07-09
一键上线Archer | 百度持续部署的瑞士军刀
干货概览 业部署(熟称上线)是运维领域最见的业类型,主要涉及线上代码变更、配置文件变更(数据变更由于其高频、大量的点,我们已在数据传输文章《嗖的一下,让数据自动生效》中专门讨论过)。一般的业上线具有不定时操作、业部署情况复杂、单机启停策略复杂等点。在手工运维时代,运维人员需要花费大量精力行此类重复性工作,且易于出错。从公布的数据显示,Google 70%的生产事故由上线变更触发,如何减变更过程中人为误操作,提供一个灵活、稳定的部署系统是运维平台研发人员所亟需解决的问题。 基本介绍 在运维自动化的大潮下,百度运维管理平台Noah发布了一键上线部署系统——Archer。Archer致力于提供一套产品线全过程的可迁移发布解决方案,实现一键完成机器初始化、部署、添加模块监控、添加CT任、动态数据文件的分发等全过程的自动操作。在操作方面,Archer提供了命令行工具作为发起一次上线的操作入口,这种设计模式也决定了其易于集成的点。在DevOps流水线作业中,Archer可以作为一个环节结合整条测试发布流水线中。
流****水 2018-07-11
度云企业级运维平台——NoahEE
资产管理 在机房里,各种各样的器、网络设备和安全设备7x24小时的运转,为我们的业提供了硬件保障,是企业的重要资产。各种设备的物理损坏、升级、新增、搬迁等等都在考验着机房运维人员的能力。怎样维护这些资产并记录息,是个很重要的问题,搞得不好,这些资产可能变成运维人员的“包袱”,越多越头疼。 对这些设备的运维操作,通都涉及不的物理操作,比如说更换损坏的硬盘,增加内存条等等。这里涉及到几个要解决的问题: 故障如何及时发现?发现后由谁来行修复? 物理操作维护怎样反应到系统里? 不同角色(职责)的运维人员之间如何协同操作? 对于故障处理与修复,NoahEE通过故障自动发现与工单流程解决了上面的问题。系统自动探测故障放入故障池,并建立故障工单,由相应的人员行操作。另外,NoahEE提供了不同的工单流程覆盖了日机房运维中的操作,从设备采购入库、上架、机架变更,直到设备下架、出库全生命周期覆盖,做到所有运维操作记录可追溯。有了资产管理,运维人员可以在器完成入库、上架工单后即可在管理中看到该器并行管理,无须任何其他操作。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
在传统的运维方式中,由于故障感知判断、流量调度决策的复杂性,通需要人工止损,但人工处理的时效性会影响的恢复速度,同时人的不可靠性也可能导致问题扩大。 为了解决这类问题,我们针对百度内外部网络环境建设了基于智能流量调度的单机房故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与百度名字(BNS)实现了智能流量调度与自动止损能力。同时,基于实时容量与实时流量调度自动止损策略与管控风险,实现了任意单机房故障时业均可快速自愈的效果。当前此解决方案已覆盖搜索、广告、息流、贴吧、地图等众多核心产品的单机房故障自愈场景。 单机房故障频发影响业可用性 回顾近2年来各大互联网公司被披露的故障事件,单机房故障层出不穷。例如: 2015年6月某公司云香港IDC节点电力故障崩溃12小时 2016年5月某公司杭接入故障,中断小时级别 2017年1月某业天津机房故障,数小时无法提供 2017年6月北京某处机房掉电,多家互联网公司受影响 单机房故障频繁影响业的可用性并且会给公司带来直接或间接的损失。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
除了数商业数据库自带时钟源以外,大部分业对系统时间是盲目任,不相t1会越过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序健壮性和业安全性,甚至部分程序崩溃的稀里糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目任;假设一个根NTP不稳定,所有的器获得了错误的时间,虽然现在业层可以包容异,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。我们就说联机调试分布式日志,几个节点的时间有错可能日志就看不懂了。 NTPD做时间调整会有效减这类情形,它不是简单的龟速调整时间,而是有柔性时间调整策略,让时间线的跃变和调整尽量影响业(详情见附录实验);也不会盲目任远端时钟源,甚至固执的拒绝同步时间。NTPD本机时刻有可能不对,但不会忽快忽慢甚至停滞,NTPD通过多次收发包选择权威稳定的时间源,算出双方间的网络延迟,然后才会采新的时刻行时钟同步。
w****0 2018-07-11
单机房故障自愈-黎明之战
本文主要介绍单机房故障自愈前需要行的准备工作,具体包括: 单机房容灾能力建设中遇到的见问题及解决方法 基于网络故障及业故障场景的全面故障发现能力 百度统一前端(BFE)和百度名字(BNS)的流量调度能力 单机房容灾能力--见问题 单机房故障场景下,流量调度是最简单且最有效的止损手段,但我们发现业线经会遇到如下问题导致无法通过流量调度行止损: 1.存在单点 描述:系统内只有一个实例或者多个实例全部部署在同一物理机房的程序模块即为单点。 问题:单点所在机房或单点自身发生故障时,无法通过流量调度、主备切换等手段行快速止损。 要求:浏览请求的处理,不能存在单点;提交请求的处理,若无法消除单点(如有序提交场景下的ID分配),则需要有完整的备份方案(热备或者冷备)保障单机房故障时,可快速切换至其他机房。 2.跨机房混联 描述:上下游之间存在态的跨机房混联。 问题:逻辑单元未隔离在独立的物理范围内,单机房故障会给产品线带来全局性影响。同时流量调度也无法使得恢复正
追****圣 2018-07-11
给书记省长讲清楚云计算
第一次工业革命开始时,每一个矿都安装各自的蒸汽机;第二次工业革命开始时,每一个工厂都要重点解决电力等能源问题;息技术革命开始时每个公司都要有计算机工程师。但百川终到海,发动机能统一标准,电力能源能集中供应,云计算平台可以实现计算机技术的标准化,凭借规模效应降低成本,让客户直接付费购买息技术,极大减了客户的人力投入以及衍生的时间和管理成本。 息技术革命的核心工作是息的存储和处理,最重要的资源是数据。客户的数据放在云平台就像资金放在银行一样,银行可以根据储户的流水评估用,央行可以对货币行宏观调控,云平台一样可以对用户行评估计算,甚至国家层面可以行宏观管理调控。 综上所述,云计算就是将分散在各个公司的息技术资源汇聚到一个大平台,其兴起始于需求扩大而人力短缺,其未来发展趋势是通过规模经营和数据共享,成为新型息化社会的技术基石。 云计算如何带动地方经济 云计算落地是要自建数据中心机房,我们一般称之为云基地,云基地在经济利益和社会影响上和传统工厂并不相同。
M****H 2018-07-11
故障定位场景下的数据可视化实践
干货概览 百度拥有上百条产品线,数十万的,每个时时刻刻都在产生着海量的监控数据,形成的监控项规模总数已达数十亿。面对如此海量的数据,在日运维(如故障诊断、成本分析、性能优化等场景)过程中,传统的统计图表难以有效直观地展示如此庞大的数据。因此,优秀的监控数据可视化产品就呼之欲出,他既要数据准确、全面、时效性高,也需要提升用户的使用体验,使其能在茫茫数据中一眼就能发现想要观察的数据。 那么怎么做才能适应用户需求、完成精准展示,同时又能挖掘数据价值呢?下面我们从故障诊断的场景出发,来看百度智能监控平台是如何充分利用数据可视化器来解决实际业问题的。 故障定位可视化思路 在标准的故障处理流程中,故障定位一般可分为两个阶段: 故障止损前:期望可以快速获得可用于止损决策的息,做出相应的止损操作使得恢复。比如通过确定故障范围,调度流量绕过故障机房或摘除故障实例等。 故障止损后:仍需要一步到导致故障的深层次原因,确定故障根因,将线上环境恢复到正状态。
M****点 2018-07-10
中国云计算现状——产品篇
前言 上篇文章《中国云计算现状——成本篇》(大号首发改名为《做好云计算要花多钱》)讲的是成本问题,即什么企业有可能能做云计算。本文是第二篇产品篇,目标客户是云计算产品经理和云计算标准用户。我从一个老用户的角度谈谈每种云计算产品该如何使用,哪些产品改是刚需放心吐槽,哪些产品有内因就是改不了。本文主要说用云产品的问题,买云产品的问题在采购篇单聊。 正文 现在是2017年,云计算是物理硬件的优质替代方案,客户很认可云计算极低的采购和交付成本优势。这时候我们要被企宣PPT洗脑,追求华而不实的远景,这些PR文章的受众是风险投资、客户决策层和创业者。我们应该摸清楚云方案和硬件方案比有什么点和局限性,客户明白点才能使用得心应手,客户明白局限性才会早作备用方案,产品经理心里不慌才会关注核心功能。 一、IaaS产品 IaaS平台的本质是,产品以做硬件资源的虚拟化为本,业上承接物理硬件替代需求,其优势是最快速度最低成本交付,客户为预占的物理资源付费。IaaS产品是最经典的云计算,核心组件是云主机,如虚拟网络、云硬盘和安全组都是为支撑云主机业的。
若****客 2018-07-10
IT架构的本质--我的五点感悟
前言:架构师是个无趣的工作 老僧三十年前未参禅时,见,见水是水。 及至后来,亲见知识,有个入出,见不是,见水不是水。 而今得个休歇处,依前见只是,见水只是水。 参禅的三重境界在IT技术圈同样适用,初学者感叹每个产品都如此精妙绝伦,追逐着最强的IDE;老司机喜欢自比管乐指点江,嘲讽着最好的语言;当一切回归平淡,搞IT就是一份思想延伸和语言翻译工作;其中技术架构师就是一份古朴甚至无趣的工作。 我将架构师的工作总结出五条核心道理,这五条经验简单直白又深奥通透,算是对我十二年IT工作的一个总结。 1. 需求优化最重要 依赖,Less is more 一个IT系统是多角色多模块分层分级的,像OSI模型上层应用简单依赖下层支撑,SOA设计中同级角色也只看对方的接口。 各角色分工明确方便快速实现业,但是给架构优化也埋下大坑,底层的盲目支撑是巨大资源浪费,平级调度协作也没任何弹性。前端一个小逻辑需求会导致后端大规模联动,不同也没权限理解对方的内存数据,各个角色的工程师都只看自己的工作范围,这是正又无奈的现状。
布****五 2018-07-10
如何执行一条命令
这里我们并不关心程如何创建,PBC的结构如何等细节,我们只关心命令程的启动方式以及结果的获取方式。 为什么要执行命令 在分布式产品的开发维护过程中,有三个主题是无法绕过的,分别是配置管理、部署升级和监控采集。 配置管理 配置管理的目标是为了标识变更、控制变更、确保变更正确实现并向其他有关人员报告变更。从某种角度讲,配置管理是一种标识、组织和控制修改的技术。通情况下,配置管理都会统一部署配置器来同步所有节点的配置。但是在开发测试过程中,总会出现临时修改某个或某一批节点的配置的情况,这时通过人工逐个登录来完成修改显然是不太可能的。 部署升级 DevOps的概念如今日趋流行,部署升级越发成为开发运维过程中重要的一环,频繁的交互意味着频繁的部署。部署过程可以拆解为两个小的步骤,一是新软件包的上传,二是程的重新启动。程的重新启动不必多说,软件包的上传可能有多种方式,如sftp的集中式,p2p的点对点式等。 监控采集 软件运维过程需要时刻监控系统及业软件的运行状态,各种运维决策都是以这些数据为依据行的。
小****园 2018-07-10
让PB级云存储不再神秘
一个分布式系统中,客户端是可控可,可以知晓群集内其他状态,则群集设计会非简单,可以做到所有组件都自动协商、自宣告状态、有序引导流量以及异错误重试。 读写代理要访问元数据时可以看到主从库的选举结果,还可以从状态获取存储群集的自宣告息。它不会访问已经宕机的数据库,也不会往已满的存储内写入数据。自宣告的状态息总有意外时效的情况,这没关系,局域网内重试速度很快的,客户感觉只是多了几毫秒延迟。 读写代理还可以将一些读写策略、缓存策略写入自身配置属性,比如100k以下文件写到SSD存储池,优先写入新扩容存储器,某Bucket文件自动做异地复制,某后缀名的文件不缓存,某账户有API语法等等。 综上所述,读写代理是元数据和存储系统的可控可可减负的好朋友好客户。 4、存储的硬功夫 存储在元数据和读写代理的保护和调度下过滤了外部访问压力,每个节点都只关心存储本职工作就好。 对象存储群集内部存储可以分为四种,可四种混用也可只用一两个。
思****来 2018-07-11
重磅:构建AIOps的MNIST
一文中提到,运维操作一般可以分为感知、决策、执行三部分,而在感知阶段我们通过识别指标数据中不符合预期的模式来发现,即监控数据的异检测。 很多时候,大家手中的异检测是一条拍脑袋想出来的规则,或者根据经验大致估算的阈值。这样的异检测存在较多误报、漏报、效果不佳的情况。而上线前基于标注数据的效果评估是提高效果最重要的手段。为了获取大量、准确的标注数据来评估算法效果,我们行了一系列探索。 本文将主要介绍在监控数据异标注实践中遇到的问题和解决方案,并给出一个当前由百度智能运维团队与清华大学Netman实验室合作研发的辅助标注工具原型https://github.com/baidu/Curve,欢迎大家一起探讨。 时序数据异标注 在监测的收入、流量、可用性、性能等指标时,通会对数据行流式的采集和汇聚,每个数据点反映的是某段时间内的状态,这些时间序列数据简称时序数据。 在异检测方面大家或多或都有过类似经历:针对一次故障设置了报警规则,其中的阈值根据这次故障设置。上线后不断发生误报,因此调低阈值。阈值调低后误报减,但在一次新故障发生时发生漏报,又调高阈值。
p****d 2018-07-11
单机房故障自愈--运维的春天
容量保护模式:针对固定比例模式存在的容量风险问题,改的流量调度方式为执行前判断容量是否充足,容量充足则行流量调度,否则不行调度并通知人工介入处理。但此种方案面对的问题是: 1.容量仍有buffer可以行部分止损。期望能够在不超过容量保护的情况下行尽可能的调度,减对用户的影响。 2.即使按照容量行调度,过载仍可能发生,容量数据本身存在一定误差,流量成分的变化以及变更等导致的容量退化,都可能导致原先容量无法完全可。 【解决方案】 基于容量水位的动态均衡 在流量调度时,对于容量不准确存在的风险,我们划分两条容量警戒线。 安全水位线:流量处于在安全线以下则风险较小,可以一步行切换。 水位上限:该水位线表明的最大承载能力,一旦流量超过故障水位线,很大概率会导致容量过载。 如果安全水位线提供的容量不足以满足止损,那我们期望使用上两条中间的容量buffer,同时流量调度过程中行分步试探,避免一次性调度压垮。 基于快速熔断的过载保护 在流量调度时,建立快速的熔断机制作为防止过载的最后屏障。一旦出现过载风险,则快速停止流量调度,降低次生故障发生的概率。
TOP