关于 罗定苹塘镇妹子过夜服务〖10669708薇信〗 的搜索结果,共853
h****e 2018-07-10
程序:我从哪里来?
在BNS系统中,单元表示一个的实例集合,一般以三段式的结构表示,比如:server.noah.all,server表示名,noah表示产品线,all表示机房名称,单元的名字在系统中是唯一的。 使用场景 在程序员的日常工作,常常面临以下的场景: 场景 场景一:我是一名OP工程师,负责几十个系统模块的运维,我常常需要登录部署的机器排查问题,但是只知道名,记不住那么多部署息,怎么办? 场景二:我是一名RD工程师,我负责的需要扩容,我的是很多下游的依赖,的扩容怎么通知给下游模块? 场景三:我的部署实例有一个出现故障了,我想对下游屏蔽该故障实例,怎么办? 下面以一个简单的例来说明,假设一个模块名是Server,它的上游是Proxy,下游是Redis,当出现变更或者故障时,如何让上游感知到呢? 当新增上线实例、下线摘除实例或者实例发生故障时,BNS系统通部署在机器上的客户端实时感知到实例的状态变化,同时新增和删除实例的变更情况会立即同步到分布式的缓存系统中,这样用户通一个BNS名字就可以感知到下游的实例变化。
疏****月 2018-07-09
一键上线Archer | 百度持续部署的瑞士军刀
后面任下发至具体机器,具体机器再从中转机拉取需要被部署的文件;中转机也为跨网络环境的部署提供了可能,隔离网段中的机器无法访问内网机器,通中转的“搭桥”完成了跨网段的数据传输; 提高自动化效率,能够集成测试发布自动化流水线 自动化效率方面,Archer提供了命令行工具,可接入各种脚本、平台。另外,Archer也可制化单机流程:针对不同的业场景,Archer提供了名为“operation_list” 的配置文件,采用YAML语法。单机执行流程步骤被制化成固几个种类。用户通简单的配置,即可实现“启停监控”、“启停”、“数据传输”、“执行某些命令或脚本”、“启停时任”等上线程中的常见操作的自由组织及编排。这种形式大大扩展了Archer的适用范围。在了解Archer使用方法的情况下,OP几分钟内即可配置出适用于数十条不同产品的上线方案。 其他设计点 每次的部署流程通web总控端的参数解析后,就被作为任下发到每台被部署的目标机器。当部署任从总控端发到被部署机器上时,任的具体执行依赖agent及一系列脚本。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
直接损失包括访问流量丢失、商业收入下降、用户体验受损、打破等级协议(SLA)造成的商业赔付等,间接损失包括用户任度下降、给竞品占领市场机会等。 单机房故障诱因众多不可避免 单机房故障诱因众多,详细复盘若干单机房故障发现故障诱因大致可以分为四类: 基础设施故障:物理机房故障、网络链路拥塞、流量转发基础设施故障等 程序缺陷:程序隐藏bug、程序性能严重退化等 变更故障:测试不充分的程序、配置、数据变更,人工临时介入的误操作等 依赖故障:第三方故障例如通用的认证、支付、存储、计算故障等 单机房故障止损可靠性与效率急需提升 人工处理场景下,运维人员通常选择7*24小时值班,接收大量的报警,随时准备在紧急情况下进行响应、决策、操作一系列故障止损动作,尽量挽回损失,降低故障影响。 但上述解决方案会面临如下问题: 响应可能不够迅速:例如间报警 决策可能不够精确:例如新手OP经验欠缺,误决策 操作可能出现失误:例如止损命令错误输入 “机器人”处理场景下,单机房故障自愈程序可独立完成故障感知、决策、执行的完整故障处理程,并及时向运维人员同步故障处理状态。
流****水 2018-07-11
度云企业级运维平台——NoahEE
在业规模发展到一程度后,运维工作还停留在早期人工或脚本方式执行的阶段时,这样的差异非常频繁的发生。 在实际的运维中,还有更多的因素需要考虑,例如机器是否会分配给不同部门(资源的隔离)?权限又该如何控制?随着规模变大,人力成本等管理成本上升,然而效率低下、可用性不升反降等等都是非常可能出现的问题。百度对于这个问题给出的答案是,必须先要解决资源组织管理问题。简单的说,管理要解决的最核心问题就是如何对资源进行有效组织管理与位: 图2 解决规模带来的问题 在管理这个地基打好后,我们再来回顾下上面的例。这个例中,地图研发的同学就可以在运维平台中选中导航的模块进行升级,运维平台会通管理来位此次升级操作需要影响的机器并进行批量的操作。NoahEE中的所有运维系统,都以管理为基础来进行运维操作,例如在监控系统中,我们可以对导航模块(而不是单台机器进行操作)添加一些指标采集任,并在一条件达成时报警。管理通对资源合理的组织,极大的简化了运维操作,提升了运维效率。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
除了少数商业数据库自带时钟源以外,大部分业对系统时间是盲目任,不相t1会越t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序健壮性和业安全性,甚至部分程序崩溃的稀里糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目任;假设一个根NTP不稳,所有的器获得了错误的时间,虽然现在业层可以包容异常,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。我们就说联机调试分布式日志,几个节点的时间有错可能日志就看不懂了。 NTPD做时间调整会有效减少这类情形,它不是简单的龟速调整时间,而是有柔性时间调整策略,让时间线的跃变和调整尽量少影响业(详情见附录实验);也不会盲目任远端时钟源,甚至固执的拒绝同步时间。NTPD本机时刻有可能不对,但不会忽快忽慢甚至停滞,NTPD通多次收发包选择权威稳的时间源,算出双方间的网络延迟,然后才会采新的时刻进行时钟同步。
布****五 2018-07-10
如何执行一条命令
可是如果要在几十万台机器上每天执行几十亿条命令,同时保证时效性,保证执行成功率,保证结果正确收集,保证7*24小时稳运行,就不是一件简单的事情了。所谓远行无轻担,量大易也难,在构建这样的执行系统的程中要面临诸多困难,此处举几个突出的例如下: 息存储问题:为了支持水平扩展,需要高效的内存数据库作为缓存。为了做到执行命令的可追溯、可统计,需要对执行的命令息持久化。日均几十亿的热数据,年均上万亿的冷数据,需要仔细选择存储方案。 任调度问题:为了达到在任意多台器上执行命令的要求,需要确何时分发命令、何时回收结果以及怎么样的并发度批量下发。 消息传输问题:为了保证命令高效正确送达目标器,需要构建一个可靠的命令传输网络,使命令息在准确送达的前提下保障传输的可靠与高效,毕竟百度的几十万台器分布在世界各地。 代理执行问题:为了更好的处理权限、单机并发等单机执行问题,需要在目标机构建执行代理,以应对单机的复杂执行环境。
w****0 2018-07-11
单机房故障自愈-黎明之战
故障发现:百度监控平台 百度监控平台,针对单机房止损程中的可用性场景,覆盖故障发现、止损决策、问题位各阶段的监控。同时针对单机房止损依赖的容量管理场景,提供资源类监控采集,为容量规划、扩缩容提供数据支持。实现从运营商外网链路、百度内部网络设备/链路、/实例、机器/容器的全方位数据采集与监控。满足网络类单机房故障、业类单机房故障的监控覆盖需求。 同时提供一系列数据分析方法。如智能异常检测、趋势预测、多维度分析、关联分析、和链路拓扑分析,实现故障的精准发现和位。 故障止损:百度流量调度平台 针对百度的网络架构和业架构,我们将流量调度拆分为三层:接入层、层、依赖层。 接入层:从外网用户发起请求经运营商网络到百度统一前端(BFE)的程,使用DNS实现外网流量调度。 层:从BFE流量转发至内网程,使用BFE提供的GSLB动态负载均衡进行流量调度。 依赖层:内网上下游业之间的流量调度程,使用百度名字(BNS)进行流量调度。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动
看看各的启动优先级也是一个讲究多多的程,iptables会比network先启动这类依存关系很好理解;但我也遇到云平台的DHCP获取太慢,而云主机操作系统启动快、Network还没从DHCP那里获取到IP地址,然后Mysqld等需要监听端口的启动失败。 后记 以上内容只能算精简科普版的Linux系统启动程,正式版的启动程可以写十万字,有兴趣的朋友可以自己查维基百科,或拿我说的关键字去百度搜索。 曾经我把这些技能当做资历,但现在大家都上云了,它们就只是闲聊的谈资了。但客户上云就能少招一个研究这事的工程师,上云确实也很有意义啊。 静人稀,沙龙关好了小门,一气把六十四枪刺下来;而后,拄着枪,望着天上的群星,想起当年在野店荒林的威风。叹一口气,用手指慢慢摸着凉滑的枪身,又微微一笑,“不传!不传!”----老舍《断魂枪》
追****圣 2018-07-11
给书记省长讲清楚云计算
综上所述,云计算就是将分散在各个公司的息技术资源汇聚到一个大平台,其兴起始于需求扩大而人力短缺,其未来发展趋势是通规模经营和数据共享,成为新型息化社会的技术基石。 云计算如何带动地方经济 云计算落地是要自建数据中心机房,我们一般称之为云基地,云基地在经济利益和社会影响上和传统工厂并不相同。云基地通俗易懂的展现形式就是开启数十万个高速运转的电脑铁皮箱,但这些电脑不用接显示器也不用人员现场操作,只要这些电脑能开机能上网就能对外。云基地和数字地产不完全相同,数字地产只装修好房,云基地关注用这些房做什么。 云基地是无烟工业,并不需要雇佣大量人口,对直接促进就业帮助不大;但云计算没有实体矿产投入和物品产出,只需要大量电力启动电脑也不会产生大量污染。 云基地像电视台和号塔一样,通产生和扩散数据息对客户提供,这些息的传输没有物流成本,光速直达全球每个角落。 因为云基地全球客户,所以云基地可创造极高的营收,但不能简单的计入地方政府的GDP。一个耗电三千瓦的机柜加附属空间占地5平方米,如果云计算资源全部售出,每年可产生20万元以上的营收。
p****d 2018-07-11
单机房故障自愈--运维的春天
比例模式:按照预先设的固预案,一个机房故障,该机房的流量按照预先设的比例分配到其他的机房。很可能某个机房的容量或剩余机房的总容量不足,切流量后导致多个机房发生故障。 容量保护模式:针对固比例模式存在的容量风险问题,改进的流量调度方式为执行前判断容量是否充足,容量充足则进行流量调度,否则不进行调度并通知人工介入处理。但此种方案面对的问题是: 1.容量仍有buffer可以进行部分止损。期望能够在不超容量保护的情况下进行尽可能的调度,减少对用户的影响。 2.即使按照容量进行调度,载仍可能发生,容量数据本身存在一误差,流量成分的变化以及变更等导致的容量退化,都可能导致原先容量无法完全可。 【解决方案】 基于容量水位的动态均衡 在流量调度时,对于容量不准确存在的风险,我们划分两条容量警戒线。 安全水位线:流量处于在安全线以下则风险较小,可以一步进行切换。 水位上限:该水位线表明的最大承载能力,一旦流量超故障水位线,很大概率会导致容量载。
M****点 2018-07-10
中国云计算现状——产品篇
有读者怪我认识浅薄,但是云内资源调度都做不好的用户,怎么能做好跨云的资源调度。 既然谈到了混合云,肯就要谈云管平台,云管平台不是伪需求而是新需求。当客户的非CDN云资源采购金额500万以后,其项目之间没有内网互通的需求,这时候该做一个跨厂商的云端资源管理方案了。现在虚拟机不能像CDN一样随意迁移,但未来Serverless崛起,计算能力也会在多厂商之间漂移的。客户提前把云管平台从计费和权限层面做好,至少在项目级别可以和多个厂商侃价,还能模糊计费相关业数据。 五、企业IT咨询和实施 前面的云计算都免不了卖资源或者卖软件,搞IT咨询和实施可以让公司增加企业的融资概念和收入构成。中小型云厂商都尝试转型做这类工作避开成本搏杀,大厂商嘴上说不要眼神也很诚实。但具体参与程中,这类工作很少有成功案例,我做成功这类项目感慨也很深,本段落重点解释这些现象并给出建议。 先说IT咨询,去云计算平台吸引到的都是成本敏感的游戏客户或者技术优先的创业客户,这两类客户都不会为一小时一千元的咨询付费。
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
有个客户非常任某个小云销售,他告诉该销售,虽然某大云有高层合作,某大云也说报价肯比某小云低5%;但是某大云的机制有问题,出故障从来都是衙门话,每次故障都要客户去乱猜和背锅。最终这个单在客户执行层的暗助之下,该小云快速把业来并坐实站住了,这份暗中相助就是靠个人商誉带来的任。 我和大客户谈故障的时候,喜欢把详细故障原因刨析给客户,企业客户是讲道理的,不要把糊弄ToC用户的手段来对付ToB客户。面对意外故障,我们有心向客户证明,换了其他厂商也一样会挂;面对人为故障,踏实认错是对客户的最后尊重,而公开事实也是逼着内部不会重蹈覆辙犯同样的错误。 去大家卖IDC、CDN、器和软硬件积累的个人商誉,是可以应用到云计算领域的。而云的高科技光环褪去、产品同质化以后,企业的核心竞争力仍然是有商誉的销售-售前-售后团队,这类人才永远是稀缺资源。 附录 请各位多琢磨评估本厂的云到底哪些组件是靠谱的,不要让赖你的客户受伤又受骗。
s****d 2018-07-11
亿元级云用户分析
4.架构和流程变化分析 大型云用户在上云程中,其IT架构逻辑逐步发生着变化,为了避免技术泄密和保证通用性,我写的比较简单。 硬件和系统管理——硬件是标准还是特配、产权是租是卖、内网代维还是自主设计、器交钥匙还是黑盒——不同的客户项目需求,导致硬件管理和监控不同于传统方案也不同于其他云项目。 广域网联通方案——云厂商大都是互联网出身,他们拥有DDOS的资源和统一前端的实践经验,还有海量廉价优质带宽。限制客户梦想的是老旧系统是否支持常见协议,还有底层工程师能否推动上层业测试和变动。 API调用PaaS——API云就是不可控程的黑箱,客户没预算没精力就盲目任云厂商。客户有精力就做多云冗余校验,有预算就做专有资源池部署;未来云厂商还会自义SLA标准——大部分API云连等待超时都没义。 版本发布和数字化转型——无论是微观的版本发布还是宏观的数字化转型,其实都和上云没直接联系,一个是室内装修工作,一个是新建房屋工作,但装修的最好时机是房屋重建的时候,云厂商要帮客户推动IT技术革新。 5.输出分析 云厂商输出给客户的即有云端IT资源,也有平台输出。
M****H 2018-07-11
故障位场景下的数据可视化实践
基于上面的需求,可以总结为以下三个位的层次,从整体到局部逐步缩小故障范围,找到故障根因: 全局问题位:快速确认线上状态,缩小故障判范围。为可能的止损操作提供判断依据。本文会介绍如何构建一个全景分析仪表盘。 细分维度位:通分析地域、机房、模块、接口、错误码等细分维度,进一步缩小问题范围,确需要排障的目标模块、接口等。本文会介绍如何基于多维度数据可视化解决维度数量暴增带来的位难题。 故障根因确认:一些情况下,问题的根因需要借助除监控指标之外的数据进行分析。例如上线变更、运营活动导致的故障。本文针对导致故障占比最高的变更上线类故障进行分析,看如何快速找到可能导致故障的变更事件。 全景掌控缩小范围 对于一个乃至一条产品线而言,拥有一个布局合理、息丰富的全景监控仪表盘(Dashboard)对于状态全景掌控至关重要,因此在百度智能监控平台中,我们提供了一款可制化的、组件丰富的仪表盘。 用户可以根据的特征,自由灵活的组织仪表盘布局,配置所需要展示的数据息。
TOP