关于 找服务小妹一条龙 78792796-微V号苍南芦浦模特服务一夜解 的搜索结果,共1598
h****e 2018-07-10
程序:我从哪里来?
在BNS系统中,单元表示的实例集合,般以三段式的结构表示,比如:server.noah.all,server表示名,noah表示产品线,all表示机房名称,单元的名字在系统中是唯的。 使用场景 在程序员的日常工作,常常面临以下的场景: 场景 场景:我是名OP工程师,负责几十个系统块的运维,我常常需要登录部署的机器排查问题,但是只知道名,记不住那么多部署信息,怎么办? 场景二:我是名RD工程师,我负责的需要扩容,我的是很多下游的依赖,的扩容怎么通知给下游块? 场景三:我的部署实例有个出现故障了,我想对下游屏蔽该故障实例,怎么办? 下面以个简单的例子来说明,假设块名是Server,它的上游是Proxy,下游是Redis,当出现变更或者故障时,如何让上游感知到呢? 当新增上线实例、下线摘除实例或者实例发生故障时,BNS系统通过部署在机器上的客户端实时感知到实例的状态变化,同时新增和删除实例的变更情况会立即同步到分布式的缓存系统中,这样用户通过个BNS名字就可以感知到下游的实例变化。
布****五 2018-07-10
如何执行命令
如何决 为了决这个简单的难题,我们设计了如图3所示的百度集群控制系统(Cluster Control System,简称CCS系统),通过分离控制信息与执行信息建立了两级数据型,结合命令执行及机房部署点建立了四级传输型,通过三级守护方式建立了稳定的执行代理,在大规器集群上决了“命令三要素”问题。 图3百度集群控制系统架构 截至目前,CCS系统已经部署在全百度的所有机房中,用户可以方便的在任意台机器上进行秒级命令下发和结果收集,日均承载数亿次来自各产品的接口调用。关于数据型、传输型、执行代理这“分布式命令三要素”的设计及应用,我们将在下篇文章中详细介绍。
疏****月 2018-07-09
键上线Archer | 百度持续部署的瑞士军刀
干货概览 业部署(熟称上线)是运维领域最常见的业类型,主要涉及线上代码变更、配置文件变更(数据变更由于其高频、大量的点,我们已在数据传输文章《嗖的下,让数据自动生效》中专门讨论过)。般的业上线具有不定时操作、业部署情况复杂、单机启停策略复杂等点。在手工运维时代,运维人员需要花费大量精力进行此类重复性工作,且易于出错。从公布的数据显示,Google 70%的生产事故由上线变更触发,如何减少变更过程中人为误操作,提供个灵活、稳定的部署系统是运维平台研发人员所亟需决的问题。 基本介绍 在运维自动化的大潮下,百度运维管理平台Noah发布了键上线部署系统——Archer。Archer致力于提供套产品线全过程的可迁移发布决方案,实现键完成机器初始化、部署、添加块监控、添加CT任、动态数据文件的分发等全过程的自动操作。在操作方面,Archer提供了命令行工具作为发起次上线的操作入口,这种设计式也决定了其易于集成的点。在DevOps流水线作业中,Archer可以作为个环节结合进整测试发布流水线中。
流****水 2018-07-11
度云企业级运维平台——NoahEE
随着规变大,人力成本等管理成本上升,然而效率低下、可用性不升反降等等都是非常可能出现的问题。百度对于这个问题给出的答案是,必须先要决资源组织管理问题。简单的说,管理要决的最核心问题就是如何对资源进行有效组织管理与定位: 图2 决规带来的问题 在管理这个地基打好后,我们再来回顾下上面的例子。这个例子中,地图研发的同学就可以在运维平台中选中导航的块进行升级,运维平台会通过管理来定位此次升级操作需要影响的机器并进行批量的操作。NoahEE中的所有运维系统,都以管理为基础来进行运维操作,例如在监控系统中,我们可以对导航块(而不是单台机器进行操作)添加些指标采集任,并在件达成时报警。管理通过对资源合理的组织,极大的简化了运维操作,提升了运维效率。 资产管理 在机房里,各种各样的器、网络设备和安全设备7x24时的运转,为我们的业提供了硬件保障,是企业的重要资产。各种设备的物理损坏、升级、新增、搬迁等等都在考验着机房运维人员的能力。怎样维护这些资产并记录信息,是个很重要的问题,搞得不好,这些资产可能变成运维人员的“包袱”,越多越头疼。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
单机房故障诱因众多不可避免 单机房故障诱因众多,详细复盘若干单机房故障发现故障诱因大致可以分为四类: 基础设施故障:物理机房故障、网络链路拥塞、流量转发基础设施故障等 程序缺陷:程序隐藏bug、程序性能严重退化等 变更故障:测试不充分的程序、配置、数据变更,人工临时介入的误操作等 依赖故障:第三方故障例如通用的认证、支付、存储、计算故障等 单机房故障止损可靠性与效率急需提升 人工处理场景下,运维人员通常选择7*24时值班,接收大量的报警,随时准备在紧急情况下进行响应、决策、操作系列故障止损动作,尽量挽回损失,降低故障影响。 但上述决方案会面临如下问题: 响应可能不够迅速:例如间报警 决策可能不够精确:例如新手OP经验欠缺,误决策 操作可能出现失误:例如止损命令错误输入 “机器人”处理场景下,单机房故障自愈程序可独立完成故障感知、决策、执行的完整故障处理过程,并及时向运维人员同步故障处理状态。运维人员的职责由处理转向管理,最终运维人员在低压力值班中保证稳定运行。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前都荒废了,因为卡得匹。
w****0 2018-07-11
单机房故障自愈-黎明之战
干货概览 在故障自愈机器人,保你安心好睡眠文中,我们介绍了单机房故障自愈的必要性和决思路。本文主要介绍单机房故障自愈前需要进行的准备工作,具体包括: 单机房容灾能力建设中遇到的常见问题及决方法 基于网络故障及业故障场景的全面故障发现能力 百度统前端(BFE)和百度名字(BNS)的流量调度能力 单机房容灾能力--常见问题 单机房故障场景下,流量调度是最简单且最有效的止损手段,但我们发现业线经常会遇到如下问题导致无法通过流量调度进行止损: 1.存在单点 描述:系统内只有个实例或者多个实例全部部署在同物理机房的程序块即为单点。 问题:单点所在机房或单点自身发生故障时,无法通过流量调度、主备切换等手段进行快速止损。 要求:浏览请求的处理,不能存在单点;提交请求的处理,若无法消除单点(如有序提交场景下的ID分配),则需要有完整的备份方案(热备或者冷备)保障单机房故障时,可快速切换至其他机房。 2.跨机房混联 描述:上下游之间存在常态的跨机房混联。 问题:逻辑单元未隔离在独立的物理范围内,单机房故障会给产品线带来全局性影响。
M****点 2018-07-10
中国云计算现状——产品篇
前言 上篇文章《中国云计算现状——成本篇》(首发改名为《做好云计算要花多少钱》)讲的是成本问题,即什么企业有可能能做云计算。本文是第二篇产品篇,目标客户是云计算产品经理和云计算标准用户。我从个老用户的角度谈谈每种云计算产品该如何使用,哪些产品改进是刚需放心吐槽,哪些产品有内因就是改不了。本文主要说用云产品的问题,买云产品的问题在采购篇单聊。 正文 现在是2017年,云计算是物理硬件的优质替代方案,客户很认可云计算极低的采购和交付成本优势。这时候我们要少被企宣PPT洗脑,追求华而不实的远景,这些PR文章的受众是风险投资、客户决策层和创业者。我们应该摸清楚云方案和硬件方案比有什么点和局限性,客户明白点才能使用得心应手,客户明白局限性才会早作备用方案,产品经理心里不慌才会关注核心功能。 、IaaS产品 IaaS平台的本质是,产品以做硬件资源的虚拟化为本,业上承接物理硬件替代需求,其优势是最快速度最低成本交付,客户为预占的物理资源付费。IaaS产品是最经典的云计算,核心组件是云主机,如虚拟网络、云硬盘和安全组都是为支撑云主机业的。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动过程
这个文件注释很简单但水很深,我们该用标签还是UUID来标识磁盘,文件系统自检功能要不要开,这都可以聊好几个时。 看看各的启动优先级也是个讲究多多的过程,iptables会比network先启动这类依存关系很好理;但我也遇到过云平台的DHCP获取太慢,而云主机操作系统启动快、Network还没从DHCP那里获取到IP地址,然后Mysqld等需要监听端口的启动失败。 后记 以上内容只能算精简科普版的Linux系统启动过程,正式版的启动过程可以写十万字,有兴趣的朋友可以自己查维基百科,或拿我说的关键字去百度搜索。 曾经我把这些技能当做资历,但现在大家都上云了,它们就只是闲聊的谈资了。但客户上云就能少招个研究这事的工程师,上云确实也很有意义啊。 静人稀,沙子关好了门,气把六十四枪刺下来;而后,拄着枪,望着天上的群星,想起当年在野店荒林的威风。叹口气,用手指慢慢摸着凉滑的枪身,又笑,“不传!不传!”----老舍《断魂枪》
k****0 2018-07-09
使用Python SDK开发语录类技能
此技能板是针对语录类技能设计的板,如海贼王语录,游戏语录等。本文从技能交互、部署讲述如何快速搭建海贼王语录技能。 语录类技能板的交互型 语录类技能跟用户的交互很简单。用户说“来个”,技能从语录列表中选取读给用户,用户可以继续说“来个”继续听语录,或者说“退出”以结束交互。 使用板开发技能的流程 新建技能 新建技能详情请参阅自定义技能创建 配置意图 意图配置详情请参阅意图、常用表达和槽位 语录类技能板需要创建“获取语录”意图。获取语录意图如下图所示: 配置技能部署 语录类技能板使用CFC部署技能。使用CFC部署技能详情请参阅 百度云CFC 修改CFC函数代码 开发者通过板创建函数以后,可在线编辑函数。
s****7 2018-07-10
知著看技术误——从裸光纤和NTPD谈起
NTPD是个时间同步,ntpdate是个时间同步命令。很多工程师都会采用Crond+ntpdate的方式同步时间,究其原因是“NTPD不太好用”。 而我不喜欢用ntpdate同步时间的工程师,NTPD是个体系化的,而ntpdate只是个动作,大部分人没做好为ntpdate这个动作负责。 正常的时间是个持续增长的向量,即老时间t1肯定于新时间t2,新时间t2也于最新的时间t3,而且t1必定会渐进增长到t2和t3。除了少数商业数据库自带时钟源以外,大部分业对系统时间是盲目信任,不相信t1会越过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序健壮性和业安全性,甚至部分程序崩溃的稀里糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目信任;假设个根NTP不稳定,所有的器获得了错误的时间,虽然现在业层可以包容异常,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。
追****圣 2018-07-11
给书记省长讲清楚云计算
云计算是个商业,不仅需要硬性支持,还需要足够的环境和政策支持。当前云计算公司聚集在线大城市,环境规范稳定但成本极高竞争压力极大,云计算企业也在尝试向二三线转移突围。二三线城市不仅要积极准备云计算硬性资源,还可以用合作融资、税收优惠等等灵活政策承担产能转移的,最终说云计算公司将GDP和税收留在当地。 云计算平台提供的都是互联网,大量的互联网部署在本地会有极大的管控压力。二三线城市对互联网还只是简单的管控,稍有不可能就会封禁大批互联网,但道封网命令就可以毁掉个云计算公司的声誉。如果当地政企要做好云计算就要从管理者变为者,必须在管控违规违法时不惊扰正常业,甚至主动出击为正常网络保驾护航。 前几都是从降低成本可靠的角度请云计算企业来合作建厂,如果你有市场有客户那对方会主动上门寻求合作。从长周期来看云计算的客户是覆盖全球全行业的,各地内部采购的计算机项目根本不值提,市场和客户要靠云计算厂商自己去。但现在云计算厂商还在早期扩张摸索之中,云厂商极端渴求各种政云企业云成功式案例,旦摸出来案例会迅速推广到全国。
M****H 2018-07-11
故障定位场景下的数据可视化实践
基于上面的需求,可以总结为以下三个定位的层次,从整体到局部逐步缩故障范围,到故障根因: 全局问题定位:快速确认线上状态,缩故障判定范围。为可能的止损操作提供判断依据。本文会介绍如何构建个全景分析仪表盘。 细分维度定位:通过分析地域、机房、块、接口、错误码等细分维度,进步缩问题范围,确定需要排障的目标块、接口等。本文会介绍如何基于多维度数据可视化决维度数量暴增带来的定位难题。 故障根因确认:些情况下,问题的根因需要借助除监控指标之外的数据进行分析。例如上线变更、运营活动导致的故障。本文针对导致故障占比最高的变更上线类故障进行分析,看如何快速到可能导致故障的变更事件。 全景掌控缩范围 对于乃至产品线而言,拥有个布局合理、信息丰富的全景监控仪表盘(Dashboard)对于状态全景掌控至关重要,因此在百度智能监控平台中,我们提供了款可定制化的、组件丰富的仪表盘。 用户可以根据征,自由灵活的组织仪表盘布局,配置所需要展示的数据信息。
s****d 2018-07-11
亿元级云用户分析
硬件和系统管理——硬件是标准还是配、产权是租是卖、内网代维还是自主设计、器交钥匙还是黑盒——不同的客户项目需求,导致硬件管理和监控不同于传统方案也不同于其他云项目。 广域网联通方案——云厂商大都是互联网出身,他们拥有DDOS的资源和统前端的实践经验,还有海量廉价优质带宽。限制客户梦想的是老旧系统是否支持常见协议,还有底层工程师能否推动上层业测试和变动。 API调用PaaS——API云就是不可控过程的黑箱,客户没预算没精力就盲目信任云厂商。客户有精力就做多云冗余校验,有预算就做专有资源池部署;未来云厂商还会自定义SLA标准——大部分API云连等待超时都没定义。 版本发布和数字化转型——无论是观的版本发布还是宏观的数字化转型,其实都和上云没直接联系,个是室内装修工作,个是新建房屋工作,但装修的最好时机是房屋重建的时候,云厂商要帮客户推动IT技术革新。 5.输出分析 云厂商输出给客户的即有云端IT资源,也有平台输出。是个比资源更难量化的概念,我只引把火苗出来。
若****客 2018-07-10
IT架构的本质--我的五点感悟
前端器压力大了就多做水平复制扩容,在网站类应用上,无状态-会话保持-弹性伸缩等技术应用纯熟。后端要群集化就是多做业拆分,常见的就是数据库拆库拆表拆键值,拆的越散操作就越爽,但全局操作开销更大更难控制。 实时改异步是我学的最后门IT技术,绝大部分“实时操作”都不是业需求,而是某应用无法看到后端和Peer状态,默认就要实时处理结果了。CS式的实时操作会给支撑带来巨大压力,Peer合作的实时操作可能会让数据申请方等宿。架构师将个无脑大事拆分成多个,这就是异步架构,但拆分事就跟拆分数据表样,拆散的需要更高业层级上做全局事保障。 在群集性能规划中,网络和硬盘IO+CPU算力+磁盘和内存空间是可以互换的,架构师要完成补不足而损有余的选型。比如数据压缩技术就是用算力资源来置换IO和空间,缓存技术是用空间和IO来缓算力压力,每个新选型都会带来细节上的万千变化,但每种变化都是符合自然规律有章可循的。 个经典机系统就是中央处理器+主存储器+IO设备,这几个概念居然和群集性能规划是对应。 3.
l****m 2018-07-10
词向量(
词向量型可以是概率型、共生矩阵(co-occurrence matrix)型或神经元网络型。在用神经网络求词向量之前,传统做法是统计个词语的共生矩阵XX。XX是个|V|×|V||V|×|V| 大的矩阵,XijXij表示在所有语料中,词汇表VV(vocabulary)中第i个词和第j个词同时出现的词数,|V||V|为词汇表的大。对XX做矩阵分(如奇异值分,Singular Value Decomposition [5]),得到的UU即视为所有词的词向量: X=USVTX=USVT 但这样的传统做法有很多问题: 由于很多词没有出现,导致矩阵极其稀疏,因此需要对词频做额外处理来达到好的矩阵分效果; 矩阵非常大,维度太高(通常达到106×106106×106的数量级); 需要手动去掉停用词(如although, a,...),不然这些频繁出现的词也会影响矩阵分的效果。 基于神经网络的型不需要计算和存储个在全语料上统计产生的大表,而是通过学习语义信息得到词向量,因此能很好地决以上问题。
p****d 2018-07-11
单机房故障自愈--运维的春天
单机房故障自愈的常见问题和决方案 传统的流量调度自动止损方案存在如下问题: 1容量风险控制能力不足 【问题描述】 传统流量调度的式有两种:固定比例式与容量保护式。 固定比例式:按照预先设定的固定预案,个机房故障,该机房的流量按照预先设定的比例分配到其他的机房。很可能某个机房的容量或剩余机房的总容量不足,切流量后导致多个机房发生故障。 容量保护式:针对固定比例式存在的容量风险问题,改进的流量调度方式为执行前判断容量是否充足,容量充足则进行流量调度,否则不进行调度并通知人工介入处理。但此种方案面对的问题是: 1.容量仍有buffer可以进行部分止损。期望能够在不超过容量保护的情况下进行尽可能的调度,减少对用户的影响。 2.即使按照容量进行调度,过载仍可能发生,容量数据本身存在定误差,流量成分的变化以及变更等导致的容量退化,都可能导致原先容量无法完全可信。 【决方案】 基于容量水位的动态均衡 在流量调度时,对于容量不准确存在的风险,我们划分两容量警戒线。 安全水位线:流量处于在安全线以下则风险较,可以步进行切换。
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
前言 云计算是不仅要次性验收其能力,还要持续关注其品质。客户用IaaS云就跟用IDC样,用谁家的云就知道谁家有故障,用家就知道家的短处才是正常,只有前个厂商烂到无可救药,客户才会对新厂商充满认可和感激。 本文的目的就是归类IaaS云故障的表层现象和深层原因,客户知道云的短板才好做系统设计,云厂商出故障也要老实认错,别总把客户当外行来糊弄。 至于PaaS云和IaaS云的设计实现思路完全不同,不在本文讨论范围内。 客户的感知和建议 IaaS云的核心资源是云主机,其他IaaS资源都是依附于云主机的;云主机的可靠性略高于物理机,但并不是云主机永不宕机。 只要云主机采购量稍上规,云主机用户总会遇到些故障。请谅和忘记供应商的营销话述,云主机用户必须自己在架构设计层面规避这些故障。 网络抖动 现在云平台已经都用SDN组网,SDN本质是“软件定义网络”,其主打卖点是灵活管理和控制,其性能和稳定性并不是主打方向,SDN软件的质量也要略差与于传统厂商。云平台都会有网络IO超卖复用,而且用器CPU软海量报文,其性能还是比传统网络略差的。
TOP