关于 那坡县找个小姐过夜服务一条龙〖8843O306VX〗服务真实敌 的搜索结果,共1805
h****e 2018-07-10
程序:我从哪里来?
在BNS系统中,单元表示例集合,般以三段式的结构表示,比如:server.noah.all,server表示名,noah表示产品线,all表示机房名称,单元的名字在系统中是唯的。 使用场景 在程序员的日常工作,常常面临以下的场景: 场景 场景:我是名OP工程师,负责几十系统模块的运维,我常常需要登录部署的机器排查问题,但是只知道名,记不住么多部署信息,怎么办? 场景二:我是名RD工程师,我负责的需要扩容,我的是很多下游的依赖,的扩容怎么通知给下游模块? 场景三:我的部署例有出现故障了,我想对下游屏蔽该故障例,怎么办? 下面以简单的例子来说明,假设模块名是Server,它的上游是Proxy,下游是Redis,当出现变更或者故障时,如何让上游感知到呢? 当新增上线例、下线摘除例或者例发生故障时,BNS系统通部署在机器上的客户端时感知到例的状态变化,同时新增和删除例的变更情况会立即同步到分布式的缓存系统中,这样用户通BNS名字就可以感知到下游的例变化。
w****0 2018-07-11
单机房故障自愈-黎明之战
单机房容灾能力--盲测验收 完成以上四点单机房容灾能力建设后,业线就具备了通流量调度进行止损单机房故障的基本件。么如何验证业线是否具备该能力、能力是否出现退化,我们采取盲测验收的方式,模拟或制造故障,验证不同业线故障情况及止损效率,并给出相应的优化意见。 根据业线进行容灾能力建设的不同阶段,我们从对产品际可用性影响程度、成本、效果等方面权衡,将盲测分为三种类型: 无损盲测:仅从监控数据层面假造故障,同时被测业可根据监控数据决策流量调度目标,对于业际无影响,主要验证故障处置流程是否符合预期、入口级流量切换预案是否完整。 提前通知有损盲测:植入际故障,从网络、连接关系等基础设施层面植入错误,对业有损,用于战验证产品线各组件的逻辑单元隔离性、故障应急处置能力。同时提前告知业盲测时间和可能的影响,业线运维人员可以提前准备相应的止损操作,减少单机房止损能力建设不完善导致的损失。 无通知有损盲测:在各业线单机房容灾能力建设完成后,进行不提前通知的有损盲测,对业来说与发生故障场景完全相同。验证业线在单机房故障情况下的止损恢复能力。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
这次验好玩的地方在于: 我定35分的任计划,结果ntpd将时间跃变越了第35分直接到了37分,但该任计划仍然执行了。而从执行输出结果是37分来看,这不是步快跑的踩35分,而是第35分被越了不存在。 这验里坑很多,人要和时间赛跑才能完成验,我做了8次验成功了3次,每次都等了10分钟以上。这验也不够严谨,我只是拿crond做验,我在梦里记得其他有历史守规矩的程序也能和ntpd联动,但我没时间做验了,也希望有朋友能帮我答疑解惑。 附录2:网上能写NTPD和ntpdate的水文和本文内容有些类似,是我多年以前写的,不是借鉴和抄袭,严肃脸。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动
首先被读取到的是/etc/fstab,各磁盘都挂载就位。这文件注释很简单但水很深,我们该用标签还是UUID来标识磁盘,文件系统自检功能要不要开,这都可以聊好几时。 看看各的启动优先级也是讲究多多的程,iptables会比network先启动这类依存关系很好理解;但我也遇到云平台的DHCP获取太慢,而云主机操作系统启动快、Network还没从DHCP里获取到IP地址,然后Mysqld等需要监听端口的启动失败。 后记 以上内容只能算精简科普版的Linux系统启动程,正式版的启动程可以写十万字,有兴趣的朋友可以自己查维基百科,或拿我说的关键字去百度搜索。 曾经我把这些技能当做资历,但现在大家都上云了,它们就只是闲聊的谈资了。但客户上云就能少招研究这事的工程师,上云确也很有意义啊。 静人稀,沙子关好了门,气把六十四枪刺下来;而后,拄着枪,望着天上的群星,想起当年在野店荒林的威风。叹口气,用手指慢慢摸着凉滑的枪身,又微微笑,“不传!不传!”----老舍《断魂枪》
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
单机房故障诱因众多不可避免 单机房故障诱因众多,详细复盘若干单机房故障发现故障诱因大致可以分为四类: 基础设施故障:物理机房故障、网络链路拥塞、流量转发基础设施故障等 程序缺陷:程序隐藏bug、程序性能严重退化等 变更故障:测试不充分的程序、配置、数据变更,人工临时介入的误操作等 依赖故障:第三方故障例如通用的认证、支付、存储、计算故障等 单机房故障止损可靠性与效率急需提升 人工处理场景下,运维人员通常选择7*24时值班,接收大量的报警,随时准备在紧急情况下进行响应、决策、操作系列故障止损动作,尽量挽回损失,降低故障影响。 但上述解决方案会面临如下问题: 响应可能不够迅速:例如间报警 决策可能不够精确:例如新手OP经验欠缺,误决策 操作可能出现失误:例如止损命令错误输入 “机器人”处理场景下,单机房故障自愈程序可独立完成故障感知、决策、执行的完整故障处理程,并及时向运维人员同步故障处理状态。运维人员的职责由处理转向管理,最终运维人员在低压力值班中保证稳定运行。
疏****月 2018-07-09
键上线Archer | 百度持续部署的瑞士军刀
干货概览 业部署(熟称上线)是运维领域最常见的业类型,主要涉及线上代码变更、配置文件变更(数据变更由于其高频、大量的特点,我们已在数据传输文章《嗖的下,让数据自动生效》中专门讨论)。般的业上线具有不定时操作、业部署情况复杂、单机启停策略复杂等特点。在手工运维时代,运维人员需要花费大量精力进行此类重复性工作,且易于出错。从公布的数据显示,Google 70%的生产事故由上线变更触发,如何减少变更程中人为误操作,提供灵活、稳定的部署系统是运维平台研发人员所亟需解决的问题。 基本介绍 在运维自动化的大潮下,百度运维管理平台Noah发布了键上线部署系统——Archer。Archer致力于提供套产品线全程的可迁移发布解决方案,键完成机器初始化、部署、添加模块监控、添加CT任、动态数据文件的分发等全程的自动操作。在操作方面,Archer提供了命令行工具作为发起次上线的操作入口,这种设计模式也决定了其易于集成的特点。在DevOps流水线作业中,Archer可以作为环节结合进整测试发布流水线中。
M****点 2018-07-10
中国云计算现状——产品篇
当客户的非CDN云资源采购金额500万以后,其子项目之间没有内网互通的需求,这时候该做跨厂商的云端资源管理方案了。现在虚拟机不能像CDN样随意迁移,但未来Serverless崛起,计算能力也会在多厂商之间漂移的。客户提前把云管平台从计费和权限层面做好,至少在项目级别可以和多厂商侃价,还能模糊计费相关业数据。 五、企业IT咨询和 前面的云计算都免不了卖资源或者卖软件,搞IT咨询和可以让公司增加企业的融资概念和收入构成。中型云厂商都尝试转型做这类工作避开成本搏杀,大厂商嘴上说不要眼神也很诚。但具体参与程中,这类工作很少有成功案例,我做成功这类项目感慨也很深,本段落重点解释这些现象并给出建议。 先说IT咨询,去云计算平台吸引到的都是成本敏感的游戏客户或者技术优先的创业客户,这两类客户都不会为千元的咨询付费。现在高净值客户放出来的云计算咨询标了却没人投标,因为型云计算企业因为资质、高层合作、客户关系等原因没有投标的机会。 我们经常遇到咨询标,但我们也不想投这标。
流****水 2018-07-11
度云企业级运维平台——NoahEE
在业规模发展到定程度后,运维工作还停留在早期人工或脚本方式执行的阶段时,这样的差异非常频繁的发生。 在际的运维中,还有更多的因素需要考虑,例如机器是否会分配给不同部门(资源的隔离)?权限又该如何控制?随着规模变大,人力成本等管理成本上升,然而效率低下、可用性不升反降等等都是非常可能出现的问题。百度对于这问题给出的答案是,必须先要解决资源组织管理问题。简单的说,管理要解决的最核心问题就是如何对资源进行有效组织管理与定位: 图2 解决规模带来的问题 在管理这地基打好后,我们再来回顾下上面的例子。这例子中,地图研发的同学就可以在运维平台中选中导航的模块进行升级,运维平台会通管理来定位此次升级操作需要影响的机器并进行批量的操作。NoahEE中的所有运维系统,都以管理为基础来进行运维操作,例如在监控系统中,我们可以对导航模块(而不是单台机器进行操作)添加些指标采集任,并在件达成时报警。管理通对资源合理的组织,极大的简化了运维操作,提升了运维效率。
布****五 2018-07-10
如何执行命令
部署升级 DevOps的概念如今日趋流行,部署升级越发成为开发运维程中重要的环,频繁的交互意味着频繁的部署。部署程可以拆解为两的步骤,是新软件包的上传,二是进程的重新启动。进程的重新启动不必多说,软件包的上传可能有多种方式,如sftp的集中式,p2p的点对点式等。 监控采集 软件运维程需要时刻监控系统及业软件的运行状态,各种运维决策都是以这些数据为依据进行的。随着自动化运维的发展,很多运维动作都从人工执行变为了自动执行,自动执行的决策程更是需要采集大量的时信息(前期文章《百度大规模时序数据存储》中介绍的TSDB就是为了解决这些数据的存储问题而研发的)。监控数据的来源主要分两种,种是通软件提供的接口直接读取状态数据,另种是通日志/进程状态/系统状态等(如使用grep提取日志,通ps查询进程状态,通df查询磁盘使用等)方式间接查询。 无论是配置管理、部署变更还是监控采集,都有共同的目的:控制器。在现阶段,要想对器进行控制,离不开“在大量器上执行命令并收集结果”这基础能力,这也是今天我们的主题“如何执行命令”的意义所在。
s****d 2018-07-11
亿元级云用户分析
3.3数据存储池 数据存储池是很难年均摊营收上亿的,但定1000万的目标是能现的;如果有1000万的非冷备存储池,很容易带来数倍数十倍的计算和带宽消费。存储资源是大订单曲线突破的好选项,还是AI和大数据项目的基石,我们和客户讲的是有技术含量的故事,需要精英售前给销售做幕后军师。 配图说明:谁掌握了数据,谁就掌握了理 3.4人力资源池 亿元项目不可能是客户自助施的,人力营收占比很低但画点睛,可能会干掉纯卖资源的友商,也可能晚交付半月就亏损上千万。云厂商提供四类人力资源: 第类是方案咨询和项目规划,不要被免费通用售前蒙蔽了视野,出彩的规划咨询重度依赖精英人力,既要是云产品专家又要是客户侧IT高手; 第二是平台侧研发运维,即使最标准的CDN也要定制日志接口、微调卡顿和回源比,销售铁三角必须最顺畅沟通最高优先级; 第三是项目侧施人力,云厂商可以做盖机房到App适配的所有工作,客户只想对接总包责任人; 第四是客户挖不来留不住“云厂商母公司的顶级技术高手”,他们想借云项目让高手做人力输出,但是……。
小****园 2018-07-10
让PB级云存储不再神秘
窃取用户数据指的是监守者自盗后自用,要是泄露给第三方是安全事故可以直接报警抓人,但平台方自用用户数据很难抓现行。云存储里大都是多媒体数据,谁敢盗播打官司就好;日志文件加密了就用不了云端大数据分析了,但不挂人信息的基因测序样本被偷了也不怕。如果客户的特别害怕丢数据,云平台确没手段能自证清白,谁偷用户数据只能听业内风闻。 正让用户头疼的是平台方会根据计费日志估算你的业规模,就像区保安总共能看到你何时出门样。据不可靠传闻,某厂商本来能拿到某云厂商母公司数亿美元投资,自吹数据量有数PB,该司投资部去调了下他们的消费金额就取消投资了。单消费总金额就这么麻烦,访问日志可以看文件数量、用户规模分布和大致的动作类型,新兴企业最好还是把业分散在两厂商里,毕竟他们两家不能核对你的账单。 最后就是有些领先大厂直接压制,故意做技术无关的不兼容、甚至拒绝、甚至从其他层面正面打压业。这里就不举例了,太明显针对单厂商。如果只是技术不兼容算和其他云平台恶意竞争,如果到了云平台明抢客户自身业的阶段,技术采购决策人请把风险告知公司决策层,该妥协还是硬扛不是你的职责范围。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前都荒废了,因为卡得匹。
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
软件BUG 相比客户自己粗选物理机的OS,云主机精选的虚拟机OS、宿主OS、Hypervisor的软件BUG并不多,大中型云厂商都有精选底层支撑软件的力,但客户装物理机自选的OS都可能有驱动问题,三精选软件的故障率粗选软件更高。 但是从云资源的管理、调度、监控软件,到客户界面,API管理、账户和后台策略层面,越往上走的软件质量还不如XXXX,此处省略万五千字,客户自己揣摩吧。 厂商深层原因 厂商报故障就跟滚刀肉挨揍样,脸疼了就把屁股凑来,屁股疼了就捏捏脸,般不会按住只羊使劲薅羊毛,毕竟云报障也要负载均衡。但客户自己心里要有秆秤,厂商究竟是偶尔发挥失常还是烂泥扶不上墙,故障的性质对长久的品质很重要。 我列下潜在的故障原因,哪些故障能忍,哪些故障不能忍,这些要云客户自己评估了。 技术原因 IaaS的核心主体功能(云主机、云硬盘、VPC),在没有特型要求前提下,是可以用开源方案搭建。如果是云厂商连开源平台标准模块都部署失败,就该换厂商了;如果是偶发的BUG,客户要自认倒霉,因为友商也会遇到同样问题。
l****m 2018-07-10
五年前的预言——2012年云计算时代的运维职位展望
2、进行云计算器维护;几大云供应商自己也要维护器,些大中型企业肯定会自己做私有云,在这云计算平台里也是需要运维人员进行从低端监控到高端架构的系列维护工作,但自动化运维技术会让运维人员的数量大大减少,可能每公司都只有团队了。 3、进传统行业继续做运维;笔者就是在通讯公司工作,我可以很乐观的说云计算会对公司造成有限的技术革新,比如说现OS的虚拟化。我们需要的SIP必须亲自搭建,阿里盛大新浪都没得卖,甚至因为硬件和网络限制让我们很难使用虚拟机;而外宣网站类的东西根本不是我们的核心竞争力,能用就好效率低些没关系。除了通讯公司之外,生产领域(比如管理生产线)也有类似的顾虑,云计算的优势和公司的业需求完全不沾边,所以这类公司的运维可能会是最后的运维。大家工作的时候都习惯网站相关的工作,但你学Web就定要网站工作是挺蠢的行为,危邦不入乱邦不居,最好不要涉足没有前途的行业。
若****客 2018-07-10
IT架构的本质--我的五点感悟
2.群集设计通用规则 前端复制后端拆,时改异步,三组件互换 前端复制后端拆,时改异步,IO-算力-空间可互换——要做架构就要上群集,而群集设计调优翻来覆去就是这三板斧: 前端是管道是逻辑,而后端是状态是数据,所以前端复制后端拆。前端器压力大了就多做水平复制扩容,在网站类应用上,无状态-会话保持-弹性伸缩等技术应用纯熟。后端要群集化就是多做业拆分,常见的就是数据库拆库拆表拆键值,拆的越散微操作就越爽,但全局操作开销更大更难控制。 时改异步是我学的最后门IT技术,绝大部分“时操作”都不是业需求,而是某应用无法看到后端和Peer状态,默认就要时处理结果了。CS模式的时操作会给支撑带来巨大压力,Peer合作的时操作可能会让数据申请方等宿。架构师将无脑大事拆分成多,这就是异步架构,但拆分事就跟拆分数据表样,拆散的需要更高业层级上做全局事保障。 在群集性能规划中,网络和硬盘IO+CPU算力+磁盘和内存空间是可以互换的,架构师要完成补不足而损有余的选型。
追****圣 2018-07-11
给书记省长讲清楚云计算
云计算是商业,不仅需要硬性支持,还需要足够的环境和政策支持。当前云计算公司聚集在线大城市,环境规范稳定但成本极高竞争压力极大,云计算企业也在尝试向二三线转移突围。二三线城市不仅要积极准备云计算硬性资源,还可以用合作融资、税收优惠等等灵活政策承担产能转移的,最终说云计算公司将GDP和税收留在当地。 云计算平台提供的都是互联网,大量的互联网部署在本地会有极大的管控压力。二三线城市对互联网还只是简单的管控,稍有不解可能就会封禁大批互联网,但道封网命令就可以毁掉云计算公司的声誉。如果当地政企要做好云计算就要从管理者变为者,必须在管控违规违法时不惊扰正常业,甚至主动出击为正常网络保驾护航。 前几都是从降低成本可靠的角度请云计算企业来合作建厂,如果你有市场有客户对方会主动上门寻求合作。从长周期来看云计算的客户是覆盖全球全行业的,各地内部采购的计算机项目根本不值提,市场和客户要靠云计算厂商自己去。但现在云计算厂商还在早期扩张摸索之中,云厂商极端渴求各种政云企业云成功模式案例,旦摸出来案例会迅速推广到全国。
M****H 2018-07-11
故障定位场景下的数据可视化
干货概览 百度拥有上百产品线,数十万的,每时时刻刻都在产生着海量的监控数据,形成的监控项规模总数已达数十亿。面对如此海量的数据,在日常运维(如故障诊断、成本分析、性能优化等场景)程中,传统的统计图表难以有效直观地展示如此庞大的数据。因此,优秀的监控数据可视化产品就呼之欲出,他既要数据准确、全面、时效性高,也需要提升用户的使用体验,使其能在茫茫数据中眼就能发现想要观察的数据。 么怎么做才能适应用户需求、完成精准展示,同时又能挖掘数据价值呢?下面我们从故障诊断的场景出发,来看百度智能监控平台是如何充分利用数据可视化武器来解决际业问题的。 故障定位可视化思路 在标准的故障处理流程中,故障定位般可分为两阶段: 故障止损前:期望可以快速获得可用于止损决策的信息,做出相应的止损操作使得恢复。比如通确定故障范围,调度流量绕故障机房或摘除故障例等。 故障止损后:仍需要进到导致故障的深层次原因,确定故障根因,将线上环境恢复到正常状态。
TOP