关于 学妹上门服务十薇v信78792796苏州高新区服务程 的搜索结果,共973
h****e 2018-07-10
序:我从哪里来?
在BNS系统中,单元表示一个的实例集合,一般以三段式的结构表示,比如:server.noah.all,server表示名,noah表示产品线,all表示机房名称,单元的名字在系统中是唯一的。 使用场景 在序员的日常工作,常常面临以下的场景: 场景 场景一:我是一名OP工师,负责几个系统模块的运维,我常常需要登录部署的机器排查问题,但是只知道名,记不住那么多部署息,怎么办? 场景二:我是一名RD工师,我负责的需要扩容,我的是很多下游的依赖,的扩容怎么通知给下游模块? 场景三:我的部署实例有一个出现故障了,我想对下游屏蔽该故障实例,怎么办? 下面以一个简单的例子来说明,假设一个模块名是Server,它的游是Proxy,下游是Redis,当出现变更或者故障时,如何让游感知到呢? 当线实例、下线摘除实例或者实例发生故障时,BNS系统通过部署在机器的客户端实时感知到实例的状态变化,同时增和删除实例的变更情况会立即同步到分布式的缓存系统中,这样用户通过一个BNS名字就可以感知到下游的实例变化。
疏****月 2018-07-09
一键线Archer | 百度持续部署的瑞士军刀
为了提自身开发迭代效率,脚本未采用全网部署的方案,只部署到特定插件集群。每次执行时,单机agent会从插件集群下载最MD5,如果有变更,将重下载最插件进行任的执行。这种设计形式增强了执行端功能的可横向扩展性,并且极大降低了每次自身升级的成本。每次升级只需更一个集群的插件代码,在全部机器即可生效。 总结 百度部署经历了手工线- Web化- 开放化一系列发展进,目前正在向智能化逐步发展。Archer作为开放化一代的运维产品,在百度内部具有极的使用率。期待本文的介绍能为您提供一些思路,也欢迎同行们与我们进行交流,共同促进AIOps的发展!
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
直接损失包括访问流量丢失、商业收入下降、用户体验受损、打破等级协议(SLA)造成的商业赔付等,间接损失包括用户任度下降、给竞品占领市场机会等。 单机房故障诱因众多不可避免 单机房故障诱因众多,详细复盘若干单机房故障发现故障诱因大致可以分为四类: 基础设施故障:物理机房故障、网络链路拥塞、流量转发基础设施故障等 序缺陷:序隐藏bug、序性能严重退化等 变更故障:测试不充分的序、配置、数据变更,人工临时介入的误操作等 依赖故障:第三方故障例如通用的认证、支付、存储、计算故障等 单机房故障止损可靠性与效率急需提升 人工处理场景下,运维人员通常选择7*24小时值班,接收大量的报警,随时准备在紧急情况下进行响应、决策、操作一系列故障止损动作,尽量挽回损失,降低故障影响。 但述解决方案会面临如下问题: 响应可能不够迅速:例如夜间报警 决策可能不够精确:例如手OP经验欠缺,误决策 操作可能出现失误:例如止损命令错误输入 “机器人”处理场景下,单机房故障自愈序可独立完成故障感知、决策、执行的完整故障处理过,并及时向运维人员同步故障处理状态。
s****d 2018-07-11
亿元级云用户分析
限制客户梦想的是老旧系统是否支持常见协议,还有底层工师能否推动层业测试和变动。 API调用PaaS——API云就是不可控过的黑箱,客户没预算没精力就盲目任云厂商。客户有精力就做多云冗余校验,有预算就做专有资源池部署;未来云厂商还会自定义SLA标准——大部分API云连等待超时都没定义。 版本发布和数字化转型——无论是微观的版本发布还是宏观的数字化转型,其实都和云没直接联系,一个是室内装修工作,一个是建房屋工作,但装修的最好时机是房屋重建的时候,云厂商要帮客户推动IT技术革。 5.输出分析 云厂商输出给客户的即有云端IT资源,也有平台输出。是个比资源更难量化的概念,我只引一把火苗出来。 咨询规划--如果直接给客户买资源,那就只能谈性价比,而且资源本身不会说话,所以云厂商要做好咨询规划。 明晰验收--云项目的实施和结项都是以结果为导向的,明确的过控制和验收标准对供求双方都是保护。 友好接口--面对亿元大金主,云厂商的下限是类比传统IDC,要把金主伺候舒了就要IOE类集成商。
M****点 2018-07-10
中国云计算现状——产品篇
Serverless的实之处在于要求序为自己进行改造,其他强调按需付费的计算只是快速释放资源的小把戏,Serverless才是真正的计算能力集装箱,未来计算场景下的CDN。 三、SaaS产品 其实SaaS产品和狭义的云计算没一毛钱关系,广义的云计算连设备租赁和人员外包都能算进去吹水框架,自然也给SaaS云预留了位置。 SaaS产品已经出现并流行了几二年了, OA/ERP/CRM/邮箱/模板建站等等SaaS都是比各位读者从业年龄还长的老古董,最流行的各种在线办公、协作、通话、众测等SaaS产品也不依赖云器,这些应用云走公网和之前走内网别并不大,用物理机和虚拟机别也不大。 狭义的云计算是企业,目标用户的是企业IT技术人员,而SaaS云的目标用户和IT人员只在Helpdesk时有关联。 从这一点来看,这些SaaS只是云平台的普通用户,和游戏、网站、APP、没有别。只要SaaS云没自建IaaS和PaaS的技术能力和意图,那他们就是客户而非友商。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
我们很难成功调试NTPD,会装NTPD又没有会装LAMP可以拿去吹牛,时间长了NTPD就背黑锅了。 真有TOP10的互联网公司和亿国家级项目里用ntpdate+crond,一代架构师为什么有这个误会无人深究,下一代人将误会固化为偏见,一代人将偏见神化为迷。 但无论误会、偏见还是迷,时间跃变、回退和停滞对应用健壮性和业安全性的威胁始终存在,时间不仅仅是我玩游戏时用的魔法,忽视问题并不能掩埋问题。 六、见微知著和防微杜渐 我讲NTPD和裸纤并不是为卖弄知识,也不是为做偏科普,而是希望进阶工师们多考虑一下如何规避这类误会?我们在做技术工作时,是不是只关注客户和同事能提出的需求?客户永远不知道裸纤的物理特性,同事也不会知道时间也能错误和波动,他们能说清楚业逻辑就不错了。 把所有的精力都用到做业逻辑,你只是个编语言翻译机而已;自己主动观测技术环境依赖,有资格有能力做出技术选型决策,才是给Coder群集做技术校准的人。即使你不想做技术决策人和管理者,多怀疑和观察环境,也能少些沟通成本,少走一些冤枉路,多一份自和自尊。
布****五 2018-07-10
如何执行一条命令
可是如果要在几万台机器每天执行几亿条命令,同时保证时效性,保证执行成功率,保证结果正确收集,保证7*24小时稳定运行,就不是一件简单的事情了。所谓远行无轻担,量大易也难,在构建这样的执行系统的过中要面临诸多困难,此处举几个突出的例子如下: 息存储问题:为了支持水平扩展,需要效的内存数据库作为缓存。为了做到执行命令的可追溯、可统计,需要对执行过的命令息持久化。日均几亿的热数据,年均万亿的冷数据,需要仔细选择存储方案。 任调度问题:为了达到在任意多台执行命令的要求,需要确定何时分发命令、何时回收结果以及怎么样的并发度批量下发。 消息传输问题:为了保证命令效正确送达目标器,需要构建一个可靠的命令传输网络,使命令息在准确送达的前提下保障传输的可靠与效,毕竟百度的几万台器分布在世界各地。 代理执行问题:为了更好的处理权限、单机并发等单机执行问题,需要在目标机构建执行代理,以应对单机的复杂执行环境。
流****水 2018-07-11
度云企业级运维平台——NoahEE
文章概览 过去的文章为大家介绍了百度云智能运维的方方面面,从监控、部署等传统的运维技术到智能异常检测、故障自愈等智能运维技术,这些运维基础能力和黑科技,是年来百度工师对技术孜孜不倦求索的结果,也见证了百度运维年间的创。很多同在看了这些文章后,都在想如何把这些领先的运维技术与理念用到自己的工作中,但苦于建设运维平台不是一蹴而就的,成本也让人望而却步,于是不少同都在希望我们能够有一个产品的形式输出这些技术,方便将这些前沿技术运用到自己的工作环境中。 在分析了各行业的运维场景与需求,结合百度历年来运维的经验与技术沉淀,并经过运维团队的精心打磨后,今天我们可以很骄傲的给大家呈现这个百度的运维产品企业版 – NoahEE。 在介绍NoahEE之前,有必要说一下百度内部的统一自动化运维平台Noah。Noah来源于圣经中“诺亚方舟”的故事,我们用这个名字来寓意能够避免灾难,稳固而坚实的平台。作为一系列运维系统的集合,Noah包括了管理、机器管理、资源定位、监控报警、自动部署、任调度等等,已经了百度数年之久。
w****0 2018-07-11
单机房故障自愈-黎明之战
要求:将拆分为若干不同的逻辑单元,每个逻辑单元处于不同的物理机房,均能提供产品线完整。 3.不满足N+1冗余 描述:任意单个机房故障时,其余机房剩余容量不足以承担该机房切出的流量。 问题:流量调度导致其余机房过载,造成多个机房故障,造成更大范围的影响。 要求:容量建设需要对于每个逻辑单元都要有明确的容量数据,并具备N+1冗余,即任意机房故障情况下,其余机房均可承载这部分流量,同时需要保证变化时及时更数据和扩容,避免容量数据退化。同时对于流量的变化趋势,也需要有提前的预估,为重大事件流量峰预留足够容量(如节日、运营、假期)。 4.关联强耦合 描述:下游使用固定IP或固定机器名进行直接连接。 问题:单机房故障发生时,关联的下游之间无法进行快速的流量调度止损。 要求:线关联不允许使用固定IP或机器名链接,需使用具备流量调度能力的下游连接方式以实现下游依赖解耦,下游发生单机房故障,可以快速调整路由比例实现止损。 单机房容灾能力--盲测验收 完成以四点单机房容灾能力建设后,业线就具备了通过流量调度进行止损单机房故障的基本条件。
追****圣 2018-07-11
给书记省长讲清楚云计算
云计算如何带动地方经济,这是个不需要物流就可以全球的行业。 做云计算要满足哪些条件,如何才能筑巢引凤。 挑选合格的云计算合作厂商,每类厂商有哪些特点。 云计算不是万能药,它无法解决哪些问题。 什么是云计算 近20年来,互联网引爆了全球的息技术革命,我国借助这次技术革命的大好机会,已经追乃至领跑此次技术革命。 互联网技术深刻的改变着我们的生活,其行业生态也在逐步分化扩大,这一现状客观促进了云计算技术的发展。 世纪80年代,计算机仅应用于科研等少数行业,全国计算机从业人员不超过万人,从业人员大都有很深的术背景。 世纪90年代,户、论坛、邮件系统开始影响部分群众的生活,国内从业人员约为万人,可以分为软件和硬件两类工师。 进入2000年,无纸化办公、游戏、社交、电商改变了大众的生活的方式,国内从业人员已经远超百万,按技术分类有数种工师。 在最近的年,移动互联网兴起,便捷的通、打车、外卖、电子支付等功能层出不穷,所有面向个人消费者的行业都在加速互联网化;未来年里,计算机技术将深刻影响工业生产领域。这时问题出现了,我们需要千万名工师吗,我们有这么多工师吗?
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动过
看看各的启动优先级也是一个讲究多多的过,iptables会比network先启动这类依存关系很好理解;但我也遇到过云平台的DHCP获取太慢,而云主机操作系统启动快、Network还没从DHCP那里获取到IP地址,然后Mysqld等需要监听端口的启动失败。 后记 以内容只能算精简科普版的Linux系统启动过,正式版的启动过可以写万字,有兴趣的朋友可以自己查维基百科,或拿我说的关键字去百度搜索。 曾经我把这些技能当做资历,但现在大家都云了,它们就只是闲聊的谈资了。但客户云就能少招一个研究这事的工师,云确实也很有意义啊。 夜静人稀,沙子龙关好了小,一气把六四枪刺下来;而后,拄着枪,望着天的群星,想起当年在野店荒林的威风。叹一口气,用手指慢慢摸着凉滑的枪身,又微微一笑,“不传!不传!”----老舍《断魂枪》
小****君 2018-07-11
踏云落地--谈IT就业趋势
Github宕机说影响了3100万序员,那中国搞IT的得有一两千万人吧?除了战时军队,历史没有过几千万人搞同一种薪工作的情况。大家总说金融圈的收入,但年薪过五万的金融从业人员都凑不够五万人,而更多金融从业人员是跪求式推销理财和保险的。很多人会辩解IT工作对整个公司很重要,但公司里就没有不重要的部。困在电梯里的员工会知道物业有多重要,食堂大妈可以让全体员工食物中毒,即使关系安置岗都是重要岗位。IT人不要意淫自己对公司多重要了,岗位含金量看的是稀缺度而非重要性。IT从业者总认为IT细分行业很独特,每个细分行业都很稀缺,比如写js的人做不了数据库,推演AI模型的人做不了游戏引擎。但炮兵和扫雷兵的别就很小吗,卖保险和做私募的有任何关联吗?云厂商和IT精英们都在努力降低IT入槛,让更多的人入局,这些人在不断的稀释熟练工师的稀缺度;至于那些抱着细分行业沾沾自喜的井底之蛙,知道水货DBA是被一块SSD轻松取代的吗?一个软件的诞生和优化,足以让你们的工作变得毫无疑义。企业有饕餮鲸吞般的IT人力需求,现在在用薪低质的泡面人才充饥,云厂商看到商机正在加速下饺子。
j****2 2018-07-10
百度大脑开放日来袭 24种全AI能力呈现
比如百度EasyDL与分形科技打造的智能垃圾桶已成功地落地海淀公园,可以对7种常见垃圾自动分类,后期还可以通过增加训练数据识别更多种类;在和德邦物流的合作中,为用户免去了自行填写息的麻烦,使用定制词法分析快递申请,一秒拆分姓名、电话、住址等息;更具科研意义的还有百度EasyDL与中科院在珍稀鸟类识别项目展开的合作,在传统分类日渐没落的今天,百度EasyDL可以利用强大的图像识别技术协助专家们对动植物标本、照片进行快速鉴定,目前中科院使用EasyDL训练对超过12万幅图片进行分析,目前在700多种鸟类模top5的识别准确率达到93.89%,非雀形目鸟类模型top5准确率达到95.79%,满足线要求。 与卓繁息的合作,百度大脑还打造了“AI便民”的型无人值守受理站。通过UNIT、OCR、人脸识别等AI技术,“无人值守”的政模式为社会公众提供全年无休的24小时自助办事,提升了政府为民的能力。 开放日当天,网红智能猫窝的设计者百度大脑工师晚兮也在现场为大家讲述了智能猫窝设计者们的初心。
无****禾 2018-07-11
云客户需求引导管理--实战型IT太极拳
客户要我们派几个工长期驻场,我说明所有故障都可控且已演练,远排障我们有10个工主,但长期驻场我们工得抑郁离职了。客户担心日常无事可做了,我们就帮客户做了月度巡检流,但整个流我们全不参与,他们巡检成功就是双保险,忘了巡检也有我们的监控兜底。 案例4.有公有云客户说要买最便宜的带宽,但最终沟通发现对方是要做非核心日志传。云平台默认的计费规则是行带宽免费,但免费不限流的行带宽不承诺SLA。最终结果是建议客户短期内买几台低配云主机,同时做好客户端容错,长期看建议这些日志直接传至对象存储,还能配合我方大数据做MR。 案例解析 云计算主要企业客户,企业客户内部分为采购、技术、业、管理等多个角色,在本案例中的技术和运营团队是非常讲道理的。通过面四个案例,我们可以看到客户需要云厂商提供“问题分析能力”“承担责任的能力”“协助内部沟通的能力”“推进业的能力”。 1.问题分析能力 我们要倾听客户但不能照搬客户要求,客户没我们懂云计算,拿着客户的话当金口玉言,却不深究背后原因,这个云平台就是不够专业。
小****园 2018-07-10
让PB级云存储不再神秘
只做入常识级系统优化,没用专用文件系统也没写裸设备,据说每个节点有50%的性能优化余地。 整体结构可以简化到不需要画架构图的地步,群集有几个功能项,你想合并成几个也行,想分成几个进也对。 因为有超的容错性,所以群集自协商机制比较简单,嗯,应该说是简陋。 我们不买器,因为我们的技术是做公有云过来的,公有云定价不看成本只看友商的价格,合理花钱才能生存下去持续;我们不做单点极限性能优化,那是招不到架构师才走的歪路。这是最有性价比最实的架构方案,我们练得是一招致命的杀敌功夫,不是翩若惊鸿的表演性武术。 一个基于http对象存储的架构场景有三个主要角色:读写代理、元数据、存储。 读写代理,客户端直接访问的Web server,它不存数据只是代理。 元数据,客户可见的Metadata息和不可见的Filehandle等息都在这里。 存储,实际数据落盘在这些,有不同的存储形式。 此外还有些辅助角色,简单列一下但不细聊了。 客户端SDK,简化客户访问,还能做一些容错遮蔽。 群集状态同步,99%类似Zookeeper。
w****t 2018-07-10
AIOps中的四大金刚
具体职责包括: 在AIOps时代,运维工师一方面需要熟悉运维领域的知识,了解运维的难题和解决思路;另一方面需要了解人工智能和机器习的思路,能够理解哪些场景问题适合用机器习方法解决,需要提供怎样的样本和数据,即成为AI在运维领域落地实施的解决方案专家。 运维AI工师 在单机房故障自愈场景中,运维AI工师将机器习的算法与实际的故障处理业场景相结合,针对单机房故障场景的风险点,进行策略研发与实验工作。如下图所示: 运维AI工师分别设计了如下算法策略来满足整个复杂故障场景的自动决策: 异常检测算法:解决故障发现时指标异常判断问题,基于AI方法实现较的准确率和召回率,作为整个故障自愈的数据基础。 策略编排算法:基于当前线的实际流量和状态,设计损益计算模型,判断基于何种方式的操作组合或步骤,能够使整个自动止损带来收益最大,风险最小。 流量调度算法:基于线容量与实时流量情况,进行精确流量比例计算,防御容量不足或不准风险,并实现流量调度收益最大化。
TOP