关于 郁扶学妹上门服务 78792796薇V号上海北新泾服务tazf 的搜索结果,共892
h****e 2018-07-10
程序:我从哪里来?
在BNS系统中,单元表示一个的实例集合,一般以三段式的结构表示,比如:server.noah.all,server表示名,noah表示产品线,all表示机房名称,单元的名字在系统中是唯一的。 使用场景 在程序员的日常工作,常常面临以下的场景: 场景 场景一:我是一名OP工程师,负责几十个系统模块的运维,我常常需要登录部署的机器排查问题,但是只知道名,记不住那么多部署信息,怎么办? 场景二:我是一名RD工程师,我负责的需要扩容,我的是很多下游的依赖,的扩容怎么通知给下游模块? 场景三:我的部署实例有一个出现故障了,我想对下游屏蔽该故障实例,怎么办? 下面以一个简单的例子来说明,假设一个模块名是Server,它的游是Proxy,下游是Redis,当出现变更或者故障时,如何让游感知到呢? 当线实例、下线摘除实例或者实例发生故障时,BNS系统通过部署在机器的客户端实时感知到实例的状态变化,同时增和删除实例的变更情况会立即同步到分布式的缓存系统中,这样用户通过一个BNS名字就可以感知到下游的实例变化。
疏****月 2018-07-09
一键线Archer | 百度持续部署的瑞士军刀
每次执行时,单机agent会从插件集群下载最MD5,如果有变更,将重下载最插件进行任的执行。这种设计形式增强了执行端功能的可横向扩展性,并且极大降低了每次自身升级的成本。每次升级只需更一个集群的插件代码,在全部机器即可生效。 总结 百度部署经历了手工线- Web化- 开放化一系列发展进程,目前正在向智能化逐步发展。Archer作为开放化一代的运维产品,在百度内部具有极高的使用率。期待本文的介绍能为您提供一些思路,也欢迎同行们与我们进行交流,共同促进AIOps的发展!
s****d 2018-07-11
亿元级云用户分析
1.云目的分析 大型云用户云的宏观目的和普通用户类似,但多角色多部的利益诉求非常复杂。 降低成本:客户最直观的诉求,或者削减IT预算,或者同等预算下支撑更多的;其他客户诉求都难以清晰描述,唯独成本可以看发票和合同。 明确责任:客户不想承担各个IT系统的衔接和选型责任,相比软件厂商和系统集成商,云厂商的责任覆盖范围会更广泛一些。 收拢数据:云本身并不碰业数据,但云是很好明确业数据存储位置的机会,云业改造是规范数据结构的理由。 求图变:企业客户在气势如虹时要居安思危,在困境危难之中穷极思变,IT技术是企业的潜在增长点甚至退路。 本文讨论的是有模糊度和利润空间的云计算项目,CDN和IDC资源可以用做计收载体,但不能做为云目的分析。亿元以器、CDN的订单很多但既无技巧也无利润,这些资源厂商也在跟云厂商习如何包装项目。 2.客户角色利益分析 大企业多角色之间的利益诉求不同,所以表现形式也不同。我将客户三大角色列出来讨论,销售-售前-项目经理铁三角组合明确客户的诉求,才更好游刃有余的客户。
w****0 2018-07-11
单机房故障自愈-黎明之战
要求:将拆分为若干不同的逻辑单元,每个逻辑单元处于不同的物理机房,均能提供产品线完整。 3.不满足N+1冗余 描述:任意单个机房故障时,其余机房剩余容量不足以承担该机房切出的流量。 问题:流量调度导致其余机房过载,造成多个机房故障,造成更大范围的影响。 要求:容量建设需要对于每个逻辑单元都要有明确的容量数据,并具备N+1冗余,即任意机房故障情况下,其余机房均可承载这部分流量,同时需要保证变化时及时更数据和扩容,避免容量数据退化。同时对于流量的变化趋势,也需要有提前的预估,为重大事件流量高峰预留足够容量(如节日、运营、假期)。 4.关联强耦合 描述:下游使用固定IP或固定机器名进行直接连接。 问题:单机房故障发生时,关联的下游之间无法进行快速的流量调度止损。 要求:线关联不允许使用固定IP或机器名链接,需使用具备流量调度能力的下游连接方式以实现下游依赖解耦,下游发生单机房故障,可以快速调整路由比例实现止损。 单机房容灾能力--盲测验收 完成以四点单机房容灾能力建设后,业线就具备了通过流量调度进行止损单机房故障的基本条件。
流****水 2018-07-11
度云企业级运维平台——NoahEE
在业规模发展到一定程度后,运维工作还停留在早期人工或脚本方式执行的阶段时,这样的差异非常频繁的发生。 在实际的运维中,还有更多的因素需要考虑,例如机器是否会分配给不同部(资源的隔离)?权限又该如何控制?随着规模变大,人力成本等管理成本升,然而效率低下、可用性不升反降等等都是非常可能出现的问题。百度对于这个问题给出的答案是,必须先要解决资源组织管理问题。简单的说,管理要解决的最核心问题就是如何对资源进行有效组织管理与定位: 图2 解决规模带来的问题 在管理这个地基打好后,我们再来回顾下面的例子。这个例子中,地图研发的同就可以在运维平台中选中导航的模块进行升级,运维平台会通过管理来定位此次升级操作需要影响的机器并进行批量的操作。NoahEE中的所有运维系统,都以管理为基础来进行运维操作,例如在监控系统中,我们可以对导航模块(而不是单台机器进行操作)添加一些指标采集任,并在一定条件达成时报警。管理通过对资源合理的组织,极大的简化了运维操作,提升了运维效率。
红****2 2018-07-10
故障自愈机器人,保你安心好睡眠
直接损失包括访问流量丢失、商业收入下降、用户体验受损、打破等级协议(SLA)造成的商业赔付等,间接损失包括用户信任度下降、给竞品占领市场机会等。 单机房故障诱因众多不可避免 单机房故障诱因众多,详细复盘若干单机房故障发现故障诱因大致可以分为四类: 基础设施故障:物理机房故障、网络链路拥塞、流量转发基础设施故障等 程序缺陷:程序隐藏bug、程序性能严重退化等 变更故障:测试不充分的程序、配置、数据变更,人工临时介入的误操作等 依赖故障:第三方故障例如通用的认证、支付、存储、计算故障等 单机房故障止损可靠性与效率急需提升 人工处理场景下,运维人员通常选择7*24小时值班,接收大量的报警,随时准备在紧急情况下进行响应、决策、操作一系列故障止损动作,尽量挽回损失,降低故障影响。 但述解决方案会面临如下问题: 响应可能不够迅速:例如夜间报警 决策可能不够精确:例如手OP经验欠缺,误决策 操作可能出现失误:例如止损命令错误输入 “机器人”处理场景下,单机房故障自愈程序可独立完成故障感知、决策、执行的完整故障处理过程,并及时向运维人员同步故障处理状态。
M****点 2018-07-10
中国云计算现状——产品篇
对象存储兴需求,企业里本来就没大规模对象存储搭建能力,而且对象存储对应用程序友好手简单,客户对它是积极拥抱甚至业依赖。一旦用户在对象存储平台堆积了TB的数据,大数据和AI分析应用自然就部署来了。广域网传输稳定性不够成本又过高,只能是计算组件跟着存储就近部署,PaaS云创业公司从对象存储入手才更有客户粘性和横向扩展空间。 大数据类PaaS类似于云数据库,用户要自带量数据过来,Mapreduce过程和结果又都要用户负责,最终客户觉得云平台什么都没做,大数据PaaS都用成IaaS定制模板虚拟机了。而AI类PaaS类似于对象存储,用户本来要靠人肉识图,那些非结构数据本来是不存储的,程序员很乐意去调AI和存储接口,砸碎人肉识图团队的饭碗才能成全自己的业绩。云替代方案会被客户技术人员苛责,而技术人员会对云出的方案很宽容。 CDN是最早出现也是最成熟的云计算,它有下列迷人的特点给云计算行业的未来立下标杆: 客户没有习成本,肯付费、懂IT常识就能接入,所有客户都认同使用CDN能节省成本提高质量。
s****7 2018-07-10
见微知著看技术误解——从裸光纤和NTPD谈起
NTPD做时间调整会有效减少这类情形,它不是简单的龟速调整时间,而是有柔性时间调整策略,让时间线的跃变和调整尽量少影响业(详情见附录实验);也不会盲目信任远端时钟源,甚至固执的拒绝同步时间。NTPD相信本机时刻有可能不对,但不会忽快忽慢甚至停滞,NTPD通过多次收发包选择权威稳定的时间源,算出双方间的网络延迟,然后才会采信的时刻进行时钟同步。 五、误解的根源和影响 因为NTPD不盲从其他时间源,让老一辈IT人会留下NTPD不好用、不靠谱的误会。2005年个人测试用虚拟机的时间经常走慢,到2010年虚拟机还要防范时间停滞的Bug。即使你用物理机投入生产,网络延迟仍然不确定,且要观测NTPD同步效果需要时间。我们很难成功调试NTPD,会装NTPD又没有会装LAMP可以拿去吹牛,时间长了NTPD就背黑锅了。 真有TOP10的互联网公司和亿国家级项目里用ntpdate+crond,一代架构师为什么有这个误会无人深究,下一代人将误会固化为偏见,一代人将偏见神化为迷信。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前都荒废了,因为卡得一匹。
j****2 2018-07-10
百度大脑开放日来袭 24种全AI能力呈现
比如百度EasyDL与分形科技打造的智能垃圾桶已成功地落地淀公园,可以对7种常见垃圾自动分类,后期还可以通过增加训练数据识别更多种类;在和德邦物流的合作中,为用户免去了自行填写信息的麻烦,使用定制词法分析快递申请,一秒拆分姓名、电话、住址等信息;更具科研意义的还有百度EasyDL与中科院在珍稀鸟类识别项目展开的合作,在传统分类日渐没落的今天,百度EasyDL可以利用强大的图像识别技术协助专家们对动植物标本、照片进行快速鉴定,目前中科院使用EasyDL训练对超过12万幅图片进行分析,目前在700多种鸟类模top5的识别准确率达到93.89%,非雀形目鸟类模型top5准确率达到95.79%,满足线要求。 与卓繁信息的合作,百度大脑还打造了“AI便民”的型无人值守受理站。通过UNIT、OCR、人脸识别等AI技术,“无人值守”的政模式为社会公众提供全年无休的24小时自助办事,提升了政府为民的能力。 开放日当天,网红智能猫窝的设计者百度大脑工程师晚兮也在现场为大家讲述了智能猫窝设计者们的初心。
布****五 2018-07-10
如何执行一条命令
部署过程可以拆解为两个小的步骤,一是软件包的传,二是进程的重启动。进程的重启动不必多说,软件包的传可能有多种方式,如sftp的集中式,p2p的点对点式等。 监控采集 软件运维过程需要时刻监控系统及业软件的运行状态,各种运维决策都是以这些数据为依据进行的。随着自动化运维的发展,很多运维动作都从人工执行变为了自动执行,自动执行的决策过程更是需要采集大量的实时信息(前期文章《百度大规模时序数据存储》中介绍的TSDB就是为了解决这些数据的存储问题而研发的)。监控数据的来源主要分两种,一种是通过业软件提供的接口直接读取状态数据,另一种是通过日志/进程状态/系统状态等(如使用grep提取日志,通过ps查询进程状态,通过df查询磁盘使用等)方式间接查询。 无论是配置管理、部署变更还是监控采集,都有一个共同的目的:控制器。在现阶段,要想对器进行控制,离不开“在大量执行命令并收集结果”这一基础能力,这也是今天我们的主题“如何执行一条命令”的意义所在。
雪****魁 2018-07-11
危险背后的机遇--云故障危机分析
前言 云计算是一种不仅要一次性验收其能力,还要持续关注其品质。客户用IaaS云就跟用IDC一样,用谁家的云就知道谁家有故障,用一家就知道一家的短处才是正常,只有前一个厂商烂到无可救药,客户才会对厂商充满认可和感激。 本文的目的就是归类IaaS云故障的表层现象和深层原因,客户知道云的短板才好做系统设计,云厂商出故障也要老实认错,别总把客户当外行来糊弄。 至于PaaS云和IaaS云的设计实现思路完全不同,不在本文讨论范围内。 客户的感知和建议 IaaS云的核心资源是云主机,其他IaaS资源都是依附于云主机的;云主机的可靠性略高于物理机,但并不是云主机永不宕机。 只要云主机采购量稍微规模,云主机用户总会遇到一些故障。请谅解和忘记供应商的营销话述,云主机用户必须自己在架构设计层面规避这些故障。 网络抖动 现在云平台已经都用SDN组网,SDN本质是“软件定义网络”,其主打卖点是灵活管理和控制,其性能和稳定性并不是主打方向,SDN软件的质量也要略差与于传统厂商。云平台都会有网络IO超卖复用,而且用器CPU软解量报文,其性能还是比传统网络略差的。
追****圣 2018-07-11
给书记省长讲清楚云计算
但百川终到,发动机能统一标准,电力能源能集中供应,云计算平台可以实现计算机技术的标准化,凭借规模效应降低成本,让客户直接付费购买信息技术,极大减少了客户的人力投入以及衍生的时间和管理成本。 信息技术革命的核心工作是信息的存储和处理,最重要的资源是数据。客户的数据放在云平台就像资金放在银行一样,银行可以根据储户的流水评估信用,央行可以对货币进行宏观调控,云平台一样可以对用户信息进行评估计算,甚至国家层面可以进行宏观管理调控。 综所述,云计算就是将分散在各个公司的信息技术资源汇聚到一个大平台,其兴起始于需求扩大而人力短缺,其未来发展趋势是通过规模经营和数据共享,成为型信息化社会的技术基石。 云计算如何带动地方经济 云计算落地是要自建数据中心机房,我们一般称之为云基地,云基地在经济利益和社会影响和传统工厂并不相同。云基地通俗易懂的展现形式就是开启数十万个高速运转的电脑铁皮箱,但这些电脑不用接显示器也不用人员现场操作,只要这些电脑能开机能网就能对外。云基地和数字地产不完全相同,数字地产只装修好房子,云基地关注用这些房子做什么。
TOP