关于 找服务小妹一条龙 78792796-微V号莞式服务哪里比较多保 的搜索结果,共1876
h****e 2018-07-10
程序:我从来?
干货概览 在计算机程序或者的层次上,我们来试着分析前面提到的几个问题。 问题 1.我是谁? 叫什么,包含了些实例,规模、部署情况、实例运行状况如何? 2.我从来? 的上游有些,不同的上游流量如何分配? 3.我往去? 的下游有些,不同的下游流量如何分配? 面对这样的问题,我们的答案是什么呢? 在百度的运维实践中,我们只需“BNS”就可以获得想要的答案。 BNS(Baidu Naming Service,百度名字)是百度云智能运维团队研发的套分布的名字系统,是百度云Noah智能运维产品中的个重要基础系统。它为每赋予个独无二的名字,根据这个名字,我们就可以获取到这个的相关信息 ,这些信息包括:在机器上部署信息(机器IP,部署路径,配置,端口信息),的实例运行状况等其他重要信息。简单来讲,它提供了名到资源信息的个映射关系。
亚****啦 2018-07-11
IT断魂枪--闲聊Linux系统启动过程
这个文件注释很简单但水很深,我们该用标签还是UUID来标识磁盘,文件系统自检功能要不要开,这都可以聊好几个时。 看看各的启动优先级也是个讲究的过程,iptables会network先启动这类依存关系很好理解;但我也遇到过云平台的DHCP获取太慢,而云主机操作系统启动快、Network还没从DHCP那获取到IP地址,然后Mysqld等需要监听端口的启动失败。 后记 以上内容只能算精简科普版的Linux系统启动过程,正版的启动过程可以写十万字,有兴趣的朋友可以自己查维基百科,或拿我说的关键字去百度搜索。 曾经我把这些技能当做资历,但现在大家都上云了,它们就只是闲聊的谈资了。但客户上云就能少招个研究这事的工程师,上云确实也很有意义啊。 夜静人稀,沙子关好了门,气把六十四枪刺下来;而后,拄着枪,望着天上的群星,想起当年在野店荒林的威风。叹口气,用手指慢慢摸着凉滑的枪身,又笑,“不传!不传!”----老舍《断魂枪》
s****d 2018-07-11
亿元级云用户分析
限制客户梦想的是老旧系统是否支持常见协议,还有底层工程师能否推动上层业测试和变动。 API调用PaaS——API云就是不可控过程的黑箱,客户没预算没精力就盲目信任云厂商。客户有精力就做云冗余校验,有预算就做专有资源池部署;未来云厂商还会自定义SLA标准——大部分API云连等待超时都没定义。 版本发布和数字化转型——无论是观的版本发布还是宏观的数字化转型,其实都和上云没直接联系,个是室内装修工作,个是新建房屋工作,但装修的最好时机是房屋重建的时候,云厂商要帮客户推动IT技术革新。 5.输出分析 云厂商输出给客户的即有云端IT资源,也有平台输出。是个资源更难量化的概念,我只引把火苗出来。 咨询规划--如果直接给客户买资源,那就只能谈性价,而且资源本身不会说话,所以云厂商要做好咨询规划。 明晰验收--云项目的实施和结项都是以结果为导向的,明确的过程控制和验收标准对供求双方都是护。 友好接口--面对亿元大金主,云厂商的下限是类传统IDC,要把金主伺候舒了就要学IOE类集成商。
流****水 2018-07-11
度云企业级运维平台——NoahEE
简单的说,管理要解决的最核心问题就是如何对资源进行有效组织管理与定位: 图2 解决规模带来的问题 在管理这个地基打好后,我们再来回顾下上面的例子。这个例子中,地图研发的同学就可以在运维平台中选中导航的模块进行升级,运维平台会通过管理来定位此次升级操作需要影响的机器并进行批量的操作。NoahEE中的所有运维系统,都以管理为基础来进行运维操作,例如在监控系统中,我们可以对导航模块(而不是单台机器进行操作)添加些指标采集任,并在件达成时报警。管理通过对资源合理的组织,极大的简化了运维操作,提升了运维效率。 资产管理 在机房,各种各样的器、网络设备和安全设备7x24时的运转,为我们的业提供了硬件障,是企业的重要资产。各种设备的物理损坏、升级、新增、搬迁等等都在考验着机房运维人员的能力。怎样维护这些资产并记录信息,是个很重要的问题,搞得不好,这些资产可能变成运维人员的“包袱”,越越头疼。 对这些设备的运维操作,通常都涉及不少的物理操作,如说更换损坏的硬盘,增加内存等等。这涉及到几个要解决的问题: 故障如何及时发现?发现后由谁来进行修复?
红****2 2018-07-10
故障自愈机器人,你安心好睡眠
单机房故障诱因众不可避免 单机房故障诱因众,详细复盘若干单机房故障发现故障诱因大致可以分为四类: 基础设施故障:物理机房故障、网络链路拥塞、流量转发基础设施故障等 程序缺陷:程序隐藏bug、程序性能严重退化等 变更故障:测试不充分的程序、配置、数据变更,人工临时介入的误操作等 依赖故障:第三方故障例如通用的认证、支付、存储、计算故障等 单机房故障止损可靠性与效率急需提升 人工处理场景下,运维人员通常选择7*24时值班,接收大量的报警,随时准备在紧急情况下进行响应、决策、操作系列故障止损动作,尽量挽回损失,降低故障影响。 但上述解决方案会面临如下问题: 响应可能不够迅速:例如夜间报警 决策可能不够精确:例如新手OP经验欠缺,误决策 操作可能出现失误:例如止损命令错误输入 “机器人”处理场景下,单机房故障自愈程序可独立完成故障感知、决策、执行的完整故障处理过程,并及时向运维人员同步故障处理状态。运维人员的职责由处理转向管理,最终运维人员在低压力值班中稳定运行。
布****五 2018-07-10
如何执行命令
面临的困难 命令行的三要素,也是如何执行命令行面对的三个问题,如前文所述,对于单机环境来说,这三个问题在前人的努力下已经被很好的解决。可是如果要在几十万台机器上每天执行几十亿命令,同时证时效性,证执行成功率,证结果正确收集,证7*24时稳定运行,就不是件简单的事情了。所谓远行无轻担,量大易也难,在构建这样的执行系统的过程中要面临诸困难,此处举几个突出的例子如下: 信息存储问题:为了支持水平扩展,需要高效的内存数据库作为缓存。为了做到执行命令的可追溯、可统计,需要对执行过的命令信息持久化。日均几十亿的热数据,年均上万亿的冷数据,需要仔细选择存储方案。 任调度问题:为了达到在任意器上执行命令的要求,需要确定何时分发命令、何时回收结果以及怎么样的并发度批量下发。 消息传输问题:为了证命令高效正确送达目标器,需要构建个可靠的命令传输网络,使命令信息在准确送达的前提下障传输的可靠与高效,毕竟百度的几十万台器分布在世界各地。 代理执行问题:为了更好的处理权限、单机并发等单机执行问题,需要在目标机构建执行代理,以应对单机的复杂执行环境。
w****0 2018-07-11
单机房故障自愈-黎明之战
同时流量调度也无法使得恢复正常。 要求:将拆分为若干不同的逻辑单元,每个逻辑单元处于不同的物理机房,均能提供产品线完整。 3.不满足N+1冗余 描述:任意单个机房故障时,其余机房剩余容量不足以承担该机房切出的流量。 问题:流量调度导致其余机房过载,造成个机房故障,造成更大范围的影响。 要求:容量建设需要对于每个逻辑单元都要有明确的容量数据,并具备N+1冗余,即任意机房故障情况下,其余机房均可承载这部分流量,同时需要变化时及时更新数据和扩容,避免容量数据退化。同时对于流量的变化趋势,也需要有提前的预估,为重大事件流量高峰预留足够容量(如节日、运营、假期)。 4.关联强耦合 描述:上下游使用固定IP或固定机器名进行直接连接。 问题:单机房故障发生时,关联的上下游之间无法进行快速的流量调度止损。 要求:线上关联不允许使用固定IP或机器名链接,需使用具备流量调度能力的上下游连接方以实现上下游依赖解耦,下游发生单机房故障,可以快速调整路由例实现止损。
s****7 2018-07-10
知著看技术误解——从裸光纤和NTPD谈起
NTPD是个时间同步,ntpdate是个时间同步命令。很工程师都会采用Crond+ntpdate的方同步时间,究其原因是“NTPD不太好用”。 而我不喜欢用ntpdate同步时间的工程师,NTPD是个体系化的,而ntpdate只是个动作,大部分人没做好为ntpdate这个动作负责。 正常的时间是个持续增长的向量,即老时间t1肯定于新时间t2,新时间t2也于最新的时间t3,而且t1必定会渐进增长到t2和t3。除了少数商业数据库自带时钟源以外,大部分业对系统时间是盲目信任,不相信t1会越过t2直接达到t3(即断档跃变),而t2减去t1会得到负数或者0(即时钟停滞和回逆)。 四、NTPD的优势 如果我们用ntpdate同步时间,可能会带来时间的断档跃变或者停滞和回逆。时间不稳会威胁到的程序健壮性和业安全性,甚至部分程序崩溃的稀糊涂。 ntpdate只是个命令不是,它对远端时钟源是盲目信任;假设个根NTP不稳定,所有的器获得了错误的时间,虽然现在业层可以包容异常,不会出现算出负利息或倒扣费的情况,但业混乱是免不了的。
疏****月 2018-07-09
键上线Archer | 百度持续部署的瑞士军刀
另外,Archer也可作为上层托管平台的底层工具链,为PaaS平台提供稳定的底层部署。 通用场景 在百度内部,通用的部署系统需要适用于以下场景: 各业线拥有各自的包规范,语言、框架不统,部署策略不致; 支持分级发布,及时拦截部署引入的线上故障; 业地域部署; 种网络环境及大包部署; 提高自动化效率,能够集成测试发布自动化流水线。 后面,我们将结合上面场景,向大家介绍百度持续部署是如何实现的。 架构 整个系统由命令行工具、web、中转及单机agent+部署插件几部分组成(如图2所示)。用户通过命令行工具触发次变更,在web端进行参数解析及任分发,对应执行机器agent通过心跳获取任后,调用部署插件执行实际任。涉及大包及不同网络环境的部署会进行中转下载。 解决方案 各业线拥有各自的包规范,语言、框架不统,部署策略不致 为避免杂乱无章又不规范的代码及配置文件的目录结构,Archer规定了套既灵活又完整的包规范。
小****园 2018-07-10
让PB级云存储不再神秘
、前言和背景说明 能搭建和使用PB级存储直是强悍但无用的屠绝技,我们更将其用于炫耀和吹嘘。但最近两三年,我接触了数十家存储量到PB级的客户,深感屠绝技已经不再是摆设。 下列变化导致了PB级存储需求的横空出世,连带着CDN、大数据、AI技术并发展。首先看数据是因何产生的: 4G和光纤网络普及,带宽提速但资费降价,UGC和PGC都如鱼得水。 智能终端的硬件竞赛让摄像头更清晰、传感器更灵敏。 物联网设备入网,例如传感器数据、医疗影像、基因测序、气象数据。 数据存下来不代表有价值,曾经我们留几百TB的日志,却只能做最简单的加减乘除统计,或者用于出问题后扒日志堆证据;我们可以下载数万部影视剧,但个人辈子都看不完这些视频。 现在某些营销云已经可以做到毫秒级响应做精准广告投放,用户的日志更有价值了;人工智能逐渐参与辅助医疗,医学影像数据值得存十年了。随着技术进步价格降低,无论是监管政策还是客户需求,都在推动着数据总量越来越大。如说现在您买理财产品已经要求全程录像防止误导消费者了,如说人脸识别已经应用到手机转账审核中。
h****8 2018-07-10
能力梦想更重要——企业级难寻产品经理
个人产品经理是个需要梦想和热情的职业,但在政企和工业级IT领域,能力梦想更重要。 本文是想说清楚,政企和工业级软件领域,能力梦想更重要,个人产品经理来到这个行业就会被秒成渣。如果个企业要招产品经理,要知道这个行业有些难点痛点,需要什么样的产品经理(其实是软件和设计师)。 1. 需求拆解的能力 个人产品经理在设计款APP时,是可以用生理上的主观感受给产品打分的。但是让个产品经理来设计个流水线自控系统,他的主观感受并不重要,必须用技术和业能力将客户需求描述和引导。某些产品经理因为自己毫无感受憋不出词来,就把客户的要求当做圣旨跪拜,这不仅是吃扒外,还是会搅黄项目的搅屎棍。 要拆解客户的需求,必须技术上能跟客户做平等对话,业上了解客户工作流程,还要理解大型客户内部的利害关系,不能靠“视察”客户会议室装专家上宾,也不能像外行样凡事都跪问客户。 我举第个例子是很系统都有监控,监控系统的产品经理要完成下列工作才合格: 技术:产品经理对“check tcp 80”和“check http 200”这类业术语没概念,需要客户被坑次骂次才能改点点。
p****d 2018-07-11
单机房故障自愈--运维的春天
固定例模:按照预先设定的固定预案,个机房故障,该机房的流量按照预先设定的例分配到其他的机房。很可能某个机房的容量或剩余机房的总容量不足,切流量后导致个机房发生故障。 容量护模:针对固定例模存在的容量风险问题,改进的流量调度方为执行前判断容量是否充足,容量充足则进行流量调度,否则不进行调度并通知人工介入处理。但此种方案面对的问题是: 1.容量仍有buffer可以进行部分止损。期望能够在不超过容量护的情况下进行尽可能的调度,减少对用户的影响。 2.即使按照容量进行调度,过载仍可能发生,容量数据本身存在定误差,流量成分的变化以及变更等导致的容量退化,都可能导致原先容量无法完全可信。 【解决方案】 基于容量水位的动态均衡 在流量调度时,对于容量不准确存在的风险,我们划分两容量警戒线。 安全水位线:流量处于在安全线以下则风险,可以步进行切换。 水位上限:该水位线表明的最大承载能力,旦流量超过故障水位线,很大概率会导致容量过载。
s****0 2020-08-29
百度云主机网络延迟问题
是很买 打折买了几台器 目前都荒废了,因为卡得匹。
M****点 2018-07-10
中国云计算现状——产品篇
前言 上篇文章《中国云计算现状——成本篇》(特大首发改名为《做好云计算要花少钱》)讲的是成本问题,即什么企业有可能能做云计算。本文是第二篇产品篇,目标客户是云计算产品经理和云计算标准用户。我从个老用户的角度谈谈每种云计算产品该如何使用,些产品改进是刚需放心吐槽,些产品有内因就是改不了。本文主要说用云产品的问题,买云产品的问题在采购篇单聊。 正文 现在是2017年,云计算是物理硬件的优质替代方案,客户很认可云计算极低的采购和交付成本优势。这时候我们要少被企宣PPT洗脑,追求华而不实的远景,这些PR文章的受众是风险投资、客户决策层和创业者。我们应该摸清楚云方案和硬件方案有什么特点和局限性,客户明白特点才能使用得心应手,客户明白局限性才会早作备用方案,产品经理心不慌才会关注核心功能。 、IaaS产品 IaaS平台的本质是,产品以做硬件资源的虚拟化为本,业上承接物理硬件替代需求,其优势是最快速度最低成本交付,客户为预占的物理资源付费。IaaS产品是最经典的云计算,核心组件是云主机,如虚拟网络、云硬盘和安全组都是为支撑云主机业的。
追****圣 2018-07-11
给书记省长讲清楚云计算
器就是高功耗高价格的专业电脑,云计算企业的采购规模般远大于政企集采,他们能从硬件厂商那拿到极限低价,政府和国企能提供的更是采购资金的支持。 云计算是个商业,不仅需要硬性支持,还需要足够的环境和政策支持。当前云计算公司聚集在线大城市,环境规范稳定但成本极高竞争压力极大,云计算企业也在尝试向二三线转移突围。二三线城市不仅要积极准备云计算硬性资源,还可以用合作融资、税收优惠等等灵活政策承担产能转移的,最终说云计算公司将GDP和税收留在当地。 云计算平台提供的都是互联网,大量的互联网部署在本地会有极大的管控压力。二三线城市对互联网还只是简单的管控,稍有不解可能就会封禁大批互联网,但道封网命令就可以毁掉个云计算公司的声誉。如果当地政企要做好云计算就要从管理者变为者,必须在管控违规违法时不惊扰正常业,甚至主动出击为正常网络驾护航。 前几都是从降低成本可靠的角度请云计算企业来合作建厂,如果你有市场有客户那对方会主动上门寻求合作。
M****H 2018-07-11
故障定位场景下的数据可视化实践
如上图所示,我们可以按照问题定位的思路,将整体的可用性情况、分功能可用性情况、分模块的核心指标、流量的同环、分IDC的流量对等,依次通过丰富的可视化组件进行呈现。使得在收到报警时,可以快速将故障缩到具体功能、模块、接入流量、机房级别。 深入数据确定根因 在故障处理过程中,全景数据仪表盘为我们缩了故障定位的范围,但大数的根因仍然隐藏在数据的细分维度中。由此维度分析的重要性就体现出来了。常见的维度分析包括如下几种场景: 单维度取值对分析:针对同个维度的不同取值进行对分析,例如确定流量下跌出现在个省份。 维度关联分析:分析两个甚至更维度互相作用后数据的分析,例如如何确定个下跌是机房级别还是模块级别。 维度下钻分析:些维度包含个层级,例如省份、城市等相关联维度的逐层下钻定位。 我们针对这些场景,设计了相应的解决方案。 单维度取值对分析 维度取值对分析是种最常见的细分维度定位方。对于同个维度下取值数量少的情况,可以通过维度趋势图和饼图等可视化方进行快速的分析,查看不同维度取值的取值状态,以及占整体例情况。
TOP