关于 最简单有效的春药制作【V信;799.196.362】韧 的搜索结果,共1682
p****d 2018-07-11
机房故障自愈--运维
干货概览 在机房故障自愈--黎明之战中,我们介绍了机房故障自愈准备工和基础设施,包括容灾能力建设、监控平台以及流量调度平台。本篇主要介绍机房故障自愈具体解决方案,内容包括: 机房故障止损能力标准 机房故障自愈整体架构 机房故障自愈常见问题和解决方案 机房故障止损能力标准 在机房容灾能力、故障发现能力、流量调度能力基础上,业务线具备了通过流量调度进行机房故障止损条件。理想情况下,我们希望构建一套完整、自动、智能自愈方案,但各个业务线服务特点不同和基础能力参差不齐,很难一蹴而就,所以我们建立起一套自愈能力等级标准,业务线根据自身情况定相应建设计划,逐步提升自愈能力。 自愈能力等级标准划分为5级,从Level 0完全人工止损,到Level 4自动化、智能化止损。对于Level0、Level1,人工感知止损面临着速度慢、误操、场景覆盖不全、风险控能力不足等问题;、Level2则实现了止损操平台化、预案化,一定程度上提升了止损率;Level3则实现了自动化报警联动故障止损,实现了止损进一步提升。
y****i 2018-07-11
做容器云佳用户
容器编排系统核心优势 很多人都说容器云是“私云谁用谁爽,公云谁用谁丧”,其实原因就是:容器云需要开发人员配合才能用好,而容器编排系统比容器自身更重要。K8S与其说是Docker竞争者,不如说是容器行业庇护者。了K8S这个容器编排系统,虽然Docker技术不那么醒目了,但其可用性更高更接地气了。 纯用Dokcer容器,更像是个封装比较彻底,做足了资源隔离JVM。研发人员只在程序出错时才会关注Runtime,而运维人员没感觉到这什么酷,但确实容器云已经存在价值了。比如说OpenStack、PaddlePaddle这类新兴软件和开发框架部署环境没那么,用Docker包一层就变非常友好了。 对于持续集成和交付场景来说,以前我们是硬压着研发和测试,务必保持版本一致、务必保证文件打好包,从不盲回滚预案,必须后半夜上线,就这样还天天出故障;现在自动上线压力确实小多了,大家都可以放心测试生产环境一致、保证文件不漏传、可以和Git无缝集成,可以扔给研发和测试半自助上线了。这就是我前文所说,容器快速部署优势在于决策快、操
金****洲 2018-07-10
混乱集群遇见TA 从此岁月静好
它屏蔽了云服务底层繁杂管控逻辑,提供化接口给上层系统NoahEE调用,使上层系统更好更快地释放价值。 Q这么优秀系统到底是如何实现呢? AHALO系统采用主从架构,分为Master端和Agent端。 Master端主要做复杂任务调度和管控逻辑,并且所功能都是模块化设计,用户可以根据自己需求定安装,包括虚拟化容器管理,应用包管理、部署、扩缩容、拓扑搭建和保活,集群控等。 Agent端则以为原则,弱化繁琐功能,仅为任务执行器,其中supervisor组件,结合父子双进程原理,做到自升级和自保活,把云运维人员量降到低。 整个系统流程也十分洁优雅!Agent通过定期心跳方式,与Master进行通,在心跳发包中发送本机状态息,在心跳回包中获取Master期望本机状态plan,并把期望plan与本地实际plan进行对比,针对差异地方做相应修改,使二者保持一致,从而保证集群中所机器终状态一致。 总之一句话,一朝HALO在手,从此不用发愁。所运维需求,直接调用接口。
布****五 2018-07-10
如何执行一条命令
图2问题放大后也变得困难 百度目前拥分布在世界各地几十万台服务器,并且随着业务不断扩张,这个数字还在持续增长,构建一个高稳定通用可扩展命令描述、传递、执行系统在这样环境中着重要现实意义。对百度各产品线用户来说,这样一个系统,基础要求是:执行高,控灵活,扩展方便。 1.执行高机执行,要求能够达到秒级命令下发/执行/结果收集。 集群执行,要求支持同时在10万台服务器上并行执行,同时保证集群中每个机器达到机执行性能。 2.控灵活: 机控,要求支持暂停、取消、重做功能。 集群控,要求支持暂停点功能,也即可以在执行到某台服务器时暂停,等待人工检查确认无问题后可继续执行。 3.扩展方便: 支持插件,要求支持自定义执行插件,用户可编写自己插件执行相应操。 支持回调,要求支持自定义用户回调,如任务执行失败调用相应回调接口。 除了以上业务需求外,一个分布式系统搭建,还要考虑可用性、可扩展性、性能、一致性等方面硬性要求。
Z****E 2018-07-09
产品迭代后一公里
变更面临问题 其实我们对变更需求并不复杂,为迭代后一公里,我们只关注两点: 操过程足够快捷(率) 变更结果符合预期(安全) 但是,在具一定规模企业生产环境中,用户往往要面对比台机器手工上线更加复杂状况,在这些状况下上述两点要求通常难以满足: 大批量机器步骤繁琐,较依赖人经验,变更操率低下; 由于缺少可靠检查机,变更果无法保证,甚至引发线上较大异常。 我们在百度各核心产品大规模变更实践中积累了丰富经验,发现通过自动化部署可以提升变更率,在变更过程中严格执行分级发布流程可以确保检查机得到执行,并且能够异常影响范围,加速异常恢复。在两者基础之上,融入AIOps智能变更策略,可以进一步降低管理成本,提升检查果。下面将从三个方面详细介绍我们解决方案。 我们解决方案 1自动化部署 自动化部署包含变更策略和批量机器执行能力两部分。具体来说,用户通过UI/API配置整个变更过程执行策略,例如先执行A地域机器变更,再执行B地域机器变更;执行失败机器超过10台就自动中止等。
冰****蓝 2018-07-09
如何调节『控参数』?
引言 控模块目标是基于计划轨迹和当前车辆状态生成控命令给车辆。这里我们将为开发者讲述如何调节控参数。 背景 一、输入/输出 输入 规划轨迹 当前车辆状态 HMI驱动模式更改请求 监控系统 输出 输出控命令管理canbus中转向、节流和动等功能。 二、控器介绍 控器包括管理转向指令横向控器和管理节气门和动器命令纵向控器。 横向控器 横向控器是基于LQR优控器。该控动力学模型是个侧滑自行车模型。它被分为两类,包括闭环和开环。 闭环提供具4种状态离散反馈LQR控器: 横向误差 横向误差率 航向误差 航向误差率 开环利用路径曲率息消除恒定稳态航向误差。 纵向控器 纵向控器配置为级联PID+校准表。它被分为两类,包括闭环和开环。 闭环是一个级联PID(站PID +速度PID),它将以下数据为控器输入: 站误差 速度误差 开环提供了一个校准表,将加速度映射到节气门/动百分比。 控器调谐 一、实用工具 类似于诊断和realtime_plot可用于控器调优,并且可以在apollo/modules/tools/中找到。
雾****士 2018-07-09
如何添加新算法?
Apollo中算法由一个或多个控器组成,可以轻松更改或替换为不同算法。 每个控器将一个或多个控命令输出到CANbus。 Apollo中默认控算法包含横向控器(LatController)和纵向控器(LonController)。 它们分别负责横向和纵向车辆控。 新算法不必遵循默认模式,例如,一个横向控器+一个纵向控器。 它可以是个控器,也可以是任意数量控组合。 添加新算法步骤: 创建一个控器 在文件control_config中添加新控配置息 注册新控器 为了更好理解,下面对每个步骤进行详细阐述: 一、创建一个控器 所器都必须继承基类Controller,它定义了一组接口。
流****水 2018-07-11
度云企业级运维平台——NoahEE
在业务规模发展到一定程度后,运维工还停留在早期人工或脚本方式执行阶段时,这样差异非常频繁发生。 在实际运维中,还更多因素需要考虑,例如机器是否会分配给不同部门(资源隔离)?权限又该如何控?随着规模变大,人力成本等管理成本上升,然而率低下、可用性不升反降等等都是非常可能出现问题。百度对于这个问题给出答案是,必须先要解决资源组织管理问题。说,服务管理要解决核心问题就是如何对资源进行组织管理与定位: 图2 解决规模带来问题 在服务管理这个地基打好后,我们再来回顾下上面例子。这个例子中,地图研发同学就可以在运维平台中选中导航模块进行升级,运维平台会通过服务管理来定位此次升级操需要影响机器并进行批量。NoahEE中运维系统,都以服务管理为基础来进行运维操,例如在监控系统中,我们可以对导航模块(而不是台机器进行操)添加一些指标采集任务,并在一定条件达成时报警。服务管理通过对资源合理组织,极大化了运维操,提升了运维率。
TOP