什么是高性能计算集群?百度智能云 CHPC 集群管理(二)
2025.01.02 17:57浏览量:1452简介:CHPC
上文我们介绍了 CHPC 集群涉及的基本概念,有兴趣的小伙伴可以点击下文了解:
今天将分享如何管理 CHPC 集群,本文将分为以下部分为大家逐一介绍:
创建公共云标准集群
创建混合云集群
登录集群
手动扩容集群
配置自动伸缩策略
释放集群
1、创建公共云标准集群
创建集群时,您需要配置集群的基础信息、网络配置、存储配置、节点配置等。 本文介绍如何在控制台页面创建公共云标准集群。
前提条件
- 已开通CHPC服务,开通服务时,系统会自动创建服务关联角色。
- 已创建专有网络VPC和安全组。具体操作,参见私有网络VPC
- 已创建存储资源。CHPC集群支持挂载CFS文件系统。
挂载CFS-POSIX:需开通CFS服务,创建CFS文件系统和挂载点。更多CFS相关信息,请参见CFS说明。
背景信息
集群可为CHPC计算提供计算资源、存储资源等,用于后续提交作业、调度作业、存储作业结果、查看作业结果。
创建和使用CHPC集群前请了解以下内容:
限制条件:一个地域下最多可创建3个集群,如需要创建多个集群,请提交工单。
费用说明:创建集群会产生一些费用,包括CHPC服务费用和其他资源费用。具体费用说明请参见计费概述。
注意事项:创建CHPC集群后,非特殊情况请勿使用云服务器管理控制台调整单个集群节点。建议您通过CHPC管理控制台操作。
步骤一:集群配置
创建集群时,您必须配置集群的基础信息、网络配置、存储配置。
您可以根据您的业务需求选择合适的配置参数。
登录CHPC控制台:百度智能云
- 在顶部菜单栏左上角处,选择地域。
- 在左侧导航栏,选择 集群管理。
- 在集群管理页面左上角,单击创建集群。
- 选择 公共云集群 部署模式。
- 完成基础配置内容填写。
- 完成集群配置内容填写。
- 完成自定义选项内容填写。
步骤二:节点与队列
1.系统自动生成默认队列dafaultQueue,您可按需增加其他队列
2.支持开启和关闭“队列自动伸缩”
步骤三:文件存储
1./home集群挂载目录必填
2./home/software集群挂载目录用于软件安装,和/home保持一样的文件系统及挂载点
3.支持按需添加其他的存储挂载,点击“添加存储”即可
步骤四:软件与组件
1.您可以按需添加软件
2.您可以按需添加服务组件
步骤五:确认订单
1.确认配置概要信息
2.填写管理设置
2、创建混合云集群
混合云集群指混合部署在本地和云上的集群,调度节点、域账号节点都在本地,计算节点在本地和云上。
您可以利用本地的HPC集群在百度智能云扩容计算节点资源,统一调度云上资源和您的本地资源进行高性能计算。
本文介绍如何通过CHPC管理控制台创建混合云集群。
前提条件
已开通CHPC服务,开通服务时,系统会自动创建服务关联角色。
已创建专有网络VPC和安全组。具体操作,参见私有网络VPC
已通过VPN或者物理专线搭建好本地和云上的网络连接。
步骤一:创建混合云集群
第一步,基本配置
登录CHPC控制台:百度智能云
- 在顶部菜单栏左上角处,选择地域。
- 在左侧导航栏,选择集群管理。
- 在集群管理页面左上角,单击创建集群。
- 选择 混合云集群 部署模式。
- 完成基础配置内容填写。
- 完成集群配置内容填写
- 完成共享存储和管理配置内容填写。
第二步,确认订单
1.确认配置概要信息
2.填写管理设置
步骤二:在集群列表中,查看集群状态
可以在执行进度中,查看混合云集群创建部署情况。
根据执行进度和执行状态,修复检查。
3、登录集群
创建集群后您可以登录集群进行相关操作。
前提条件
已为集群登录节点分配固定公网IP或绑定EIP。
登录节点状态为运行中。
登录节点所在的安全组已放行对相应端口的访问。具体操作,参见私有网络VPC -安全组。
使用SSH工具登录
输入SSH命令。
ssh <用户名>@<集群的固定公网IP或EIP>
输入集群登录密码。
如果出现<用户名>@<主机名>:~#,表示成功连接到实例。
4、手动扩容集群
CHPC集群支持手动扩容,当业务发展导致集群计算节点不足时,您可以根据实际需求扩容集群,增加计算节点。
前提条件
扩容节点所在地域有可用子网,关于如何创建子网,请参见私有网络VPC-子网。
扩容节点所在地域有足够的BCC实例配额,具体操作,请参见查看和提升实例配额。
操作步骤
- 登录CHPC控制台:百度智能云
- 在顶部菜单栏左上角处,选择地域。
- 在左侧导航栏,单击集群。
- 在集群页面,找到需要扩容的集群,单击扩容节点。
- 在扩容节点面板,完成节点配置。扩容时,支持增加新建节点,请根据需要选择对应的页签进行配置。
执行结果
扩容后,新增计算节点会自动安装集群软件并初始化,原有计算节点的使用不受影响。
您可以在集群列表中选择扩容的集群,点击集群名称,在节点管理列表中,即可查看已扩容节点的状态。当该节点状态为运行中,说明扩容集群已完成。
5、配置自动伸缩策略
自动伸缩可以根据您配置的伸缩策略动态分配计算节点实例,实现根据实时负载自动增加或减少计算节点,以提高集群可用性,降低使用成本。
本文介绍如何配置自动伸缩策略。
功能优势
自动伸缩可以实现以下功能:
根据实时负载,自动增加计算节点,提高集群的可用性。
在保证集群可用性的前提下,自动减少计算节点,降低集群成本。
停止异常状态的节点,并创建相应的新节点,提高集群容错能力。
使用限制
仅支持调度器为SLURM或SGE的集群配置自动伸缩。
不支持基于内存维度的自动伸缩。建议在提交作业时指定作业所需的vCPU来实现自动伸缩,另外作业指定的内存使用大小不能超出BCC资源的内存规格。
注意事项
自动伸缩服务依赖于调度器服务和域账号服务运行正常。开启自动伸缩后,管控节点需要一直保持运行中。
说明
如果管控节点需要关机或者重启,请在计算节点没有作业运行,并且自动伸缩已经释放了空闲节点后再进行操作。此时,建议您先关闭自动伸缩,在管控节点重新启动后,再开启自动伸缩。
操作步骤
- 登录弹性高性能计算控制台:百度智能云
- 在顶部菜单栏左上角处,选择地域。
- 在左侧导航栏,选择集群列表。
- 点击集群名称,进入集群概览页面。
- 点击队列管理,区域完成参数配置,在对应队列的操作栏,找到『配置扩缩容』按钮。
- 点击『配置扩缩容』,在弹出的页面中完成参数配置。
- 点击保存,操作成功。
7、释放集群
当集群不再使用时,您可以随时选择释放集群,以节约使用成本。
本文介绍如何释放集群。
前提条件
已备份好集群数据。
警告
释放集群后数据不可恢复,请谨慎操作。
背景信息
释放集群后,集群中的按量付费的节点将自动释放,到期前的包年包月节点会保留,到期后的包年包月节点会自动释放。
操作步骤
- 登录弹性高性能计算控制台:百度智能云
- 在顶部菜单栏左上角处,选择地域。
- 在左侧导航栏,单击集群。
- 在集群页面,选择需要释放的集群,单击操作栏 『释放』。
- 在弹出的删除集群对话框,单击确认。集群将进入释放中状态,释放完成后集群列表不再有此集群信息。
发表评论
登录后可评论,请前往 登录 或 注册