百度智能云 CHPC 科普:什么是HPC集群?
2024.08.22 15:44浏览量:18239简介:高性能计算(HPC)集群指运行高性能计算的节点集合,一个 HPC 集群可能包含数十到数千台计算节点。
高性能计算(HPC)集群指运行高性能计算的节点集合,一个 HPC 集群可能包含数十到数千台计算节点。HPC 集群可以提供单节点不能提供的强大计算能力,拥有高性能、弹性扩展、稳定可靠等优点。HPC集群能够提供远超单个计算机的处理能力,因此非常适合需要大量计算资源和数据处理的任务。
本文将简单介绍集群涉及的基本概念和百度智能云 CHPC 的功能。
一. 集群类型
集群可以根据其部署和管理方式大致分为几种类型,特别是在云计算环境中,集群类型主要包括公有云集群、私有云集群和混合云集群。下面,我将介绍公有云集群和混合云集群的概念、功能以及它们的优势。
1.公有云集群
公有云集群是指在公有云平台上部署的集群资源,这些资源由第三方云服务提供商(如百度智能云、腾讯云、天翼云等等)管理和维护。用户通过互联网连接到这些资源,并按需支付使用费用。
弹性扩展:用户可以根据需求快速增加或减少计算资源,高度可扩展和灵活,适合需求波动大的应用。
成本效率:只需为实际使用的资源付费,维护和升级由云服务提供商负责,减轻了企业的IT管理负担,避免了本地数据中心的前期投资和维护成本。
全球访问:用户可以在全球任何地点访问公有云服务。
多样的服务和工具:公有云通常提供广泛的服务和管理工具,帮助用户轻松管理和部署应用。
2.私有云集群
私有云集群是部署在企业内部或专门设施中的云计算资源,这些资源完全由企业自己控制和管理。私有云提供了对硬件、数据存储和网络的完全控制,通常用于处理敏感数据或满足特定的业务需求。
高安全性需求:对于那些处理敏感数据或需遵守严格隐私政策的企业,如金融机构、医疗保健提供者和政府机构,他们通常选择私有云以确保数据安全和合规。
特定的业务应用:某些企业可能需要为特定的业务应用定制云环境,以支持特定的操作系统或应用程序配置,私有云提供了必要的可定制性。
大数据处理和分析:企业需要处理和分析大量的敏感数据时,私有云可以提供必要的计算能力和数据保护。
技术控制和独立性:对于希望完全控制其 IT 基础设施的企业,私有云提供隔离的环境,使得企业能够自主决定技术更新周期、数据管理策略和安全措施。
3.混合云集群
混合云集群结合了私有云和公有云的特点,允许数据和应用程序在两者之间移动,为企业提供更大的灵活性和数据部署选项。
在传统的 IT 投资思路下,企业通过自建 HPC 集群满足业务需求,这导致了巨大的设备采购、维护和更新成本。百度智能云 CHPC 提供了混合云 HPC 集群能力,可以帮助企业统一纳管本地和多云 HPC 集群。企业可以将最关键的任务提交至使用最新一代硬件资源的云上 HPC 集群中,使得这些应用处于最佳运行状态。
灵活扩展:混合云集群提供公有云的灵活性和扩展性,同时保留私有云的控制权和安全性。
资源最优配置:允许企业灵活应对变化,实现 IT 资源的最优配置。
成本优化:根据计算需求的重要性和敏感性,智能地分配资源,优化成本。
安全性和合规性:敏感数据可以在私有云中处理,以满足安全和合规要求,而其他不敏感的处理可以利用公有云的高扩展性和成本效率。
二. 百度智能云 CHPC
在云高性能计算平台 CHPC 集群中的每个节点是一台 BCC 实例。一个 HPC 集群可能包含数十到数千台计算节点。
按节点功能分类,可以分为 登录及管控节点、计算节点。各节点功能如下表所示:
1.登录及管控节点
用于远程登录集群,进行操作包括软件调试、编译和安装,以及作业提交等。
用于管理集群,部署调度服务和域账号服务。
调度服务:主要作用是运行 Slurm 等调度工具的服务端,处理作业提交、管理调度等。
域账号服务:集中管理 CHPC 集群内用户信息。
重要:管控节点负责作业的管理调度和域账号解析,在管控节点谨慎进行编译软件、上传下载打包数据等操作,以免影响业务稳定性。
2.计算节点
用于执行高性能计算作业的节点。
对于不同规模的集群,建议的管控节点配置和作业执行数量如下:
2.1 调度器
调度器是集群上调度作业的软件。CHPC支持的调度器如下:
2.2 域账号服务
域账号服务用于管理集群用户。CHPC 支持 LDAP 域账号服务:
LDAP:轻型目录访问协议(Lightweight Directory Access Protocol),在 CHPC 中,LDAP 被用来对用户进行身份权限认证。您可以在 LDAP 中对用户进行授权,分组,以创建具有不同的访问权限的用户。
2.3 共享存储
CHPC 集群的用户数据、调度器信息、作业共享数据等信息均会存储在文件系统,以供集群所有节点共享访问。
CHPC 支持支持 CPFS-NFS 方式挂载 CFS 文件系统。
2.4 用户
创建集群用户后,您才能在集群上提交、调试、运行作业。您可以创建两种不同权限的用户来使用集群。
普通权限组:适用于只有提交、调试作业需求的普通用户。
sudo 权限组:适用于需要管理集群的管理员,除提交、调试作业外,还可以执行 sudo 命令进行安装软件、重启节点等操作。
重要 root 用户仅能在创建集群时初始化创建,不推荐使用 root 用户提交任何作业,避免作业脚本中的误操作导致 CHPC 集群数据遭受破坏。 更多信息,请参见创建用户。
2.5 集群状态
创建中:集群创建初始状态,对应 BCC 实例创建和安装软件状态。
运行中:集群创建完成后处于正常可用状态。
异常:当管理节点被删除或停止、调度器软件退出时,集群状态为异常。您可以尝试修复集群,若修复无效后,请提交工单。
释放中:集群在停机释放过程中。
发表评论
登录后可评论,请前往 登录 或 注册