logo

云高性能计算 CHPC :基因研究的加速器

作者:xxinjiang2024.11.15 15:54浏览量:4062

简介:CHPC

在当今科技迅速发展的时代,基因行业正面临前所未有的数据挑战和机遇。随着基因测序技术的不断进步和普及,生成的数据量急剧增加,传统的数据处理方法已难以满足现代基因学的需求。高性能计算(HPC)在此背景下显得尤为重要,它不仅能加速基因数据的处理速度,还能提高数据分析的准确性和效率。

百度智能云云高性能计算平台 CHPC 的基因分析平台广泛用于基因数据从样本到报告的分析过程。典型应用场景包括基因数据分析、测序生产自动化和基因云平台开发等。

在基因数据分析、测序生产自动化等工作中,客户面临的主要痛点包括:

  • 数据处理的长时间等待
  • 高成本的数据存储与管理
  • 分析过程中的复杂性

云高性能计算平台(CHPC)计算速度和大规模数据处理能力,能够有效解决这些问题。它不仅减少了基因数据分析所需的时间,降低了运营成本,还提高了分析结果的准确性,从而加速科研成果的产出和临床应用的实施。

百度智能云 CHPC 的基因分析平台是用户友好的基因分析一站式平台,端到端地提供数据传输、存储管理、生物信息分析等核心能力。平台支持 Cromwell 工作流引擎,帮助用户安全高效、敏捷弹性地处理任意规模基因数据。基因分析平台提供完整的基因计算服务,简单易用、经济高效、灵活可靠、且超大规模。

结合百度智能云海量的存储计算资源、百度网盘、连通测序上下游的用户网络、以及数据和应用的生态合作伙伴,广泛用于基因组学数据从样本到报告的分析全过程,可以作为不同应用系统计算底座,全方位满足基因组学科学研究和临床应用的需要。

97567747c5c4f73e.png

下文介绍基因分析平台中工作空间的使用方法。 基因分析平台中的所有操作,都必须在工作空间内进行。用户可以通过工作空间进行工作流创建和运行任务的管理,满足数据隔离、权限控制、费用统计等业务需求。

前提条件

1、请先提前创建集群,工作空间需要和已有集群关联。集群镜像请选择含cromwell部署镜像。请参考创建集群。

2、为保证集群能正常安装cromwell工作流,集群管理节点内存需为16G及以上。

创建工作空间

点击基因分析平台,创建空间。如果您未开通,请先开通基因分析平台服务。

b93cab4b695304ea.png

删除工作空间

点击集群卡片右上角,出现“删除”按钮,即可进行删除。
a913d672a4ace960.png
b41f0b05d1716169.png

下文介绍如何在工作空间中从头创建和编辑工作流。您可以从头创建WDL工作流,将本地或社区中的WDL工作流迁移到基因分析平台中,并且为工作流配置常用的分析运行参数。

创建工作流

1、进入工作空间后,默认展示工作流列表,点击“创建工作流”。
b66d921063fcc838.png

2、输入工作流名称和描述

cb25584f259e56c5.png

3、填写WDL工作流文件
支持上传本地文件,或在文本框内编辑文件
如果测试可点击“加载范例”,使用测试WDL文件
4fea51848bcd33a6.png

4、提交工作流,完成创建后,自动跳转到工作流列表。
cfc5d056c305e0f6.png
502336b637add77d.png

使用网盘工作流示例

基因分析平台支持和网盘打通数据流。
网盘使用支持 外网 和 百度内网 两种使用方式。

前置工作

1、外网方式:
请确保节点能正常访问外网,推荐配置NAT网关访问外网,请参考NAT网关
视频教程:https://cloud.baidu.com/video-center/video/726。
2、百度内网方式:
需要在VPC控制台购买两张服务网卡,分别用于访问网盘控制流及数据流服务。请参考:服务网卡 - 私有网络VPC | 百度智能云文档

服务网卡参数填写说明:
1、控制流服务网卡:

  • 购买入口:百度智能云
  • 字段说明:

  • 网卡名称:自定义名称,建议关键字带有网盘控制流服务,以方便区分

  • 所在网络:和您新建的 hpc 集群,vpc & 子网保持一致
  • IP 地址:自动分配
  • 安全组:普通安全组
  • 挂载服务:选择公共服务,百度网盘,域名带有 control 关键字(yq.baidupan-control.com)
  • 关联添加解析:关闭
  • 内网带宽:默认 1000 Mbps
  • 公网IP:暂不需要
    d1358d206745a56f.png

2、数据流服务网卡:

购买入口:百度智能云
字段说明:

网卡名称:自定义名称,建议关键字带有网盘数据流服务,以方便区分
所在网络:和您新建的 hpc 集群,vpc & 子网保持一致
IP 地址:自动分配
安全组:普通安全组
挂载服务:选择公共服务,百度网盘,域名不带有 control 关键字(yq.baidupan.com)
关联添加解析:关闭
内网带宽:默认 1000 Mbps
公网IP:暂不需要
a6c4b62c60168414.png

3、服务网卡管理页:

入口:百度智能云
获取内网IP
4227b65de02bc76d.png

WDL支持网盘相关参数及示例

1、外网方式:
WDL支持网盘相关参数,如下表:
aa2ce69c881bd1c6.png

注意事项:

  1. 请您提前接入网盘,完成认证,获取 appid 与 spacetoken
  • 用户接入需要完成企业认证、开发者认证, 创建应用(appid), 详见: 使用教学
  • 然后通过相关接口从相应的 appid 进行账号初始化, 同时获取 spacetoken, 详见: 账户系统
  1. local_address路径请不要修改,保持共享存储路径为/chpcdata/。如更改可能导致计算节点无法读取网盘下载的文件。
  2. local_upload_address上传网盘文件夹名称,请确保和本地文件夹名称一致。例如:共享存储文件夹名称为output:/chpcdata/output,则网盘文件夹名称也为netdisk://test/output

示例WDL文件如下:

version 1.0
workflow myWorkflow {
    input {
        String guest = "input"
    }
    call myTask {
        input:
            who = guest 
    }
}
task myTask {
    input {
        String who
        # Int i = 0
        # Float f = 27.3
        # Boolean b = true
    }
    command {
        echo "hello world"
    }
    runtime {
        memory: "100 MB"
        cpu: "1"
        queue: "default_queue"
        # 网盘的appId
        netdisk_appId: "1111111"
        # 网盘的Spacetoken
        netdisk_spaceToken: "xxxx"
        # 网盘地址,在执行工作流前,将该文件下载到本地
        remote_address: "netdisk://test/test.json"
        # 共享存储地址,在执行工作流前,下载到本地的路径
        local_address: "/chpcdata/"
        # 共享存储地址,在执行工作流后,将该路径下文件都上传到网盘
        local_upload_address: "/chpcdata/output"
        # 网盘地址,在执行工作流后,文件上传的地址
        upload_address: "netdisk://test/output"
    }
    output {
        String out = "${who}"
    }
}

欢迎了解百度智能云云高性能计算平台 CHPC

相关文章推荐

发表评论