MPI-Operator 是 Kubeflow 社区开发,用于支持以 Horovod 为代表的数据并行分布式训练在 Kubernetes 集群上部署运行的组件。
在部署完成之后,用户可以创建、查看、删除 MPIJob。
Kubernetes 集群(version >= 1.16)
在通过 Helm 部署的过程中,所有的配置项都集中于 values.yaml
。
以下是部分较为可能需要自定义的字段:
参数 | 描述 | 默认值 |
---|---|---|
image.repository |
MPI-Operator 镜像所在仓库 | ccr.ccs.tencentyun.com/kubeflow-oteam/mpi-operator |
image.tag |
MPI-Operator 镜像的版本 | "latest" |
namespace.create |
是否为 MPI-Operator 创建独立的命名空间 | true |
namespace.name |
部署 MPI-Operator 的命名空间 | "mpi-operator" |
本页内容是否解决了您的问题?