Para complementar o disco de inicialização, você pode anexar unidades de estado sólido locais (SSDs locais) aos nós mestre, de worker primário e de worker secundário do cluster. Quando os SSDs locais são fornecidos para o cluster, os dados do HDFS e do zero, como saídas aleatórias, usam os SSDs locais em vez do disco permanente de inicialização.
- Os SSDs locais podem oferecer tempos de leitura e gravação mais rápidos do que disco permanente (consulte Desempenho do SSD local).
- O tamanho de cada SSD local (375 GB) é fixo, mas é possível anexar vários SSDs locais para aumentar o armazenamento SSD (consulte Sobre os SSDs locais).
- Cada SSD local é ativado em
/mnt/<id>nos nós de cluster do Serviço Gerenciado para Apache Spark. - Os SSDs locais usam
ext4como sistema de arquivos padrão.
Usar SSDs locais
Google Cloud Console do
Crie um cluster e anexe SSDs locais aos nós:
- Abra a página Criar cluster do Serviço Gerenciado para Apache Spark.
- Clique em Configuração adicional para expandir a seção.
- Edite Workers primários e Workers secundários para configurar as definições de SSD local.
- Por padrão, as configurações do nó do driver (mestre) são as mesmas que as configurações do worker primário. Em Configuração adicional, clique em Nó do driver para desmarcar a caixa de seleção Nó do driver padrão é o mesmo que o do worker principal e especifique as configurações do nó do driver.
Comando da CLI gcloud
Use o
gcloud dataproc clusters create
comando com as flags --num-master-local-ssds,
--num-workers-local-ssds e
--num-secondary-worker-local-ssds para anexar SSDs
locais aos nós mestre, primário e secundário do cluster.
Os SSDs locais podem ser anexados a VMs do Serviço Gerenciado para Apache Spark usando uma interface SCSI
(Small Computer System Interface) ou NVME (Non-Volatile Memory Express). Consulte
Desempenho do SSD local.
A interface de SSD local padrão da VM do cluster do Serviço Gerenciado para Apache Spark é a SCSI. Use o
comando gcloud dataproc clusters create
com as flags --master-local-ssd-interface,
--worker-local-ssd-interface e
--secondary-worker-local-ssd-interface
para especificar a interface de SSD local para nós mestre, primário e secundário
de worker.
Exemplo:
gcloud dataproc clusters create cluster-name \ --region=region \ --num-master-local-ssds=1 \ --num-worker-local-ssds=1 \ --num-secondary-worker-local-ssds=1 \ --master-local-ssd-interface=NVME \ --worker-local-ssd-interface=NVME \ --secondary-worker-local-ssd-interface=NVME \ ... other args ...
API REST
Defina o
numLocalSsds
campo em masterConfig, workerConfig e
secondaryWorkerConfig
InstanceGroupConfig
em uma
cluster.create
solicitação de API para anexar SSDs locais aos nós mestre, de worker primário e
de worker secundário.
Os SSDs locais podem ser anexados a VMs do Serviço Gerenciado para Apache Spark usando uma interface SCSI
(Small Computer System Interface) ou NVME (Non-Volatile Memory Express). Consulte
Desempenho do SSD local.
A interface de SSD local padrão da VM do cluster do Serviço Gerenciado para Apache Spark é a SCSI. Defina o campo
localSsdInterface
em masterConfig, workerConfig e
secondaryWorkerConfig
InstanceGroupConfig
em uma solicitação de API
cluster.create
para especificar a interface "SCSI" ou "NVME" para anexar SSDs locais aos nós mestre,
de worker primário e de worker secundário.