SSDs locais do Managed Service for Apache Spark

Para complementar o disco de inicialização, você pode anexar unidades de estado sólido locais (SSDs locais) aos nós mestre, de worker primário e de worker secundário do cluster. Quando os SSDs locais são fornecidos para o cluster, os dados do HDFS e do zero, como saídas aleatórias, usam os SSDs locais em vez do disco permanente de inicialização.

  • Os SSDs locais podem oferecer tempos de leitura e gravação mais rápidos do que disco permanente (consulte Desempenho do SSD local).
  • O tamanho de cada SSD local (375 GB) é fixo, mas é possível anexar vários SSDs locais para aumentar o armazenamento SSD (consulte Sobre os SSDs locais).
  • Cada SSD local é ativado em /mnt/<id> nos nós de cluster do Serviço Gerenciado para Apache Spark.
  • Os SSDs locais usam ext4 como sistema de arquivos padrão.

Usar SSDs locais

Google Cloud Console do

Crie um cluster e anexe SSDs locais aos nós:

  1. Abra a página Criar cluster do Serviço Gerenciado para Apache Spark.
  2. Clique em Configuração adicional para expandir a seção.
  3. Edite Workers primários e Workers secundários para configurar as definições de SSD local.
  4. Por padrão, as configurações do nó do driver (mestre) são as mesmas que as configurações do worker primário. Em Configuração adicional, clique em Nó do driver para desmarcar a caixa de seleção Nó do driver padrão é o mesmo que o do worker principal e especifique as configurações do nó do driver.

Comando da CLI gcloud

Use o gcloud dataproc clusters create comando com as flags --num-master-local-ssds, --num-workers-local-ssds e --num-secondary-worker-local-ssds para anexar SSDs locais aos nós mestre, primário e secundário do cluster.

Os SSDs locais podem ser anexados a VMs do Serviço Gerenciado para Apache Spark usando uma interface SCSI (Small Computer System Interface) ou NVME (Non-Volatile Memory Express). Consulte Desempenho do SSD local. A interface de SSD local padrão da VM do cluster do Serviço Gerenciado para Apache Spark é a SCSI. Use o comando gcloud dataproc clusters create com as flags --master-local-ssd-interface, --worker-local-ssd-interface e --secondary-worker-local-ssd-interface para especificar a interface de SSD local para nós mestre, primário e secundário de worker.

Exemplo:

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

API REST

Defina o numLocalSsds campo em masterConfig, workerConfig e secondaryWorkerConfig InstanceGroupConfig em uma cluster.create solicitação de API para anexar SSDs locais aos nós mestre, de worker primário e de worker secundário.

Os SSDs locais podem ser anexados a VMs do Serviço Gerenciado para Apache Spark usando uma interface SCSI (Small Computer System Interface) ou NVME (Non-Volatile Memory Express). Consulte Desempenho do SSD local. A interface de SSD local padrão da VM do cluster do Serviço Gerenciado para Apache Spark é a SCSI. Defina o campo localSsdInterface em masterConfig, workerConfig e secondaryWorkerConfig InstanceGroupConfig em uma solicitação de API cluster.create para especificar a interface "SCSI" ou "NVME" para anexar SSDs locais aos nós mestre, de worker primário e de worker secundário.