Componente Jupyter opcional do Dataproc

Pode instalar componentes adicionais, como o Jupyter, quando cria um cluster do Dataproc através da funcionalidade Componentes opcionais. Esta página descreve o componente Jupyter.

O componente Jupyter é um bloco de notas de utilizador único baseado na Web para estatísticas de dados interativas e suporta a IU Web do JupyterLab. A IU Web do Jupyter está disponível na porta 8123 no primeiro nó principal do cluster.

Inicie blocos de notas para vários utilizadores. Pode criar uma instância do Vertex AI Workbench com o Dataproc ativado ou instalar o plug-in do Dataproc JupyterLab numa VM para disponibilizar blocos de notas a vários utilizadores.

Configure o Jupyter. O Jupyter pode ser configurado através da disponibilização de dataproc:jupyter propriedades do cluster. Para reduzir o risco de execução de código remoto através de APIs do servidor de blocos de notas não seguras, a predefinição da propriedade do cluster é false, o que restringe as ligações a localhost (127.0.0.1) quando o Component Gateway está ativado (a ativação do Component Gateway é necessária quando instala o componente Jupyter).dataproc:jupyter.listen.all.interfaces

O bloco de notas Jupyter fornece um kernel Python para executar código Spark e um kernel PySpark. Por predefinição, os blocos de notas são guardados no Cloud Storage no contentor de preparação do Dataproc, que é especificado pelo utilizador ou criado automaticamente quando o cluster é criado. A localização pode ser alterada no momento da criação do cluster através da propriedade do cluster dataproc:jupyter.notebook.gcs.dir.

Trabalhe com ficheiros de dados. Pode usar um bloco de notas do Jupyter para trabalhar com ficheiros de dados que foram carregados para o Cloud Storage. Uma vez que o conetor do Cloud Storage está pré-instalado num cluster do Dataproc, pode referenciar os ficheiros diretamente no seu bloco de notas. Segue-se um exemplo que acede a ficheiros CSV no Cloud Storage:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

Consulte Funções genéricas de carregamento e guardar para ver exemplos do PySpark.

Instale o Jupyter

Instale o componente quando criar um cluster do Dataproc. O componente Jupyter requer a ativação do Component Gateway do Dataproc.

Consola

  1. Ative o componente.

CLI gcloud

Para criar um cluster do Dataproc que inclua o componente Jupyter, use o comando gcloud dataproc clusters create cluster-name com a flag --optional-components.

Exemplo da versão mais recente da imagem predefinida

O exemplo seguinte instala o componente Jupyter num cluster que usa a versão mais recente da imagem predefinida.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

API REST

O componente Jupyter pode ser instalado através da API Dataproc com SoftwareConfig.Component como parte de um pedido clusters.create.

Abra as IU do Jupyter e JupyterLab

Clique nos links do gateway de componentes da consola para abrir no seu navegador local a IU do bloco de notas do Jupyter ou do JupyterLab em execução no nó principal do cluster.Google Cloud

Selecione "GCS" ou "Disco local" para criar um novo Jupyter Notebook em qualquer uma das localizações.

Anexe GPUs a nós principais e de trabalho

Pode adicionar GPUs aos nós principais e de trabalho do cluster quando usa um bloco de notas Jupyter para:

  1. Pré-processe os dados no Spark e, em seguida, recolha um DataFrame no mestre e execute o TensorFlow
  2. Use o Spark para orquestrar execuções do TensorFlow em paralelo
  3. Execute o Tensorflow-on-YARN
  4. Use com outros cenários de aprendizagem automática que usam GPUs