Pode instalar componentes adicionais, como o Jupyter, quando cria um cluster do Dataproc através da funcionalidade Componentes opcionais. Esta página descreve o componente Jupyter.
O componente Jupyter é um bloco de notas de utilizador único baseado na Web para estatísticas de dados interativas e suporta a IU Web do JupyterLab. A IU Web do Jupyter está disponível na porta 8123
no primeiro nó principal do cluster.
Inicie blocos de notas para vários utilizadores. Pode criar uma instância do Vertex AI Workbench com o Dataproc ativado ou instalar o plug-in do Dataproc JupyterLab numa VM para disponibilizar blocos de notas a vários utilizadores.
Configure o Jupyter. O Jupyter pode ser configurado através da disponibilização de dataproc:jupyter
propriedades do cluster.
Para reduzir o risco de execução de código remoto através de APIs do servidor de blocos de notas não seguras, a predefinição da propriedade do cluster é false
, o que restringe as ligações a localhost (127.0.0.1)
quando o Component Gateway está ativado (a ativação do Component Gateway é necessária quando instala o componente Jupyter).dataproc:jupyter.listen.all.interfaces
O bloco de notas Jupyter fornece um kernel Python para executar código Spark e um kernel PySpark. Por predefinição, os blocos de notas são guardados no Cloud Storage
no contentor de preparação do Dataproc, que é especificado pelo utilizador ou
criado automaticamente
quando o cluster é criado. A localização pode ser alterada no momento da criação do cluster através da propriedade do cluster dataproc:jupyter.notebook.gcs.dir
.
Trabalhe com ficheiros de dados. Pode usar um bloco de notas do Jupyter para trabalhar com ficheiros de dados que foram carregados para o Cloud Storage. Uma vez que o conetor do Cloud Storage está pré-instalado num cluster do Dataproc, pode referenciar os ficheiros diretamente no seu bloco de notas. Segue-se um exemplo que acede a ficheiros CSV no Cloud Storage:
df = spark.read.csv("gs://bucket/path/file.csv") df.show()
Consulte Funções genéricas de carregamento e guardar para ver exemplos do PySpark.
Instale o Jupyter
Instale o componente quando criar um cluster do Dataproc. O componente Jupyter requer a ativação do Component Gateway do Dataproc.
Consola
- Ative o componente.
- Na Google Cloud consola, abra a página do Dataproc Criar um cluster. O painel Configurar cluster está selecionado.
- Na secção Componentes:
- Em Componentes opcionais, selecione o componente Jupyter.
- Em Component Gateway, selecione Ativar Component Gateway (consulte Visualizar e aceder aos URLs do Component Gateway).
CLI gcloud
Para criar um cluster do Dataproc que inclua o componente Jupyter,
use o comando
gcloud dataproc clusters create cluster-name com a flag --optional-components
.
Exemplo da versão mais recente da imagem predefinida
O exemplo seguinte instala o componente Jupyter num cluster que usa a versão mais recente da imagem predefinida.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
API REST
O componente Jupyter pode ser instalado através da API Dataproc com
SoftwareConfig.Component
como parte de um pedido
clusters.create
.
- Defina a propriedade EndpointConfig.enableHttpPortAccess
como
true
como parte do pedidoclusters.create
para ativar a ligação à IU da Web do bloco de notas Jupyter através do Component Gateway.
Abra as IU do Jupyter e JupyterLab
Clique nos links do gateway de componentes da consola para abrir no seu navegador local a IU do bloco de notas do Jupyter ou do JupyterLab em execução no nó principal do cluster.Google Cloud
Selecione "GCS" ou "Disco local" para criar um novo Jupyter Notebook em qualquer uma das localizações.
Anexe GPUs a nós principais e de trabalho
Pode adicionar GPUs aos nós principais e de trabalho do cluster quando usa um bloco de notas Jupyter para:
- Pré-processe os dados no Spark e, em seguida, recolha um DataFrame no mestre e execute o TensorFlow
- Use o Spark para orquestrar execuções do TensorFlow em paralelo
- Execute o Tensorflow-on-YARN
- Use com outros cenários de aprendizagem automática que usam GPUs