Dataproc-Cluster mit der Google Cloud Console erstellen
Auf dieser Seite erfahren Sie, wie Sie mit der Google Cloud Console einen Dataproc-Cluster erstellen, einen grundlegenden Apache Spark-Job im Cluster ausführen und dann die Anzahl der Worker im Cluster ändern.
Klicken Sie auf Anleitung, um die Schritt-für-Schritt-Anleitung für diese Aufgabe direkt in der Google Cloud Console auszuführen:
Hinweise
- Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Dataproc API aktivieren.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Dataproc API aktivieren.
Cluster erstellen
Rufen Sie in der Google Cloud Console die Dataproc-Seite Cluster auf.
Klicken Sie auf Cluster erstellen.
Klicken Sie im Dialogfeld Dataproc-Cluster erstellen in der Zeile Cluster in Compute Engine auf Erstellen.
Geben Sie im Feld Clustername
example-cluster
ein.Wählen Sie in den Listen Region und Zone eine Region und eine Zone aus.
Wählen Sie eine Region aus (z. B.
us-east1
odereurope-west1
), um Ressourcen wie VM-Instanzen und Cloud Storage- und Metadaten-Speicherorte zu isolieren, die von Dataproc in der Region verwendet werden. Weitere Informationen finden Sie unter Verfügbare Regionen und Zonen und Regionale Endpunkte.Verwenden Sie für alle anderen Optionen die Standardeinstellungen.
Klicken Sie auf Erstellen, um den Cluster zu erstellen.
Der neue Cluster wird in einer Liste auf der Seite Cluster angezeigt. Der Status lautet Wird bereitgestellt, bis der Cluster einsatzbereit ist. Anschließend wechselt er zu Wird ausgeführt. Die Bereitstellung des Clusters kann einige Minuten dauern.
Spark-Job senden
Senden Sie einen Spark-Job, der den Wert von Pi schätzt:
- Klicken Sie im Dataproc-Navigationsmenü auf Jobs.
Klicken Sie auf der Seite Jobs auf
Job senden und gehen Sie dann so vor:- Klicken Sie im Feld Cluster auf Durchsuchen.
- Klicken Sie in der Zeile für
example-cluster
auf Auswählen. - Verwenden Sie im Feld Job-ID die Standardeinstellung oder geben Sie eine für Ihr Google Cloud-Projekt eindeutige ID an.
- Wählen Sie für Job type (Jobtyp) die Option Spark aus.
- Geben Sie im Feld Hauptklasse oder JAR-Datei den Wert
org.apache.spark.examples.SparkPi
ein. - Geben Sie im Feld JAR-Dateien den Wert
file:///usr/lib/spark/examples/jars/spark-examples.jar
ein. Geben Sie im Feld Argumente den Wert
1000
ein, um die Anzahl der Aufgaben festzulegen.Klicken Sie auf Senden.
Der Job wird auf der Seite Jobdetails angezeigt. Der Jobstatus lautet Wird ausgeführt oder Wird gestartet und ändert sich nach dem Senden in Erfolgreich.
Klicken Sie auf Zeilenumbruch: aus, um Scrollen in der Ausgabe zu vermeiden. Die Ausgabe sieht in etwa so aus:
Pi is roughly 3.1416759514167594
Klicken Sie zum Aufrufen der Jobdetails auf den Tab Konfiguration.
Cluster aktualisieren
Aktualisieren Sie den Cluster, indem Sie die Anzahl der Worker-Instanzen ändern:
- Klicken Sie im Navigationsmenü auf Cluster.
- Klicken Sie in der Liste der Cluster auf
example-cluster
. Klicken Sie auf der Seite Clusterdetails auf den Tab Konfiguration.
Die Clustereinstellungen werden angezeigt.
Klicken Sie auf
Bearbeiten.Geben Sie im Feld Worker-Knoten den Wert
5
ein.Klicken Sie auf Speichern.
Der Cluster wurde aktualisiert. Gehen Sie genauso vor, um die Anzahl der Worker-Knoten auf den ursprünglichen Wert zu reduzieren.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden.
- Klicken Sie auf der Seite Clusterdetails für
example-cluster
auf Löschen, um den Cluster zu löschen. - Klicken Sie auf Löschen, um zu bestätigen, dass Sie den Cluster löschen möchten.
Nächste Schritte
- Probieren Sie diese Kurzanleitung mit anderen Tools aus:
- Robuste Firewallregeln beim Erstellen eines Projekts generieren
- Spark-Scala-Job schreiben und ausführen