L'integrazione di NVIDIA Data Center GPU Manager raccoglie le principali GPU avanzate metriche di DCGM, tra cui Utilizzo blocchi multiprocessore (SM) di flussi di dati, occupazione SM, Utilizzo delle pipeline SM, frequenza di traffico PCIe e frequenza di traffico NVLink. Per informazioni sullo scopo e sull'interpretazione di queste metriche, consulta le metriche di profilazione nella panoramica delle funzionalità DCGM.
Per ulteriori informazioni sul gestore GPU NVIDIA Data Center, consulta DCGM documentazione. Questa integrazione è compatibile con DCGM versione 3.1 e successive.
Ops Agent raccoglie le metriche DCGM utilizzando la libreria client di NVIDIA
go-dcgm
Queste metriche sono disponibili solo per i sistemi Linux. Le metriche non vengono raccolte dai modelli GPU NVIDIA P100 e P4.
Prerequisiti
Per raccogliere le metriche DCGM, devi seguire questi passaggi:
Installa Ops Agent. Solo la versione di Ops Agent 2.38.0 o versioni 2.41.0 o successive sono compatibili con il monitoraggio GPU. Non installare Ops Agent versioni 2.39.0 e 2.40.0 sulle VM con GPU collegate. Per ulteriori informazioni, vedi L'agente si arresta in modo anomalo e il report menziona NVIDIA.
Installare DCGM e verificare l'installazione
Devi installare un DCGM versione 3.1 e successive e assicurarsi che venga eseguito come servizio con privilegi. Per installare DCGM, vedi Installazione nella documentazione del DCGM.
Per verificare che DCGM funzioni correttamente, segui questi passaggi:
Controlla lo stato del servizio DCGM eseguendo questo comando:
sudo service nvidia-dcgm status
Se il servizio è in esecuzione, il servizio
nvidia-dcgm
viene indicato comeactive (running)
. L'output è simile al seguente:● nvidia-dcgm.service - NVIDIA DCGM service Loaded: loaded (/usr/lib/systemd/system/nvidia-dcgm.service; disabled; vendor preset: enabled) Active: active (running) since Sat 2023-01-07 15:24:29 UTC; 3s ago Main PID: 24388 (nv-hostengine) Tasks: 7 (limit: 14745) CGroup: /system.slice/nvidia-dcgm.service └─24388 /usr/bin/nv-hostengine -n --service-account nvidia-dcgm
Verifica che i dispositivi GPU vengano trovati eseguendo questo comando:
dcgmi discovery --list
Se vengono rilevati dispositivi, l'output è simile al seguente:
1 GPU found. +--------+----------------------------------------------------------------------+ | GPU ID | Device Information | +--------+----------------------------------------------------------------------+ | 0 | Name: NVIDIA A100-SXM4-40GB | | | PCI Bus ID: 00000000:00:04.0 | | | Device UUID: GPU-a2d9f5c7-87d3-7d57-3277-e091ad1ba957 | +--------+----------------------------------------------------------------------+
Configura Ops Agent per DCGM
Seguendo la guida alla configurazione delle operazioni , aggiungere gli elementi richiesti per raccogliere dati di telemetria dal servizio DCGM e riavvia l'agente.
Configurazione di esempio
I comandi seguenti creano la configurazione per raccogliere e importare dati di telemetria per DCGM e riavvia Ops Agent:
# Configures Ops Agent to collect telemetry from the app and restart Ops Agent. set -e # Create a back up of the existing file so existing configurations are not lost. sudo cp /etc/google-cloud-ops-agent/config.yaml /etc/google-cloud-ops-agent/config.yaml.bak # Configure the Ops Agent. sudo tee /etc/google-cloud-ops-agent/config.yaml > /dev/null << EOF metrics: receivers: dcgm: type: dcgm service: pipelines: dcgm: receivers: - dcgm EOF sudo systemctl restart google-cloud-ops-agent
Dopo aver eseguito questi comandi, puoi verifica che l'agente sia stato riavviato. Esegui questo comando e verifica che i componenti dell'agente secondario "Metrics Agent" e "Agente Logging" sono elencati come "active (in esecuzione)":
sudo systemctl status google-cloud-ops-agent"*"
Se utilizzi un account di servizio personalizzato anziché quello predefinito dell'account di servizio Compute Engine o se disponi molto vecchia di Compute Engine, allora potresti dover autorizzare Ops Agent.
Configurazione della raccolta di metriche
Per importare le metriche da DCGM, devi creare un ricevitore per le metriche prodotti da DCGM, quindi crea una pipeline per il nuovo ricevitore.
Questo ricevitore non supportare l'uso di più istanze nella configurazione, ad esempio per monitorare più endpoint. Tutte queste istanze scrivono nella stessa serie temporale, e Cloud Monitoring non ha modo di distinguerli.
Per configurare un ricevitore per le metriche dcgm
, specifica quanto segue
campi:
Campo | Predefinito | Descrizione |
---|---|---|
collection_interval |
60s |
Una durata di tempo, ad esempio 30s o 5m . |
endpoint |
localhost:5555 |
Indirizzo del servizio DCGM, formattato come host:port . |
type |
Questo valore deve essere dcgm . |
Che cosa viene monitorato
La tabella seguente fornisce l'elenco delle metriche raccolte da Ops Agent del servizio DCGM. Non tutte le metriche sono disponibili per tutti i modelli di GPU. Le metriche non vengono raccolte dai modelli GPU NVIDIA P100 e P4.
Tipo di metrica | ||
---|---|---|
Tipo, tipo Risorse monitorate |
Etichette |
Supportato
Modelli GPU |
workload.googleapis.com/dcgm.gpu.profiling.dram_utilization
|
||
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
Tutti tranne P100 e P4 |
workload.googleapis.com/dcgm.gpu.profiling.nvlink_traffic_rate
|
||
GAUGE , INT64 gce_instance |
direction gpu_number model uuid
|
Tutti tranne P100 e P4 |
workload.googleapis.com/dcgm.gpu.profiling.pcie_traffic_rate
|
||
GAUGE , INT64 gce_instance |
direction gpu_number model uuid
|
Tutti tranne P100 e P4 |
workload.googleapis.com/dcgm.gpu.profiling.pipe_utilization
|
||
GAUGE , DOUBLE gce_instance |
gpu_number model pipe uuid
|
Tutti tranne P100 e P4. Per L4, il valore pipe fp64
non è supportato.
|
workload.googleapis.com/dcgm.gpu.profiling.sm_occupancy
|
||
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
Tutti tranne P100 e P4 |
workload.googleapis.com/dcgm.gpu.profiling.sm_utilization
|
||
GAUGE , DOUBLE gce_instance |
gpu_number model uuid
|
Tutti tranne P100 e P4 |
Inoltre, la configurazione integrata per Ops Agent
raccoglie anche agent.googleapis.com/gpu
metriche, che
vengono segnalate da NVIDIA
libreria di gestione (NVML).
Non è necessaria alcuna configurazione aggiuntiva in Ops Agent per raccogliere
queste metriche, ma devi
per creare la tua VM con GPU collegate
installare il driver GPU. Per ulteriori informazioni, vedi
Informazioni su
gpu
metriche.
Verificare la configurazione
In questa sezione viene descritto come verificare la corretta configurazione del Ricevitore NVIDIA DCGM. Potrebbero essere necessari uno o due minuti prima che Ops Agent inizi a raccogliere dati di telemetria.
Per verificare che le metriche NVIDIA DCGM vengano inviate a Cloud Monitoring, segui questi passaggi:
-
Nella console Google Cloud, vai alla leaderboard Pagina Esplora metriche:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoraggio.
- Nella barra degli strumenti della riquadro Query Builder, seleziona il pulsante con code MQL o code PromQL.
- Verifica che sia selezionato MQL con l'opzione Lingua. Il pulsante di attivazione/disattivazione della lingua si trova nella stessa barra degli strumenti. consente di formattare la query.
- Inserisci la seguente query nell'editor e poi fai clic su Esegui query:
fetch gce_instance | metric 'workload.googleapis.com/dcgm.gpu.profiling.sm_utilization' | every 1m
Visualizza dashboard
Per visualizzare le metriche NVIDIA DCGM, devi disporre di un grafico o di una dashboard configurato. L'integrazione NVIDIA DCGM include una o più dashboard per te. Qualsiasi dashboard viene installata automaticamente dopo integrazione e Ops Agent ha iniziato a raccogliere dati delle metriche.
Puoi anche visualizzare anteprime statiche delle dashboard senza installando l'integrazione.
Per visualizzare una dashboard installata:
-
Nella console Google Cloud, vai alla pagina Dashboard:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoraggio.
- Seleziona la scheda Elenco dashboard, quindi scegli la Categoria Integrazioni.
- Fai clic sul nome della dashboard che vuoi visualizzare.
Se hai configurato un'integrazione, ma la dashboard non è stata installato, quindi verifica che Ops Agent sia in esecuzione. Quando non c'è dati delle metriche per un grafico nella dashboard, l'installazione della dashboard non riesce. Dopo che Ops Agent inizia a raccogliere le metriche, la dashboard viene installata per te.
Per visualizzare un'anteprima statica della dashboard:
-
Nella console Google Cloud, vai alla Integrazioni pagina:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Monitoraggio.
- Fai clic sul filtro della piattaforma di deployment di Compute Engine.
- Individua la voce per NVIDIA DCGM e fai clic su Visualizza dettagli.
- Seleziona la scheda Dashboard per visualizzare un'anteprima statica. Se sia installata, quindi puoi accedervi facendo clic Visualizza dashboard.
Per saperne di più sulle dashboard in Cloud Monitoring, consulta Dashboard e grafici.
Per saperne di più sull'utilizzo della pagina Integrazioni, vedi Gestisci le integrazioni.
Limitazioni del DCGM e messa in pausa della profilazione
L'utilizzo simultaneo di DCGM può essere in conflitto con l'utilizzo di altri Strumenti per sviluppatori NVIDIA, come Nsight Systems o Nsight Compute. Questo limite si applica a NVIDIA A100 e alle GPU precedenti. Per ulteriori informazioni le informazioni, vedi Frequenza di campionamento di profilazione nella funzionalità DCGM.
Quando hai bisogno di usare strumenti come Nsight Systems senza subire interruzioni significative, puoi mettere in pausa o riprendere temporaneamente la raccolta delle metriche utilizzando seguenti comandi:
dcgmi profile --pause dcgmi profile --resume
Quando la profilazione è in pausa, nessuna delle metriche DCGM viene utilizzata da Ops Agent vengono emesse dalla VM.
Passaggi successivi
Per una procedura dettagliata su come utilizzare Ansible per installare Ops Agent, configura un un'applicazione di terze parti e installare una dashboard di esempio, consulta Video: installa Ops Agent per risolvere i problemi relativi alle applicazioni di terze parti.