- Home »

Vizualizați performanța GPU cu nvtop și radeontop – ghiduri moderne pentru NVIDIA și AMD
- Despre acest articol
- Problema reală: De ce contează monitorizarea GPU?
- Cum funcționează nvtop și radeontop?
- Cazuri de utilizare și beneficii
- Cum să instalezi rapid nvtop și radeontop
- Exemple, comparații & recomandări
- Mini Glosar (Real-Talk)
- Mituri, greșeli și arbore de decizie
- Statistici, fapte și utilizări neconvenționale
- Scripturi utile pentru automații și monitorizare
- Poveste scurtă de admin (fictionalizată)
- Concluzie & recomandări finale
Despre acest articol
Dacă ai ajuns aici, probabil ai deja un server cu GPU (sau vrei unul), rulezi containere, VM-uri, poate chiar ai dat de cap docker-ului cu suport CUDA, și vrei să vezi ce face placa ta video în timp real, fără să te pierzi în grafice complicate sau dashboard-uri de tip „enterprise”.
Articolul ăsta e pentru devops, sysadmini, developeri, oameni pasionați de AI, ML, gaming, streaming sau orice altceva ce stoarce GPU-ul pe server. Vorbim despre nvtop (pentru NVIDIA) și radeontop (pentru AMD), două utilitare moderne, rapide, text-based, care îți arată clar și simplu ce se întâmplă cu plăcile tale video.
Vei afla de ce e important să monitorizezi GPU-ul, cum se instalează instant, la ce folosește, ce poți face cu ele, plus câteva tips & tricks pentru automatizare. Let’s geek out!
(Dacă ai nevoie de un VPS sau server dedicat cu GPU, poți comanda direct aici: VPS sau Server dedicat.)
Problema reală: De ce contează monitorizarea GPU?
Imaginează-ți: rulezi un job de machine learning, ai lansat training-ul modelului, te uiți la consolele de loguri, totul pare să meargă… dar modelul merge extraordinar de încet. Te uiți la utilizarea procesorului: 5%. Hmm. RAM-ul: 20%. „Dar GPU-ul?!” — habar n-ai.
Ți s-a întâmplat să rulezi ceva și să nu știi dacă GPU-ul chiar lucrează sau doar stă degeaba? Să ai suspiciuni că docker-ul nu vede placa video, sau că driverul s-a blocat? Să vrei să distribui joburi pe mai multe plăci, dar nu știi care e liberă?
Asta e drama reală în lumea serverelor moderne cu GPU. Fără monitorizare, e ca și cum ai conduce o mașină sport cu vitezometrul acoperit.
- Poți pierde bani: plătești pentru hardware pe care nu-l folosești.
- Poți rata deadline-uri: task-uri lente, debugging greoi, nervi.
- Poți avea downtime: dacă driverul sau GPU-ul o ia razna, nu vezi la timp.
Soluția? Un utilitar simplu, rapid, care merge direct în shell, fără X, fără browser, fără clickuri. Aici intră în scenă nvtop și radeontop.
Cum funcționează nvtop și radeontop?
Ambele tool-uri sunt ca niște „top”-uri pentru GPU. Dacă știi top
sau htop
pentru CPU/RAM, aici e la fel, dar pentru placă video. În terminal, text-based, refresh rapid, info clar.
nvtop e pentru plăci NVIDIA, citește date din driverul oficial (prin NVML). radeontop e pentru AMD, citește din /sys și din API-urile kernelului Linux.
Ambele arată:
- Utilizare GPU (%)
- Memorie video folosită (MB/GB)
- Procesele care folosesc GPU-ul (PID, user, comanda)
- Temperatura, frecvență, putere consumată (unde e suportat)
- Statistici pe mai multe plăci simultan
Algoritmii sunt simpli: tool-ul citește la fiecare X secunde datele din API-ul driverului, parsează, afișează în terminal cu culori și bare grafice text.
Structura: interfață ncurses (deci merge și în SSH, nu-ți trebuie GUI), cu shortcut-uri pentru sortare, filtrare, refresh, etc.
Cum se instalează rapid?
- Pe majoritatea distribuțiilor moderne, nvtop și radeontop sunt deja în repo-uri.
- Pe servere enterprise, poți compila din sursă, dar de obicei nu e nevoie.
- Nu necesită configurare specială. Rulezi, vezi info.
Cazuri de utilizare și beneficii
- DevOps & Admini: Vrei să vezi dacă docker-ul sau VM-ul chiar folosește GPU-ul? Rulezi
nvtop
sauradeontop
în SSH și vezi instant ce procese consumă placă. - AI/ML/Deep Learning: Verifici dacă training-ul merge pe GPU sau fallback pe CPU (aka „CUDA not available, fallback… ai pierdut o noapte degeaba”).
- Streaming & Encoding: Monitorizezi hardware-ul la encoding video (OBS, ffmpeg cu NVENC/AMF), vezi dacă e folosit corect hardware-ul.
- Gaming pe server: Dacă rulezi VM cu passthrough GPU, vezi dacă jocul chiar folosește GPU-ul dedicat.
- Cluster & Cloud: Distribui joburi pe mai multe plăci, vezi care sunt idle, care sunt full.
- Debugging: Depistezi rapid procese zombie pe GPU, memory leaks, joburi blocate.
Beneficii?
- Zero setup, zero overhead.
- Merge și pe servere fără GUI (SSH only, perfect pentru cloud/VPS).
- Nu consumă resurse, nu blochează GPU-ul.
- Instant feedback, fără clickuri sau dashboard-uri greoaie.
Cum să instalezi rapid nvtop și radeontop
1. Instalare pe Ubuntu/Debian
Pentru NVIDIA (nvtop):
sudo apt update
sudo apt install nvtop
Pentru AMD (radeontop):
sudo apt update
sudo apt install radeontop
2. Instalare pe CentOS/RHEL/Fedora
Pentru NVIDIA:
sudo dnf install nvtop
Pentru AMD:
sudo dnf install radeontop
3. Compilare din sursă (dacă vrei bleeding-edge)
nvtop: github.com/Syllo/nvtop
radeontop: github.com/clbr/radeontop
(Pro tip: pe servere cloud fără sudo, poți compila în home user și rula local.)
4. Rulare rapidă
- Rulează
nvtop
sauradeontop
direct în terminal. - Shortcut-uri utile în interfață: h pentru help, q pentru quit, s pentru sortare, etc.
- Funcționează în orice sesiune SSH, chiar și remote, fără X11 forwarding.
5. Integrare cu automatizări
- Poți folosi
watch -n 1 nvtop --no-interactive
pentru refresh automat. - Redirectează output-ul în fișiere de log pentru analiză ulterioară.
- Rulează periodic cu cron pentru monitorizare automată.
Exemple, comparații & recomandări
Exemplu clasic de folosire:
- Rulezi
nvtop
. Vezi 3 plăci NVIDIA, una folosită 99% (job de ML), alta la 0% (idle), alta la 30% (encoding video). - Dai click pe PID sau user, vezi ce proces folosește placa. Poți kill-ui direct procesul cu
kill
dacă e nevoie.
Exemplu negativ:
- Rulezi
nvtop
, dar vezi „No device found”. De obicei: driverul nu e instalat, docker-ul nu are acces la device, sau e nevoie de reboot după update kernel. - Pe servere virtualizate: unele VPS-uri nu expun device-ul GPU către guest, deci tool-ul nu vede nimic.
Comic Metaphor: GPU-Top Showdown!
Tool | Personalitate | Ce știe să facă | Unde e bun | Unde e slab |
---|---|---|---|---|
nvtop | Super-eroul NVIDIA, musculos, rapid, cu ochelari de soare | Tot ce vrei pentru plăci NVIDIA, inclusiv multi-GPU, procese, temperaturi | Servere cu NVIDIA, AI/ML/docker, encoding | Nu merge cu AMD, nu merge fără driver |
radeontop | Hacker-ul AMD, puțin hipster, merge pe bicicletă | Monitorizare placă AMD, usage, memorie, procese | Servere cu AMD, gaming, encoding, mining | Nu merge cu NVIDIA, mai puține detalii avansate |
nvidia-smi | Contabilul rigid, nu zâmbește niciodată | Output tabelar, status driver, info detaliat | Scripturi, debugging, logare | Nu are interfață live, nu e user-friendly |
gpustat | Barista hipster, îți servește info rapid | Output scurt, summary per GPU | Scripturi, cron, monitorizare rapidă | Nu are interfață live, nu arată procese detaliat |
Mini Glosar (Real-Talk)
- GPU: Placa video. „Motorul turbo” al serverului, bun la calcule grele (AI, video, gaming).
- Usage: Cât din puterea GPU-ului e folosită (%). 0% = stă degeaba, 100% = full throttle.
- Memorie VRAM: RAM-ul plăcii video. Dacă e plin, apar crash-uri sau slowdowns.
- NVML: Nvidia Management Library. API-ul secret prin care tool-urile citesc datele de la NVIDIA.
- ncurses: Librărie pentru interfețe text grafice (culori, bare, etc.) în terminal.
- PID: Process ID. Numărul unic al procesului care folosește GPU-ul.
Mituri, greșeli și arbore de decizie
Mituri comune:
- „Dacă rulez jobul pe un server cu GPU, sigur folosește GPU-ul” — FALS. Trebuie să verifici cu nvtop/radeontop sau
nvidia-smi
dacă chiar merge pe GPU. - „Doar GUI-urile mari arată info despre GPU” — FALS. Poți vedea TOTUL în terminal, fără overhead.
- „Nu există tool-uri pentru AMD” — FALS. radeontop e chiar foarte bun, plus alte mici utilitare.
Greșeli de începător:
- Nu instalezi driverul corect (sau uiți să dai reboot).
- Rulezi container fără
--gpus all
la docker și te miri că nu vezi GPU-ul. - Nu verifici dacă userul are acces la device-ul GPU (
/dev/nvidia*
sau/dev/dri*
).
Arbore de decizie: „Ce tool să folosesc?”
Ai placă NVIDIA? ⬇️ DA → Folosește nvtop! ⬇️ Vrei și output scriptabil? → Folosește nvidia-smi sau gpustat. ⬇️ NU → Ai placă AMD? ⬇️ DA → Folosește radeontop! ⬇️ NU → Nu merge cu aceste tool-uri. Încearcă intel_gpu_top (pentru Intel), sau caută suport hardware.
Linkuri oficiale:
nvtop pe GitHub |
radeontop pe GitHub
Statistici, fapte și utilizări neconvenționale
- nvtop suportă multi-GPU din 2019. Poți vedea 8+ plăci simultan (dacă ai norocul sau bugetul necesar).
- radeontop merge inclusiv pe plăci vechi, perfect pentru mining rigs reciclate.
- Pentru automation: poți integra output-ul nvtop/radeontop în Prometheus/Grafana cu mici scripturi.
- Unii admini rulează nvtop direct în tmux/screen pe servere remote, ca să poată verifica rapid statusul GPU-ului de oriunde.
- Poți seta notificări automate dacă GPU-ul stă idle prea mult (sau, invers, dacă e la 100% de prea mult timp).
Scripturi utile pentru automații și monitorizare
Script simplu pentru monitorizare și alertare (NVIDIA):
#!/bin/bash
USAGE=$(nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits | head -n1)
if [ "$USAGE" -lt 10 ]; then
echo "GPU stă degeaba! Poți trimite un job nou."
fi
Script pentru logging la fiecare 5 secunde (AMD):
while true; do
radeontop -d /tmp/radeon.log -l 1
sleep 5
done
Integrare cu Prometheus (output custom):
nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv,noheader,nounits | awk -F, '{print "gpu_usage "$1"\nmemory_used "$2}'
Poveste scurtă de admin (fictionalizată)
Alex, sysadmin la un startup de AI, primește un call la 2 noaptea: „Modelul nostru nu se antrenează, serverul e pe idle!”. Intră pe SSH, rulează nvtop
, vede că GPU-ul stă la 1%. Verifică docker run: uitaseră să pună --gpus all
. Adaugă flag-ul, repornește jobul, GPU-ul sare la 97%. Modelul merge, echipa e salvată, Alex devine erou. Morală: Fără monitorizare, ești orb pe GPU!
Concluzie & recomandări finale
- nvtop și radeontop sunt must-have pentru orice admin, devops, developer sau entuziast care folosește GPU pe server.
- Sunt rapide, ușor de instalat, nu cer GUI, perfecte pentru cloud, VPS, bare-metal sau server dedicat.
- Folosindu-le, poți preveni downtime, optimizezi costurile, distribui workload-urile mai bine și eviți surprizele neplăcute.
- Nu uita: monitorizarea live e secretul unei infrastructuri solide și eficiente.
- Dacă ai nevoie de infrastructură cu GPU gata de muncă, vezi ofertele de VPS sau server dedicat cu suport GPU.
Spor la monitorizat și la optimizat! Dacă ai întrebări geeky sau vrei să împărtășești tips & tricks, lasă un comentariu sau share-uiește articolul cu colegii tăi din DevOps.