NVIDIA H100 Tensor-Core-GPU

Außergewöhnliche Leistung, Skalierbarkeit und Sicherheit für jedes Rechenzentrum.

Einführung
H100 NVL
NVIDIA AI Enterprise
Workloads
Grace Hopper
Technische Daten

Einführung
H100 NVL
NVIDIA AI Enterprise
Workloads
Grace Hopper
Technische Daten

Ein Größenordnungssprung für beschleunigtes Computing

Mit dem NVIDIA H100 Tensor-Core-Grafikprozessor profitieren Sie von beispielloser Leistung, Skalierbarkeit und Sicherheit für jeden Workload. Mit dem NVIDIA NVLink™ Switch System können bis zu 256 H100-Grafikprozessoren verbunden werden, um Exascale-Workloads zu beschleunigen. Der Grafikprozessor umfasst auch eine dedizierte Transformer Engine, um Sprachmodelle mit Billionen Parametern zu berechnen. Die kombinierten technologischen Innovationen von H100 können große Sprachmodelle (LLMs) um das 30-Fache gegenüber der Vorgängergeneration beschleunigen, um branchenführende Gesprächs-KI bereitzustellen.

NVIDIA H100 PCIe-Datenblatt lesen

NVIDIA H100 NVL-Produktübersicht lesen

Inferenz für Supercharger Large Language Models

Für LLMs mit bis zu 175 Milliarden Parametern nutzt die PCIe-basierte H100-NVL mit NVLink-Brücke die Transformer Engine, NVLink und 188 GB HBM3-Speicher, um optimale Leistung und einfache Skalierung in jedem Rechenzentrum zu bieten und LLMs zum Mainstream zu machen. Server mit H100 NVL-Grafikprozessoren steigern die Leistung des GPT-175B-Modells um das bis zu 12-Fache gegenüber NVIDIA DGX™ A100 Systemen bei gleichzeitig geringer Latenz in Rechenzentrumsumgebungen mit begrenztem Stromverbrauch.

Bereit für Enterprise AI?

Die Einführung von KI durch Unternehmen ist heute im Mainstream angekommen, und diese Unternehmen benötigen eine durchgängige, KI-fähige Infrastruktur, mit der sie in dieser neuen Ära Erfolg haben können.

H100 für Mainstream-Server umfasst ein Fünf-Jahres-Abonnement, einschließlich Unternehmenssupport, für die NVIDIA AI Enterprise-Softwaresuite, wodurch die KI-Einführung mit höchster Leistung vereinfacht wird. Dadurch wird sichergestellt, dass Unternehmen Zugriff auf die KI-Frameworks und -Tools haben, die sie benötigen, um H100-beschleunigte KI-Workflows wie KI-Chatbots, Empfehlungs-Engines, Vision-KI und mehr zu erstellen.

Aktivieren Sie NVIDIA AI Enterprise

Sichere Beschleunigung von Workloads von Enterprise bis Exascale

Bis zu 4-mal besseres KI-Training mit GPT-3

Die projizierte Leistung kann Änderungen unterliegen. GPT-3 175B Training A100 Cluster: HDR-IB-Netzwerk, H100 Cluster: NDR-IB-Netzwerk | Training für Mixture of Experts (MoE) Transformer Switch-XXL-Variante mit 395B-Parametern auf 1T-Token-Datensatz, A100-Cluster: HDR-IB-Netzwerk, H100-Cluster: NDR-IB-Netzwerk mit NVLINK Switch System, wo angegeben.

Transformations-KI-Training

H100 verfügt über Tensor-Recheneinheiten der vierten Generation und eine Transformer Engine mit FP8-Präzision, die bis zu 4-mal schnelleres Training im Vergleich zur vorherigen Generation für GPT-3 (175B)-Modelle bietet. Die Kombination aus NVLink der vierten Generation, das 900 Gigabyte pro Sekunde (GB/s) der GPU-zu-GPU-Verbindung bietet, und dem NDR Quantum-2 InfiniBand-Netzwerk, das die Kommunikation durch jeden Grafikprozessor über Knoten hinweg beschleunigt, PCIe Gen5 und NVIDIA Magnum IO™ Software bietet effiziente Skalierbarkeit von Systemen für kleine Unternehmen bis hin zu riesigen, einheitlichen GPU-Clustern.

Die Bereitstellung von H100-Grafikprozessoren im Rechenzentrumsmaßstab bietet hervorragende Leistung sowie die nächste Generation von Exascale High-Performance-Computing (HPC) und Billionen-Parameter-KI für alle Forscher.

Erleben Sie NVIDIA-KI und NVIDIA H100 auf NVIDIA LaunchPad

Echtzeit-Deep-Learning-Inferenz

KI löst eine Vielzahl von geschäftlichen Herausforderungen mit einer ebenso breiten Palette an neuronalen Netzen. Ein hervorragender KI-Inferenzbeschleuniger muss nicht nur höchste Leistung, sondern auch die Vielseitigkeit bieten, um diese Netzwerke zu beschleunigen.

H100 erweitert die marktführende Position von NVIDIA bei Inferenz durch mehrere Fortschritte, die die Inferenz um das bis zu 30-Fache beschleunigen und die niedrigste Latenz bieten. Tensor-Recheneinheiten der vierten Generation beschleunigen alle Präzisionen, einschließlich FP64, TF32, FP32, FP16, INT8 und jetzt FP8, um die Speicherauslastung zu reduzieren, die Leistung zu steigern und gleichzeitig die Genauigkeit für große Sprachmodelle aufrechtzuerhalten.

Bis zu 30-mal höhere KI-Inferenzleistung bei den größten Modellen

Megatron Chatbot-Inferenz (530 Milliarden Parameter)

Die projizierte Leistung kann Änderungen unterliegen. Inferenz auf dem auf dem Megatron 530B-Parametermodell basierenden Chatbot für die Eingabesequenzlänge = 128, Ausgabesequenzlänge = 20 | A100-Cluster: HDR-IB-Netzwerk | H100-Cluster: NVLink-Switch-System, NDR IB

Bis zu 7-mal höhere Leistung für HPC-Anwendungen

Exascale High-Performance Computing

Die NVIDIA-Rechenzentrumsplattform bietet konsistent Leistungssteigerungen, die über das Mooresche Gesetz hinausgehen. Die neuen bahnbrechenden KI-Funktionen von H100 verstärken die Leistungsfähigkeit von HPC und KI weiter, um für Wissenschaftler und Forscher, die an der Lösung der wichtigsten Herausforderungen der Welt arbeiten, die Zeit bis zum Entdecken zu verkürzen.

H100 verdreifacht die Gleitkommaoperationen pro Sekunde (FLOPS) der Tensor Cores mit doppelter Genauigkeit und liefert 60 TeraFLOPS FP64-Computing für HPC. KI-gestützte HPC-Anwendungen können auch die TF32-Präzision von H100 nutzen, um einen PetaFLOPS-Durchsatz für Matrixmultiplikationsoperationen mit einfacher Genauigkeit zu erreichen, ohne Codeänderungen.

H100 verfügt außerdem über neue DPX-Anweisungen, die 7-mal höhere Leistung als A100 und 40-fache Beschleunigung gegenüber CPUs bei dynamischen Programmieralgorithmen wie Smith-Waterman für die DNA-Sequenzausrichtung und Proteinausrichtung für die Proteinstrukturvorhersage liefern.

Aktuelle GPU-Leistung bei HPC-Anwendungen ansehen

DPX instructions comparison NVIDIA HGX™ H100 4-GPU vs dual socket 32-core IceLake.

Beschleunigte Datenanalysen

Datenanalysen nehmen bei der Entwicklung von KI-Anwendungen häufig den Großteil der Zeit in Anspruch. Da große Datensätze auf mehrere Server verteilt sind, werden Scale-Out-Lösungen mit reinen CPU-Standardservern durch fehlende skalierbare Rechenleistung ausgebremst.

Beschleunigte Server mit H100 liefern die Rechenleistung – zusammen mit 3 Terabyte pro Sekunde (TB/s) Speicherbandbreite pro Grafikprozessor und Skalierbarkeit mit NVLink und NVSwitch™ –, um Datenanalysen mit hoher Leistung und Skalierung zur Unterstützung riesiger Datensätze zu bewältigen. In Kombination mit NVIDIA Quantum-2 InfiniBand, Magnum IO-Software, Grafikprozessor-beschleunigtem Spark 3.0 und NVIDIA RAPIDS™ ist die Rechenzentrumsplattform von NVIDIA besonders dazu in der Lage, diese enormen Workloads mit höherer Leistung und Effizienz zu beschleunigen.

Unternehmensfähige Auslastung

IT-Manager versuchen, die Auslastung (sowohl Spitzen- als auch Durchschnittsauslastung) der Rechenressourcen im Rechenzentrum zu maximieren. Sie setzen häufig eine dynamische Neukonfiguration der Rechenleistung ein, um Ressourcen der richtigen Größe für die verwendeten Workloads zu erhalten.

Dank H100 mit MIG können Infrastrukturmanager ihre GPU-beschleunigte Infrastruktur standardisieren und gleichzeitig die Flexibilität sichern, GPU-Ressourcen mit größerer Granularität bereitzustellen, um Entwicklern sicher die richtige Menge an beschleunigter Rechenleistung zur Verfügung zu stellen und die Nutzung aller ihrer GPU-Ressourcen zu optimieren.

Mehr Informationen zu MIG

Integriertes vertrauliches Computing

Traditionelle vertrauliche Computing-Lösungen sind CPU-basiert, was für rechenintensive Workloads wie KI in großem Maßstab zu begrenzt ist. Vertrauliches Computing von NVIDIA ist eine integrierte Sicherheitsfunktion der NVIDIA™ Hopper-Architektur, die H100 zum weltweit ersten Grafikprozessor mit diesen Funktionen gemacht hat. Mit NVIDIA Blackwellgibt es die Möglichkeit, die Leistung exponentiell zu steigern und gleichzeitig die Vertraulichkeit und Integrität der verwendeten Daten und Anwendungen zu schützen und Dateneinblicke wie nie zuvor zu gewinnen. Kunden können jetzt eine hardwarebasierte Trusted Execution Environment (TEE) verwenden, die den gesamten Workload auf höchst leistungsfähige Weise sichert und isoliert.

Mehr über NVIDIA Confidential Computing erfahren

Außergewöhnliche Leistung für umfangreiche KI und HPC

Der Hopper Tensor-Core-Grafikprozessor unterstützt die NVIDIA Grace Hopper-CPU- und GPU-Architektur, die speziell für beschleunigtes Computing im Terabyte-Bereich entwickelt wurde und eine 10-mal höhere Leistung bei KI und HPC bei großen Modellen bietet. Die NVIDIA Grace-CPU nutzt die Flexibilität der Arm^® -Architektur, um eine CPU- und Serverarchitektur zu erstellen, die von Grund auf für beschleunigtes Computing entwickelt wurde. Die Hopper-GPU wird mit der Grace-CPU sowie der ultraschnellen Chip-zu-Chip-Verbindung von NVIDIA kombiniert und bietet eine Bandbreite von 900 GB/s, 7-mal schneller als PCIe der 5. Generation. Dieses innovative Design bietet eine bis zu 30-mal höhere Gesamt-Systemspeicherbandbreite im Vergleich zu den schnellsten gegenwärtig verfügbaren Servern und eine bis zu 10-mal höhere Leistung für Anwendungen mit einem Datenvolumen von mehreren Terabytes.

Weitere Informationen zu NVIDIA Grace

Technische Daten

Formfaktor	H100 SXM	H100 PCIe	H100 NVL¹
FP64	34 teraFLOPS	26 teraFLOPS	68 teraFLOPs
FP64 Tensor Core	67 teraFLOPS	51 teraFLOPS	134 teraFLOPs
FP32	67 teraFLOPS	51 teraFLOPS	134 teraFLOPs
TF32 Tensor Core	989 teraFLOPS²	756 teraFLOPS²	1.979 teraFLOPs²
BFLOAT16 Tensor Core	1.979 teraFLOPS²	1.513 teraFLOPS²	3.958 teraFLOPs²
FP16 Tensor Core	1.979 teraFLOPS²	1.513 teraFLOPS²	3.958 teraFLOPs²
FP8 Tensor Core	3.958 teraFLOPS²	3.026 teraFLOPS²	7.916 teraFLOPs²
INT8 Tensor Core	3.958 TOPS²	3.026 TOPS²	7.916 TOPS²
GPU-Speicher	80GB	80GB	188GB
GPU-Speicherbandbreite	3.35TB/s	2TB/s	7.8TB/s³
Decoders	7 NVDEC 7 JPEG	7 NVDEC 7 JPEG	14 NVDEC 14 JPEG
Max thermal design power (TDP)	Bis zu 700 W (konfigurierbar)	300 bis 350 W (konfigurierbar)	2x 350–400 W (konfigurierbar)
Mehr-Instanzen-Grafikprozessoren	Bis zu 7 MIGs mit je 10 GB		Bis zu 14 MIGS @ 12 GB jeweils
Formfaktor	SXM	PCIe Zwei Steckplätze mit Luftkühlung	2x PCIe Zwei Steckplätze mit Luftkühlung
Konnektivität	NVLink: 900GB/s PCIe Gen5: 128GB/s	NVLink: 600GB/s PCIe Gen5: 128GB/s	NVLink: 600GB/s PCIe Gen5: 128GB/s
Serveroptionen	NVIDIA HGX™ H100-Partner und NVIDIA-Certified Systems™ mit 4 oder 8 GPUs, NVIDIA DGX™ H100 mit 8 GPUs	Partner und NVIDIA-Certified Systems mit 1–8 GPUs	Partner und NVIDIA-Certified Systems mit 2–4 Paaren
NVIDIA AI Enterprise	Add-on	Inbegriffen	Inbegriffen

1. Vorläufige Spezifikationen. Änderungen vorbehalten. Technische Daten für 2x H100 NVL PCIe-Karten in Kombination mit einer NVLink-Brücke.
2. Mit geringer Dichte.
3. Aggregierte HBM-Bandbreite.

Tiefer Einblick in die NVIDIA Hopper-Architektur

Whitepaper lesen