Die Blackwell-AI-Chips der NVIDIA-NVIDIA sind bei der Installation in Server-Racks mit hoher Kapazität mit schwerwiegenden Überhitzungsproblemen ausgesetzt.Diese Probleme haben zu Designänderungen und -verzögerungen geführt und bei Kunden wie Google, Meta und Microsoft Bedenken hinsichtlich der rechtzeitigen Bereitstellung von Blackwell -Servern geäußert.
Insider haben gezeigt, dass die Blackwell -GPU von Nvidia bei Verwendung in Servern mit 72 Chips überhitzen kann.Es wird erwartet, dass diese Geräte bis zu 120 kW pro Rack verbrauchen.Diese Probleme haben NVIDIA dazu gezwungen, sein Server -Rack -Design mehrmals neu zu bewerten, da Überhitzung die GPU -Leistung einschränken und ein Risiko für Komponentenschäden darstellen kann.Kunden sind besorgt, dass diese Rückschläge ihren Zeitplan für die Bereitstellung neuer Chips in Rechenzentren behindern können.
Berichten zufolge hat Nvidia seine Lieferanten angewiesen, mehrere Designänderungen am Rack vorzunehmen, um Überhitzungsprobleme anzugehen.Das Unternehmen arbeitet eng mit seinen Lieferanten und Partnern zusammen, um technische Überarbeitungen zu entwickeln, um die Serverkühlung zu verbessern.Obwohl diese Anpassungen eine Standardpraxis für eine so groß angelegte Technologie sind, fügen sie dennoch Verzögerungen hinzu und verzögern den erwarteten Liefertermin weiter.
Laut einem Bericht von First Financial als Reaktion auf Verzögerungen und Überhitzungsfragen erklärte ein Sprecher von NVIDIA: „Wir arbeiten mit führenden Cloud -Dienstleisten als wesentlicher Bestandteil unseres technischen Teams und unserer Prozesse zusammen. Engineering -Iterationen sind normal und erwartet. Integration. Integration.GB200, das bisher am weitesten fortgeschrittene System, in verschiedene Rechenzentrumsumgebungen erforderlich, erfordert gemeinsames Design mit unseren Kunden. "Nvidia erklärte auch, dass "Kunden derzeit die Marktchance für GB200 -Systeme nutzen.
Zuvor musste Nvidia die Produktion von Blackwell aufgrund von Designfehlern in der Chip -Ertrag verschieben.NVIDIAs Blackwell B100 und B200 GPUs verwenden die TSMC Cowos-L-Verpackungstechnologie, um ihre beiden Chips zu verbinden.Dieses Design umfasst eine RDL -Zwischenschicht mit LSI -Brücke (Local Silicon Interconnect), die Datenübertragungsgeschwindigkeiten von bis zu 10 TB/s unterstützt.Die genaue Positionierung dieser LSI -Brücken ist für die Technologie von entscheidender Bedeutung, wie erwartet.Die Fehlanpassung der thermischen Expansionsmerkmale zwischen GPU -Chips, LSI -Brücken, RDL -Zwischenschichten und Motherboard -Substraten hat jedoch zu Verzerrungen und Systemfehlern geführt.Um dieses Problem anzugehen, modifizierte NVIDIA die Top -Metallschicht und Beulenstruktur von GPU -Silizium, um die Produktionszuverlässigkeit zu verbessern.
Daher wird die endgültige überarbeitete Nvidia Blackwell GPU erst Ende Oktober mit der Massenproduktion beginnen, was bedeutet, dass Nvidia diese Chips ab Ende Januar nächsten Jahres versenden kann.
Die Kunden von NVIDIA, einschließlich Tech -Giganten wie Google, Meta und Microsoft, verwenden NVIDIA GPUs, um ihre leistungsstärksten großen Sprachmodelle auszubilden.Die Verzögerung von Blackwell AI GPU wirkt sich natürlich auf die Pläne und Produkte der Kunden von Nvidia aus.