08.08.2019

Xilinx: PCIe Gen4 Beschleuniger-Karte

Xilinx erweitert sein Alveo Portfolio an Beschleuniger-Karten für Datenzentren mit der Einführung der Alveo U50. Die U50 Karte ist laut Xilinx der industrieweit erste adaptierbare Low-Profile Beschleuniger mit Unterstützung von PCIe Gen 4. Sie ist zur Leistungsmaximierung eines breiten Bereichs von kritischen Rechner-, Netzwerk- und Speicher-Workloads vorgesehen.


Bild: Xilinx

Auf Basis der Xilinx UltraScale+ Architektur ist die Alveo U50 Karte das erste Produkt im Alveo Portfolio, das im Half-Height-/Half-Length-Formfaktor mit einem Leistungsverbrauch von 75W angeboten wird. Die Karte bietet einen breitbandigen Speicher (HBM2), Netzwerk-Konnektivität mit 100 Gb/s, sowie Unterstützung von PCIe Gen-4 und CCIX Interconnect.

 

Mit 8 GB an HBM2 sind laut Hersteller Datentransfers mit mehr als 400 Gb/s möglich, wobei die QSFP-Ports bis zu 100 Gb/s an Netzwerk-Konnektivität bieten. Die High-Speed Netzwerk I/O-Auslegung unterstützt außerdem Applikationen, wie NVMe-oF (NVM Express over Fabrics), disaggregierte Rechnerspeicher und spezielle Applikationen wie Finanz-Dienstleistungen.

 

Anders als die Alternativen mit fester Architektur erlaubt die Software- und Hardware-Programmierbarkeit von Alveo U50 den Anwendern die Erfüllung von häufig wechselnden Anforderungen und die Optimierung der Performance ihrer Applikationen.

 

Die Beschleunig mit Alveo U50 für ausgewählte Applikationen:

  • Beschleunigung der Deep Learning Inferenz (für Sprachübersetzung): mit bis zu 25-fach geringer Latenz, zehnfach höherem Durchsatz und signifikant verbesserter Leistungseffizienz pro Node im Vergleich zu GPUs für die Performance von Sprachbersetzungen1;
  • Beschleunigung von Data-Analytics (Database Query): durch Einsatz des TPC-H Query Benchmark. Alveo U50 liefert einen vierfach höheren Durchsatz pro Stunde, bei um den Faktor Drei reduzierten Betriebskosten gegenüber In-Memory CPUs2;
  • Beschleunigung der Rechnerspeicherung (Kompression): liefert den zwanzigfachen Kompressions-/Dekompressions-Durchsatz, schnellere Hadoop- und Big-Data Analytik, sowie um mehr als 30 Prozent geringere Kosten pro Node im Vergleich zu reinen CPU-Nodes3;
  • Netzwerk-Beschleunigung (elektronische Handelssysteme): erzielt eine um den Faktor 20 niedrigere Latenz bei Handelszeiten von weniger als 500 ns im Vergleich zur reinen CPU-Latenz von 10 µs4;
  • Finanzmodellierung (Grid Computing): Durch Einsatz der Monte Carlo Simulation erzielt Alveo U50 die siebenfache Leistungseffizienz im Vergleich zur reinen GPU-Performance5 und realisiert schnelleren Erkenntnisgewinn, deterministische Latenz und reduzierte Betriebskosten5.

Alveo U50 ist derzeit verfügbar in Sample-Stückzahlen. Die allgemeine Verfügbarkeit ist für den Herbst 2019 vorgesehen.

Fußnoten

  1. Performance von Alveo U50, mit Alveo U50 und Nvidia Tesla T4 zugleich in Betrieb (B=2, L=8), Tesla T4 (B=8, L=8) (geschätzte Daten).
  2. Alveo U50 = 24 ms, 150k Query/hr / CPU Query Time = 210 ms, 34k Query/hr. auf Basis des Intel Xeon Platinum 8260 Prozessors (35.75M Cache, 2.40 GHz) 24 Core.
  3. Intel Skylake-SP 6152 @2.10GHz CPU (Ubuntu 16.04) CPU Query Time = 210 ms, 34k Query/hr. Alveo U50 = 24 ms, 150k Query/hr Xilinx Alveo U50 SDAccel 2018.3 (geschätzt) GB/s Kompression pro CPU Core = 0,0229. Alveo U50 = 10 GB/s (geschätzt).
  4. Alveo U50 Latenz ist <0,5 µs, CPU-Latenz ist 10 µs. Gemessen vom Start von Packet-in on Tick (Marktdaten) zum Start of Packet-out on the order to Start of Packet Out on the Order (geschätzt).
  5. Intel Xeon E5-2697 v4 GCC 5.4.0 Nvidia Tesla V100 16 GB PCIe CUDA 10.1 / GCC 5.4.0 Intel Skylake-SP 6152 @2.10 GHz CPU (Ubuntu 16.04) CPU Query Time = 210 ms, 34k Query/hr. Alveo U50 = 24 ms, 150k Query/hr Xilinx Alveo U50 SDAccel 2018.3 (geschätzte Daten).

 


--> -->