| GigaCruncher
Ziel dieser Studie ist der Aufbau eines preiswerten Hochleistungs-Clusterrechners (BeoWulf-Cluster). Der Cluster sollte die Leistung eines modernen Supercomputers haben (~100 GFlop/s peak) und einen Preis von ca. 10.000 Euro. Er sollte relativ leicht zu verwalten sein, sollte platzsparend und energiesparend aufgebaut sein. Die Clustergröße soll im Bereich von 30-60 Knoten liegen, der Preis pro Knoten bei ca. 333 Euro. Das Preis-Leistungsverhältnis des GigaCrunchers wird bei ca. 100 Euro pro GFlop/s (peak) liegen. The aim of this study is to provide information about a low price - high performance computing - cluster of computers (BeoWulf cluster). The cluster should have the performance of a modern supercomputer (~100 GFlop/s peak) and a price near 10.000 Euro. Despite of its performance/money optimization it should be manageable by one person, should fit in a ‘small’ room and should have a ‘low’ power consumption. The cluster size will be in the range of 30 nodes, pushing the price/node limit to 333 Euro/node and the price/performance ratio down to 100 Euro per GFlop/s (peak).  |  | | Die Geschwindigkeit in GFlop/s wird mit linpack gemessen. Die schnellsten Super-Computer der Welt findet man in der TOP500-Liste. Die hier aufgeführten Berechnungen gelten für 30 Knoten-Rechner und einen Server.{Es gilt 1 Euro = 1 Dollar} |
|
|
HardwareCPU Die CPU wurde nach Preis/Leistungs-Gesichtspunkten ausgewählt. Dabei dienten geizhals.at und mercateo.com als Preissuchmaschinen. Ebay lohnt sich zumindest für kleinere Händler/Distributoren, jedoch liegen die Preise meist im Preislevel von aktuellen Discountern. Für die Leistungsvergleiche wird eine Datenbank mit ständig aktuellen Werten benötigt, die alle neuen CPU-Arten aller Hersteller beinhaltet. Dafür bietet sich spec.org an. Für die genannte Zielrichtung (wissenschaftliche Berechnungen) können die specfp2000-Werte aus einer Datenbank benutzt werden. Die Linpack-Werte berücksichtigen nur einen kleinen Prozentsatz der Leistungsfähigkeit eines Systems, dienen daher nur der ungefähren Einstufung eines Systems. CPU | Geschwindigkeit (CFP2000 base) | Preis (Euro) | Preis/ Geschw | 30xCPU (Euro) | | | | | | April 2003 | | Pentium 4 (3,06 GHz) | 1077 | 450 | 0,41 | 13.500 | | | | Pentium 4 (2,5 GHz) | 875 | 219 | 0,25 | 6.570 | | | | Pentium 4 (2,0 GHz) | 704 | 185 | 0,26 | 5.500 | | | | | | | | | | | | Athlon XP 3000+ | 776 | 359 | 0,37 | 10.770 | | | | Athlon XP 2500+ | 650 (~) | 143 | 0,22 | 4.290 | | | | Athlon XP 2000+ | 596 | 69 | 0,11 | 2.070 | | | | Athlon MP 2000+ | 596 | 134 | 0,22 | 4.020 | | | | | | | | | | | | Itanium 2 (1,0 GHz) | 1431 | 7000(~) | 4,89 | 210.000 | | | | Opteron 244 (1,8 GHz) | 998(~) | 959(~) | 0,96 | 28.770 | | | |
|
Aus der Liste wird klar, dass es für die Zielgröße von 30 Knotenrechnern im April 2003 keine andere Auswahl als den Athlon XP 2000 gibt. Mit 0,11 Euro pro CFP2000-Punkt ist er nicht zu schlagen. Es ist auch zu beachten, dass hier ein Optimierungsproblem mit mehreren Variablen vorliegt, denn es gilt auch alle anderen Komponenten (RAM, MoBo, Netzwerkkarte, Netzteil) mit zu berechnen. Weiterhin ist die Integerleistung nicht zu vergessen. Bei den CINT2000 Werten der 3 GHz-Systemen liegen Intel (1085) und AMD (960) nahe beieinander.  |  | | Um den Sprung zum 100 GFLOP/s Rechner hinzubekommen, muss man noch einmal verdeutlichen: Ein Intel Pentium 4 mit 3 GHz leistet ca. 6 GFlop/s (Milliarden Fliesskomma Operationen pro Sekunde) im linpack Benchmark. Weiterhin gilt es zu beachten, dass es Ergebnisse für 32-bit (single-precision) und 64-bit (double precision) gibt. Die meisten Ergebnisse sind als 32-bit Werte angegeben (da höher = schöner). Ein Athlon XP2000 der real bei 1,66 GHz läuft hat eine linpack-Leistung von ca. 3,3 GFlop/s (*). (Athlon MP und Athlon XP haben die gleiche Architektur und gleiche Geschwindigkeit, wobei der MP für Multiprozessorboards ausgelegt ist.) Ein System mit 30 Athlon XP2000 Prozessoren hat also eine (theoretische) Peak-Leistung von ~100 GFlop/s. Ein System mit 30 Pentium-4 3,0 GHz CPUs besitzt eine theoretische Peakleistung von 180 GFlop/s. Dabei ist das Intel-System zwar fast doppelt so schnell, jedoch auch 6,5-fach so teuer. Dies entspricht auch ungefähr den Berechnungen aus den CFP2000-Werten. Die tatsächliche (base) Cluster-Leistung liegt bei 40-60% je nach Aufbau des Gesamtsystems.
Name (top500.org) | Knoten | Netzwerk | Preis (Euro) | GFlop/s peak | GFlop/s base | GFlop Effizienz | Helics | 512 x AthlonMP 1,4 GHz (256 Tyan Tiger MPX) | Myrinet2000 | 1.300.000 | 1430 | 825 | 58% | HPC2N | 240 x Athlon XP2000 (120 Tyan Tiger MPX ) | Wulfkit3 SCI | - | 800 | 481 | 60% | Prairiefire | 256 x Athlon MP1800 (128 Knoten) | Myrinet 2000 | | 716 | 442 | 62% | ucsc.edu | 264 x AthlonMP 1,4 GHz | Dolphin WulfKit | 1.000.000 | 739 | 302 | 41% | RU Bochum | 128 x AthlonMP1600 | SCI 2D-Torus | | 358 | 235 | 66% | IIMS Massey | 132x AMD 1,7 GHz | Myrinet | | 449 | 235 | 52% | Schroedinger I | 160x AMD 1,47 GHz | 64 x GE, 96 x FE | 500.000 | 472 | 204 | 43% |
|
|
|
|
Kühlung: AMD-CPUs werden in der BOXED-Version ausgeliefert, die meist genauso teuer ist wie die Einzel-CPU. Bei der BOXED-Version ist ein AMD-Kühler enthalten (Preis 3-8 Euro) der ausreichend kühlt [Link].Mainboard Bei der Auswahl der Motherboards gilt es ein so billig wie mögliches Board mit geringer Abmessung und vielen integrierten Bauteilen (LAN, Grafikkarte) zu benutzen. Hier würden sich hochintegrierte Mini-ITX Boards anbieten. Das sind z.B. kleine Boards (17x17cm) der stromsparenden, lüfterlose, aber langsamen VIA-Epia Reihe. Ein anderes Beispiel ist eine CPU-Karte für den INTEL Xeon Prozessor mit 2-fach Gigabit-LAN. Das “Problem” bei diesen All-in-One CPU-Karten liegt allerdings im Preis, der sich zwischen 300-800 Euro liegt und der nicht den den teilweise gigantischen Preisrutschen normaler Komponenten folgt. Ein normales Mainboards im µATX-Format (24x24 cm) und integriertem 100Mbit-LAN ist zum Beispiel das K7SOM+V5.2C. Andere Sockel-A Boards mit integriertem Gigabit-LAN (1000Mbit) gibt es nur wenige, darunter MSI MS-6590 KT4, ASUS A7V8X, KT400, ABIT KD7-G, KT400. Die Preise liegen jedoch alle über 100 Euro (auch für Intel P4 Socket-478 DDR). Dualboards wie das Tyan S2468GN sind mit über 400 Euro noch zu teuer. Andere COMBOS finden sich auf [PriceWatchi].
Für den Server müssen Boards mit PCI 64bit Schnittstellen eingesetzt werden. Dazu gehören z.B. Boards aus der ASUS-Reihe oder Boards von Tyan..  |  | | Solange aktuelle Bios-Updates und Treiber für alle Betriebssystem vorhanden sind, haben diese preiswerten Boards den Vorteil, dass es viele Benutzer gibt, die ihre Erfahrungen austauschen. Insbesondere unter LINUX kann dies hilfreich sein. Besonders hochintegrierte Boards (hier das ASUS A7V8X) sind preiswerter als Einzelkomponenten Motherboard und Gigabit-NIC (39+35=74) Euro. Für einen reinen Number-Cruncher ist auch der etwas langsamere Broadcom-Gigabit-Controller (onboard) ausreichend. Falls getrennte Steuer- und Datenübertragung gewünscht werden, kann noch eine zusätzliche Netzwerkkarte benutzt werden. |
|
|
Speicher Hier tritt ein erstaunliches Phänomen ein. Der schnellere 256er DDR-Riegel ist billiger. Das liegt einfach an den Umsätzen. Falls für die Testapplikationen 256 MB RAM nicht ausreichen, muss beim Aufrüsten darauf geachtet werden, das RAM von unterschiedlichen Herstellern, oder auch bei gleichem Hersteller und unterschiedlicher Spezifikation, oft Probleme macht. Es ist also mit dem gleichen RAM-Baustein aufzurüsten. RAMBUS-Speicher PC800 oder PC1066 ist zwar schneller im streamd-Benchmark, allerdings doppelt so teuer wie PC266. Die meisten neuen Athlon-Boards akzeptieren meist nur noch DDR333 und DDR400-Chips. Speicherpreise unterligen starken Schwankungen. Netzwerkkarte Für den LAN-Aufbau bieten sich 100Mbit Ethernet, 1000Mbit Ethernet (Gigabit-LAN) oder Myrinet an. Wichtige Kennzahlen für die Auswahl sind Bandbreite und Latenzzeit. [Link1] [Link2] [Link3]. Die hier genannten Bandbreiten gelten jeweils abzüglich 5-10% für reale Werte. (Achtung: moderne Ultra-ATA Platten schaffen nur ~50MByte/s [Link]) 100 MBit/s Ethernet (Kupfer) = 12,5 MByte/s Bandbreite (50-500 µs Latenzzeit) - Preis (NIC): 7 Euro 1000 MBit/s Ethernet = 125 MByte/s Bandbreite (50-500 µs Latenzzeit) - Preis (NIC): 35 Euro 2 GBit/s Myrinet 2000 = 250 Mbyte/s Bandbreite (10 µs Latenzzeit) - Preis (NIC): 1000 Euro SCI-Interconnect Dolphin ICS = 326 MByte/s Bandbreite (2-4 µs Latenzeit) - Preis (NIC) 1200 Euro Themenlink Durchsatz (MByte/s) in Abhängigkeit von der Paketgröße (Byte), Ping-Pong-Verfahren Themenlink Preisvergleich Gbit-Zubehör
Für den Server selber werden zwei Server-Gigabit-Karten benötigt (*), da auch zwei/vier Switches angeschlossen werden. Server-Karten besitzen eine bessere CPU/DSP der die Server-CPU-Last verringert. (Stichwort: Server-Flaschenhals [Link1] [Link2] [Link3]). Beim Einsatz einer Gigabit-Dual/Quad-Karte, muss das Server-Motherboard evtl. einen PCI-X Slot haben, um den 133 MHz PCI-X Bus voll ansteuern zu können. Switches Für die Verteilung des Netzverkehrs gibt es heute schon preiswerte Gigabit-Switches. Mercateo, Geizhals, Xtracom, Compu-Shack. Ein Problem - der ‘Switch-Server-Flaschenhals’ wird allerdings hier schon klar, denn serverseitig stehen nur 2 Gigabit-Karten zur Verfügung. Der Verkehr in einer Richtung teilt sich also in jeweils 1000 MBit/s : 15 = 66 MBit/s bei der Verteilung der Daten auf dem Server. Falls also Programme mit hoher Kommunikation laufen, wäre der Einsatz von 4 Gigabitkarten zu bedenken, die einen theoretischen Datenverkehr von 133 MBit/s erlauben würden. Das erfordert den Einsatz von insgesamt sechs 8-Port Giabit-Switches.  |  | | Hier stellt sich auch eine generelle Frage. Für bestimmte Rechenprozesse, die sehr viel Speicherbandbreite benötigen, sind shared memory Computer (Cray, SGI) einfach besser geeignet (s.u. #Benchmarks). Ein moderner PC-Server (RAMBUS RIMM800) hat 2 GByte/s Speicherbandbreite. Moderne 15k-SCSI-Platten schaffen 75 MByte/s Transferrate (Im RAID-Zugriff also ~150 MByte/s). Moderne Ramdrive/Ramdisk Laufwerke haben eine Transferrate von bis zu 250 MByte/s. [Literatur1]. Die Preisdifferenz von 266 Euro zugunsten von 4 Switches, würde auch den Einsatz von 2-Dual-Gigabit-Karten oder einer Quad-Karte im Server rechtfertigen. |
|
|
Netzteil Die beste Lösung wäre ein Netzteil-Stack mit 30 Anschlüssen, der je nach Anforderung 6-12 KW liefern kann. Leider gibt es ein solches (billiges) Stack nicht. Vor einem Kauf des Komplettsystems, bietet sich ein Volllasttest mit einer Leistungsmessung (je nach Ausstattung der Knotenrechner) mit einem Knotenrechner an. Eine Athlon XP2000 CPU verbraucht ca. 60 Watt. (Der Mobile Athlon XP-M ist zur Zeit noch zu teuer und zu langsam). Den aufgeschlüsselten Verbrauch eines Gesamtsystems findet man hier: [Link1] [Link2] [Link3]. Für ein System ohne Festplatte würden also CPU (80W) + MB (30W) + RAM (30W) ~ 140W ausreichen. Beim Einbau einer modernen Festplatte (ca. 10 Watt) würde ein 200 Watt Netzteil ausreichen. Da das System als Number-Cruncher gedacht ist, kommt es bei den Netzteilen auch nicht auf Redundanz an. Wichtiger wäre eine Temperaturregelung und ein Überlastschutz. Themenlink: - Etikettenschwindel - 21 Netzteile im Vergleich (tomshardware.de) Themenlink - Power Factor Correction (PFC)
Festplatten Eine einfache Lösung um ein Cluster-Netzwerk zu starten, ist der Einsatz eines BootRoms. Dafür gibt es Software-Lösungen wie EtherBoot. Allerdings verfügen nicht alle Netzwerkkarten über einen solchen Sockel. Weiterhin gibt es die Möglichkeit aus dem Motherboard-BIOS heraus eine Diskless-Station zu booten.Eine weitere Möglichkeit besteht über das Booten von einer Flash-Disk (Solid State Disk) (Altec, Pretec, Sandisk, TI). Solche IDE-Flash Drives sind zwar klein (2x4 cm) und handlich, aber zur Zeit noch zu teuer. Das booten von Floppy oder USB Memory Stick ist natürlich auch möglich. Je nach Anwendungsgebiet des Clusters kann jedoch eine Festplatte eingesetzt werden.Während für die Clients einfach IDE-Platten ausreichen, sollten für den Server SCSI-Platten im RAID-Verbund eingesetzt werden.
Software Betriebssystem Da die Hardware bereits alles Geld verschlungen hat, bleibt für Software nur ein geringer Rest übrig. Bei Windows wird von MS-Beratern gern auf WIN 2000 Server oder WIN 2003 Server hingewiesen, welches unbedingt installiert werden sollte. Dabei wird von vielen Leuten vergessen, dass man 1 Betriebssystem und eine Serverlizenz (CAL) braucht. In der folgenden Rechnung wird sichtbar, dass das Preis-Ziel mit Windows nicht erreicht werden kann.
Windows 2000: 32 Lizenzen a 129 Euro = 4128 Euro [Preise1] [Preise2] Windows 2000 Server: 32 Lizenzen a 101 Euro = 3232 Euro [Preise1] Windows Summe = 7360 Euro Linux gibt es in mehr als 20 Distributionen. Die Preise sind gering und komplette Versionen können auch kostenlos aus dem Internet geladen werden. LINUX Summe = 0 Euro Software - Parallelisierung -Remote Management -Compiler MPI (Message Passing Interface) [Link] MPICH (A Portable Implementation of MPI) [Link] MPI/Pro (MPI Software Technology) 32 Lizenzen a 100 Euro = 3200 Euro [Preis] [Link] PVM (Parallel Virtual Machine) [Link] MOSIX (Multicomputer Operating System for UnIX.) [Link] Themenlink “Parallel Middleware“ Remote Management: ISC DHCP Installation: S-Cluster (science-computing.de) Schnell-Installation eines Clusters von CD [Link] SCore 4.x - Cluster System Software implementing the parallel environment [Link] Compiler : Portland Group HPF [Link]
Energiekosten Das GigaCruncher-System mit 30 Knoten und einem Energieverbrauch von je 200 Watt = 6 kWh hat einen Tagesverbrauch von 24*6 kWh ~ 144 kWh. Läuft der GigaCruncher 24hx365d unter Volllast, werden rund 53.000 kWh Energie verbraucht. Bei einem KWh-Preis von 12 Cent (Deutschland) entsteht nochmals eine gigantische Summe von 6360 Euro. In Industrie und Forschung werden Energiekosten gern als geringe Folgekosten einkalkuliert. Jedoch wird gerade bei diesem Cluster-System sichtbar, dass die Energiekosten die Kosten des eigentlichen Systems ohne weiteres übersteigen können. Deshalb werden sogenannte ‘green-cluster’ in Zukunft eine immer wichtigere Rolle spielen. Der GigaCruncher ist sicherlich kein ‘green-cluster’ Anzumerken ist, das sich solche Cluster-Systeme nur lohnen wenn sie tatsächlich 24h mit Volllast rechnen. Da das sicher nicht realistisch ist, kommen selbst bei einem Verbrauch von 150 Watt pro Knotenrechner und einer Auslastung von 80% immerhin noch 3,6 kW pro Stunde und damit ca. 3800 Euro pro Jahr zusammen.  |  | | Zur Zeit steigt allerdings die Prozessorgeschwindigkeit stärker als der Stromverbrauch einer CPU (AMD/Intel). Das Green-Destiny Projekt mit 240 Transmeta Crusoe Prozessoren hatte im Jahre 2002 einen Energieverbrauch von 5,2 kWh bei einer Peakleistung von 38,9 GFLops. Der GigaCruncher mit 30 Prozessoren hat einen Energieverbrauch von ~ 6 kWh bei einer Peakleistung von 100 GFlops. Das entspricht einer Leistungs/Stromverbrauchs-Effiziens von 7,5 MFlops/Watt für Green Destiny und von 16,7 MFlops/Watt für den GigaCruncher. Ein System mit 30 P4 3,0 GHz (s.o.) und ähnlichem Stromverbauch wie der GigaCruncher hätte eine Effizienz von 30 MFlops/Watt. |
|
|
Themenlink: Green Destiny - Supercomputing in Small Spaces (lanl.gov) Themenlink: Transmeta Crusoe Prozessor (emuliert Intel Code) Themenlink: VIA Eden Platform Benchmarks
Benchmarks sind das Salz in der Suppe beim Aufbau eines jeden Computers. Erst durch den Vergleich verschiedener Computersystem unter verschiedenen Bedingungen kann man das jeweilige Verhalten messen, vergleichen und verbessern. Themenlink Benchmarks in Science and Chemistry (SCF, MD, MC, Jacobi, Gamess, DL_Poly) Themenlink Spec.org Datenbank (Integer and floating point CPU-intensive benchmarks) Themenlink Streamd-Benchmark zur Ermittlung des Speicherdurchsatzes Themenlink: 65 CPUs von 100MHz bis 3066 Mhz im Vergleich (AMD/Intel)  |  | | Interessant ist auch das schnelle Wachstum. Ein NEC-SX5 (1-Prozessor-Variante, 200.000 Euro) erreicht beim JACOBI-Test 8 GFlop/s - ein Athlon 2000 (200 Euro - komplett) erreicht beim JACOBI-Test nur ca. 0,2 GFlop/s - das ist ein Faktor von 1:40 bei Berechnung von Matrix-Vektor-Produkten, wo Vektorsysteme ganz klar im Vorteil sind. Jedoch ist bei der self-consistent field Berechnung (SCF/CASSCF) der Athlon 2000 - ca. 8 mal schneller, dies gilt auch für viele andere Berechnungen, bei denen nicht mit grossen Arrays und statischen Schleifen gerechnet wird. Die Speicherbandbreite liegt im Stream Triad Memory Benchmark beim NEC (shared memory) bei 47 GByte/s und bei einem einfachen Athlon 2000 (DDR-RAM-266) bei nur ca. 0,8 GByte/s - ein Faktor von 60:1 zugunsten des NEC also. Allerdings liegt das Preis/Leistungsverhältnis auch bei 1000:1 zugunsten von AMD. Es zeigt sich, dass Vergleiche von Scalar- und Vektorrechnern durchaus möglich sind, wobei die Systeme eben auf verschiedene Problemstellungen zurechtgeschnitten sind. [Link1] [Link2] Eine SGI Origin 3900 mit 128 x 600 MHz MIPS R14000A kostet mit 64 GB RAM ~ 2.900.000 Euro [Link1] [Link2]. Sie leistet ca. 150 GFlops (peak) und 137 GFlops (base). Der GigaCruncher-60 leistet ~ 200 GFlops (peak) und 100 GFlops (base) zum Preis von 20.000 Euro. Für gut parallelisierbare Programme, die nicht auf shared-memory-Systeme angewiesen sind, ist ein System mit einem Preisverhältnis von ~100:1 bei vergleichbarer Leistung zu erhalten. Falls die Rechnerleistung nicht ausreicht, können natürlich auch 100 GigaCruncher-60 aufgestellt werden. Diese haben dann eine summierte Gesamtleistung von 10 TFlop/s bei einem Preis von 100 x 20.000 = 2.000.000 Euro (GigaCruncher@Uni-Kampagne). |
|
|
Arbeitende BeoWulf-Cluster-Systeme: * Kentucky Linux Athlon Testbed 2 (KLAT2) (66 x 700MHz Athlon)- KLAT2 * SetiCruncher (12 x Athlon XP 1800) - SetiCruncher * Rust (10 x Athlon MP 1600) - Rust * Schroedinger I (160 x Athlon XP 1700) -Schroedinger - (500.000 Euro - 472 GFlops peak/ 204 GFlop base) mit (64xGigabit und 96x Fast Ethernet) * HPC2N (240 x Athlon MP2000+) - HPC2N (800 GFlops peak/ 481 GFlops base) * MPC-Bochum (128 x Athlon MP1800+) - PAULA (400.000 Euro (*) * Theoretische Chemie RU-Bochum - (128 x AthlonMP1600) - [LINK] (336 GGFlops peak/ 258 GLOPs base (*))
Links Opteron-Cluster - Angstrom NEC-Linux-Cluster - NEC-HPCE HyperSCSI for fast network storage - MCSA Monster Farms - [Link]
Zusammenfassung GigaCruncher Der Server mit Tyan S2460 Motherboard (190,-), 2xAthlon MP2000 (270,-), 2x Seagate Cheetah 73.4GB (960,-), SCSI-RAID U320-Controller (230,-), 4GB RAM (510,-), 1x Intel Pro1000 MT Dual Port Server (2 Port) (180,-), Tower + Netzteil 400 Watt (100,-) kostet komplett ca. 2500 Euro. Als Server für einen Number-Cruncher-Cluster ist dieses System ausreichend, bei Aufgaben mit hohem Datentransfer sollte man auf ein Intel System mit RAMBUS zurückgreifen. Zum Gesamtsystem kommen noch diverse Einzelteile (Kabel) usw. Das System ist ein NakedBeoWulf (OcUK Stomp-Monster) kann aber für 300 Euro Aufpreis auch mit ATX-Gehäusen gebaut werden.  |  | | Das System kann relativ einfach auf 60 Knotenrechner erweitert werden (GigaCruncher-60). Dazu wird der Server um eine weitere Dual-Gigabit-Karte erweitert und die Knotenzahl auf 60 Rechner erhöht. Falls die Netzwerkgeschwindigkeit nicht ausreicht, kann der 60 Knoten-Rechner auf 56 Knoten reduziert werden. Dafür werden insgesamt 8 x 8-Port Gigabit-Switches eingesetzt und im Server zwei Quad-Gigabit-Server-NICs installiert. Diese Erweiterung kann auch bei dem kleineren System vorgenommen werden. |
|
|
Leistung (Peak) ~ 100 GFlop/s Leistung (Base) ~ 50 GFlop/s Kosten pro Knoten ~ 333 Euro Kosten pro GFlop/s ~ 100 Euro Energieverbrauch ~ 31,5 MWh pro Jahr (80% unter Volllast) Gesamtkosten ~ 10.000 Euro |