GigaCruncher

GigaCruncher

Ziel dieser Studie ist der Aufbau eines preiswerten Hochleistungs-Clusterrechners (BeoWulf-Cluster). Der Cluster sollte die Leistung eines modernen Supercomputers haben (~100 GFlop/s peak) und einen Preis von ca. 10.000 Euro. Er sollte relativ leicht zu verwalten sein, sollte platzsparend und energiesparend aufgebaut sein. Die Clustergröße soll im Bereich von 30-60 Knoten liegen, der Preis pro Knoten bei ca. 333 Euro. Das Preis-Leistungsverhältnis des GigaCrunchers wird bei ca. 100 Euro pro GFlop/s (peak) liegen.

The aim of this study is to provide information about a low price - high performance computing - cluster of computers (BeoWulf cluster). The cluster should have the performance of a modern supercomputer (~100 GFlop/s peak) and a price near 10.000 Euro. Despite of its performance/money optimization it should be manageable by one person, should fit in a ‘small’ room and should have a ‘low’ power consumption. The cluster size will be in the range of 30 nodes, pushing the price/node limit to 333 Euro/node and the  price/performance ratio down to 100 Euro per GFlop/s (peak).

Die Geschwindigkeit in GFlop/s wird mit linpack gemessen. Die schnellsten Super-Computer der Welt findet man in der TOP500-Liste. Die hier aufgeführten Berechnungen gelten für 30 Knoten-Rechner und einen Server.{Es gilt 1 Euro = 1 Dollar}


Hardware

CPU
Die CPU wurde nach Preis/Leistungs-Gesichtspunkten ausgewählt. Dabei dienten geizhals.at und mercateo.com als Preissuchmaschinen. Ebay lohnt sich zumindest für kleinere Händler/Distributoren, jedoch liegen die Preise meist im Preislevel von aktuellen Discountern. Für die Leistungsvergleiche wird eine Datenbank mit ständig aktuellen Werten benötigt, die alle neuen CPU-Arten aller Hersteller beinhaltet. Dafür bietet sich spec.org an. Für die genannte Zielrichtung (wissenschaftliche Berechnungen) können die specfp2000-Werte aus einer Datenbank benutzt werden. Die Linpack-Werte berücksichtigen nur einen kleinen Prozentsatz der Leistungsfähigkeit eines Systems, dienen daher nur der ungefähren Einstufung eines Systems.

CPU

Geschwindigkeit
(
CFP2000 base)

Preis
(
Euro)

Preis/
Geschw

30xCPU
(Euro)

 

 

 

 

 

April 2003

 

Pentium 4 (3,06 GHz)

1077

450

0,41

13.500

 

 

 

Pentium 4 (2,5 GHz)

875

219

0,25

6.570

 

 

 

Pentium 4 (2,0 GHz)

704

185

0,26

5.500

 

 

 

 

 

 

 

 

 

 

 

Athlon XP 3000+

776

359

0,37

10.770

 

 

 

Athlon XP 2500+

650 (~)

143

0,22

4.290

 

 

 

Athlon XP 2000+

596

69

0,11

2.070

 

 

 

Athlon MP 2000+

596

134

0,22

4.020

 

 

 

 

 

 

 

 

 

 

 

Itanium 2 (1,0 GHz)

1431

7000(~)

4,89

210.000

 

 

 

Opteron 244 (1,8 GHz)

998(~)

959(~)

0,96

28.770

 

 

 

Aus der Liste wird klar, dass es für die Zielgröße von 30 Knotenrechnern im April 2003 keine andere Auswahl als den Athlon XP 2000 gibt. Mit 0,11 Euro pro CFP2000-Punkt ist er nicht zu schlagen. Es ist auch zu beachten, dass hier ein Optimierungsproblem mit mehreren Variablen vorliegt, denn es gilt auch alle anderen Komponenten (RAM, MoBo, Netzwerkkarte, Netzteil) mit zu berechnen. Weiterhin ist die Integerleistung nicht zu vergessen. Bei den CINT2000 Werten der 3 GHz-Systemen liegen Intel (1085) und AMD (960) nahe beieinander.

Um den Sprung zum 100 GFLOP/s Rechner hinzubekommen, muss man  noch einmal verdeutlichen: Ein Intel Pentium 4 mit 3 GHz leistet ca. 6 GFlop/s  (Milliarden Fliesskomma Operationen pro Sekunde) im linpack Benchmark. Weiterhin gilt es zu beachten, dass es Ergebnisse für 32-bit (single-precision) und 64-bit (double precision) gibt. Die meisten Ergebnisse sind als 32-bit Werte angegeben (da höher = schöner). Ein Athlon XP2000 der real bei 1,66 GHz läuft hat eine linpack-Leistung von ca. 3,3 GFlop/s (*). (Athlon MP und Athlon XP haben die gleiche Architektur und gleiche Geschwindigkeit, wobei der MP für Multiprozessorboards ausgelegt ist.)

Ein System mit 30 Athlon XP2000 Prozessoren hat also eine (theoretische) Peak-Leistung von ~100 GFlop/s. Ein System mit 30 Pentium-4 3,0 GHz CPUs besitzt eine theoretische Peakleistung von 180 GFlop/s. Dabei ist das Intel-System zwar fast doppelt so schnell, jedoch auch 6,5-fach so teuer. Dies entspricht auch ungefähr den Berechnungen aus den CFP2000-Werten. Die tatsächliche (base) Cluster-Leistung liegt bei 40-60% je nach Aufbau des Gesamtsystems.
      

Name (top500.org)

Knoten

Netzwerk

Preis
(Euro)

GFlop/s
peak

GFlop/s
base

GFlop
Effizienz

Helics

512 x AthlonMP 1,4 GHz
(256 Tyan Tiger MPX)

Myrinet2000

1.300.000

1430

825

58%

HPC2N

240 x Athlon XP2000
(120 Tyan Tiger MPX )

Wulfkit3 SCI

-

800

481

60%

Prairiefire

256 x Athlon MP1800
(128 Knoten)

Myrinet 2000

 

716

442

62%

ucsc.edu

264 x  AthlonMP 1,4 GHz

Dolphin WulfKit

1.000.000

739

302

41%

RU Bochum

128 x AthlonMP1600

SCI 2D-Torus

 

358

235

66%

IIMS Massey

132x AMD 1,7 GHz

Myrinet

 

449

235

52%

Schroedinger I

160x AMD 1,47 GHz

64 x GE, 96 x FE

500.000

472

204

43%



Kühlung: AMD-CPUs werden in der BOXED-Version ausgeliefert, die meist genauso teuer ist wie die Einzel-CPU. Bei der BOXED-Version ist ein AMD-Kühler enthalten (Preis 3-8 Euro) der ausreichend kühlt [Link].

Mainboard
Bei der Auswahl der Motherboards gilt es ein so billig wie mögliches Board mit geringer Abmessung und vielen integrierten Bauteilen (LAN, Grafikkarte) zu benutzen. Hier würden sich hochintegrierte Mini-ITX Boards anbieten. Das sind z.B. kleine Boards (17x17cm) der stromsparenden, lüfterlose, aber langsamen VIA-Epia Reihe.  Ein anderes Beispiel ist eine CPU-Karte für den INTEL Xeon Prozessor mit 2-fach Gigabit-LAN. Das “Problem” bei diesen All-in-One CPU-Karten liegt allerdings im Preis, der sich zwischen 300-800 Euro liegt und der nicht den den teilweise gigantischen Preisrutschen normaler Komponenten folgt.
Ein normales Mainboards im µATX-Format (24x24 cm) und integriertem 100Mbit-LAN ist zum Beispiel das K7SOM+V5.2C. Andere Sockel-A Boards mit integriertem Gigabit-LAN (1000Mbit) gibt es nur wenige, darunter MSI MS-6590 KT4, ASUS A7V8X, KT400, ABIT KD7-G, KT400. Die Preise liegen jedoch alle über 100 Euro (auch für Intel P4 Socket-478 DDR). Dualboards wie das Tyan S2468GN sind mit über 400 Euro noch zu teuer. Andere COMBOS finden sich auf  [PriceWatchi].

Für den Server müssen Boards mit PCI 64bit Schnittstellen eingesetzt werden. Dazu gehören z.B. Boards aus der ASUS-Reihe oder Boards von Tyan..

Mainboards (Sockel-A) AMD

Preis
(Euro)

x30
(Euro)

 

 

 

April 2003

 

 

Syntax SV266A (*)

36

1.080

 

 

ASRock K7VT2 (*) (*)

39

1.170

 

 

Elitegroup ECS-K7S5A LAN

41

1.230

 

 

ASRock K7VM2

46

1.380

 

 

ECS-K7SOM LAN µATX

48

1.440

 

 

 

65

1.950

 

 

Tyan S2460 Tiger DUAL MP
2x32bit, 4x64bit PCI (*)

190

-

 

 

Solange aktuelle Bios-Updates und Treiber für alle Betriebssystem vorhanden sind, haben diese preiswerten Boards den Vorteil, dass es viele Benutzer gibt, die ihre Erfahrungen austauschen. Insbesondere unter LINUX kann dies hilfreich sein. Besonders hochintegrierte Boards (hier das ASUS A7V8X) sind preiswerter als Einzelkomponenten Motherboard und Gigabit-NIC (39+35=74) Euro. Für einen reinen Number-Cruncher ist  auch der etwas langsamere Broadcom-Gigabit-Controller (onboard) ausreichend. Falls getrennte Steuer- und Datenübertragung gewünscht werden, kann noch eine zusätzliche Netzwerkkarte benutzt werden.

 

Speicher
Hier tritt ein erstaunliches Phänomen ein. Der schnellere 256er DDR-Riegel ist billiger. Das liegt einfach an den Umsätzen. Falls für die Testapplikationen 256 MB RAM nicht ausreichen, muss beim Aufrüsten darauf geachtet werden, das RAM von unterschiedlichen Herstellern, oder auch bei gleichem Hersteller und unterschiedlicher Spezifikation, oft Probleme macht. Es ist also mit dem gleichen RAM-Baustein aufzurüsten. RAMBUS-Speicher PC800 oder PC1066 ist zwar schneller im streamd-Benchmark, allerdings doppelt so teuer wie PC266. Die meisten neuen Athlon-Boards akzeptieren meist nur noch DDR333 und DDR400-Chips. Speicherpreise unterligen starken Schwankungen.

Speicher

Preis
(Euro)

x30
(Euro)

 

 

April 2003

 

DIMM PC133 - 256 MB

30

900

 

DIMM PC133 - 512 MB

43

1.290

 

DDR PC266 - 256 MB

22

660

 

DDR PC266 - 512 MB

43

1.290

 

DDR PC333 - 512 MB

63

1.890

 

RAMBUS PC800 - 256 MB

80

2.400

 

RAMBUS PC800 - 512 MB

225

6.750

 

 

Netzwerkkarte
Für den LAN-Aufbau bieten sich 100Mbit Ethernet, 1000Mbit Ethernet (Gigabit-LAN) oder Myrinet an. Wichtige Kennzahlen für die Auswahl sind Bandbreite und Latenzzeit. [Link1] [Link2] [Link3]. Die hier genannten Bandbreiten gelten jeweils abzüglich 5-10% für reale Werte. (Achtung: moderne Ultra-ATA Platten schaffen nur ~50MByte/s [Link])

100 MBit/s Ethernet (Kupfer)   = 12,5 MByte/s Bandbreite (50-500 µs Latenzzeit) - Preis (NIC): 7 Euro
1000 MBit/s Ethernet               = 125 MByte/s Bandbreite (50-500 µs Latenzzeit) - Preis (NIC): 35 Euro
2 GBit/s Myrinet  2000           =  250 Mbyte/s Bandbreite (10 µs Latenzzeit) - Preis (NIC): 1000 Euro
SCI-Interconnect Dolphin ICS = 326 MByte/s Bandbreite (2-4 µs Latenzeit) - Preis (NIC) 1200 Euro
 

    Themenlink Durchsatz (MByte/s) in Abhängigkeit von der Paketgröße (Byte), Ping-Pong-Verfahren
    Themenlink Preisvergleich Gbit-Zubehör

Gigabit Netzwerkkarte

Preis
(Euro)

x30
(Euro)

 

 

 

April 2003

 

 

Gigabit Ether Intel PRO 1000MT

35

1.050

 

 

Netgear GA302T
Gigabit Ethernet

36

1.080

 

 

D-Link DGE-500T
Gigabit Ethernet

72

2.160

 

 

3Com Gigabit
Server NIC (1 Port)

143

4.290

 

 

Intel PRO1000 MT QUAD PORT Server NIC (4 Port)

471

-

 

 

Intel Pro1000 MT
Dual Port
Server (2 Port)

180

-

 

 

Für den Server selber werden zwei Server-Gigabit-Karten benötigt (*), da auch zwei/vier Switches angeschlossen werden. Server-Karten besitzen eine bessere CPU/DSP der die Server-CPU-Last verringert. (Stichwort: Server-Flaschenhals [Link1] [Link2] [Link3]). Beim Einsatz einer Gigabit-Dual/Quad-Karte, muss das Server-Motherboard evtl. einen PCI-X Slot haben, um den 133 MHz PCI-X Bus voll ansteuern zu können.

 

Switches
Für die Verteilung des Netzverkehrs gibt es heute schon preiswerte Gigabit-Switches. Mercateo, Geizhals, Xtracom, Compu-Shack. Ein Problem - der ‘Switch-Server-Flaschenhals’ wird allerdings hier schon klar, denn serverseitig stehen nur 2 Gigabit-Karten zur Verfügung. Der Verkehr in einer Richtung teilt sich also in jeweils 1000 MBit/s : 15  = 66 MBit/s bei der Verteilung der Daten auf dem Server. Falls also Programme mit hoher Kommunikation laufen, wäre der Einsatz von 4 Gigabitkarten zu bedenken, die einen theoretischen Datenverkehr von 133 MBit/s erlauben würden. Das erfordert den Einsatz von insgesamt sechs 8-Port Giabit-Switches.

Gigabit-Switches

Preis
(Euro)

für 30 Ports
(Euro)

 

 

 

April 2003

 

 

D-Link DGS-1008T - 8x

445

1.780

 

 

D-Link DGS-1016T - 16x

1032

2.046

 

 

XtraCom GSW-08T - 8x (*)

250

1.000

 

 

XtraCom GSW-716T -16x (*)

800

1.600

 

 

GIGAline8000-T - 8x (*)

315

1.260

 

 

Hier stellt sich auch eine generelle Frage. Für bestimmte Rechenprozesse, die sehr viel Speicherbandbreite benötigen, sind shared memory Computer (Cray, SGI) einfach besser geeignet (s.u. #Benchmarks). Ein moderner PC-Server (RAMBUS RIMM800) hat 2 GByte/s Speicherbandbreite. Moderne 15k-SCSI-Platten schaffen 75 MByte/s Transferrate (Im RAID-Zugriff also ~150 MByte/s). Moderne Ramdrive/Ramdisk Laufwerke haben eine Transferrate von bis zu 250 MByte/s. [Literatur1]. Die Preisdifferenz von 266 Euro zugunsten von 4 Switches, würde auch den Einsatz von 2-Dual-Gigabit-Karten  oder einer Quad-Karte im Server rechtfertigen. 

 

Netzteil
Die beste Lösung wäre ein Netzteil-Stack mit 30 Anschlüssen, der je nach Anforderung 6-12 KW liefern kann. Leider gibt es ein solches (billiges) Stack nicht. Vor einem Kauf des Komplettsystems, bietet sich ein Volllasttest mit einer Leistungsmessung (je nach Ausstattung der Knotenrechner) mit einem Knotenrechner an. Eine Athlon XP2000 CPU verbraucht ca. 60 Watt. (Der Mobile Athlon XP-M ist zur Zeit noch zu teuer und zu langsam). Den aufgeschlüsselten Verbrauch eines Gesamtsystems findet man hier: [Link1] [Link2] [Link3]. Für ein System ohne Festplatte würden also CPU (80W) + MB (30W) + RAM (30W) ~ 140W ausreichen. Beim Einbau einer modernen Festplatte (ca. 10 Watt)  würde ein 200 Watt Netzteil ausreichen. Da das System als Number-Cruncher gedacht ist, kommt es bei den Netzteilen auch nicht auf Redundanz an. Wichtiger wäre eine Temperaturregelung und ein Überlastschutz.

    Themenlink: - Etikettenschwindel - 21 Netzteile im Vergleich (tomshardware.de)
    Themenlink - Power Factor Correction (PFC)

Netzteil

Preis
(Euro)

x30
(Euro)

 

 

 

April 2003

 

 

CWT ATX 300W (*)

19

570

 

 

Noname ATX 300 W
(thermogeregelt)

15

450

 

 

 

Festplatten
Eine einfache Lösung um ein Cluster-Netzwerk zu starten, ist der Einsatz eines BootRoms. Dafür gibt es Software-Lösungen wie EtherBoot. Allerdings verfügen nicht alle Netzwerkkarten über einen solchen Sockel. Weiterhin gibt es die Möglichkeit aus dem Motherboard-BIOS heraus eine Diskless-Station zu booten.Eine weitere Möglichkeit besteht über das Booten von einer Flash-Disk (Solid State Disk) (Altec, Pretec, Sandisk, TI). Solche IDE-Flash Drives sind zwar klein (2x4 cm) und handlich, aber zur Zeit noch zu teuer. Das booten von Floppy oder USB Memory Stick ist natürlich auch möglich. Je nach Anwendungsgebiet des Clusters kann jedoch eine Festplatte eingesetzt werden.Während für die Clients einfach IDE-Platten ausreichen, sollten für den Server SCSI-Platten im RAID-Verbund eingesetzt werden.

Festplatte (IDE)

Preis
(Euro)

x30
(Euro)

 

 

 

April 2003

 

 

Seagate Barracuda 40GB
(ST340015A) IDE

58

1.740

 

 

Seagate Cheetah 73.4GB U320-LVD (ST373307LW)

480

-

 

 


Software

Betriebssystem
Da die Hardware bereits alles Geld verschlungen hat, bleibt für Software nur ein geringer Rest übrig. Bei Windows wird von MS-Beratern gern auf WIN 2000 Server oder WIN 2003 Server hingewiesen, welches unbedingt installiert werden sollte. Dabei wird von vielen Leuten vergessen, dass man 1 Betriebssystem und eine Serverlizenz (CAL) braucht. In der folgenden Rechnung wird sichtbar, dass das Preis-Ziel mit Windows nicht erreicht werden kann.

Windows 2000:            32 Lizenzen a 129 Euro = 4128 Euro [Preise1] [Preise2]
Windows 2000 Server: 32 Lizenzen a 101 Euro = 3232 Euro [Preise1]
Windows Summe = 7360 Euro

Linux gibt es in mehr als 20 Distributionen.  Die Preise sind gering und komplette Versionen können auch kostenlos aus dem Internet geladen werden.
LINUX Summe = 0 Euro
 

Software - Parallelisierung -Remote Management -Compiler
MPI (Message Passing Interface) [Link]
MPICH (A Portable Implementation of MPI) [Link]
MPI/Pro (MPI Software Technology) 32 Lizenzen a 100 Euro = 3200 Euro [Preis] [Link]
PVM (Parallel Virtual Machine) [Link]
MOSIX (Multicomputer Operating System for UnIX.) [Link]
Themenlink “Parallel Middleware“

Remote Management: ISC DHCP
Installation: S-Cluster (science-computing.de) Schnell-Installation eines Clusters von CD [Link]
SCore 4.x - Cluster System Software  implementing the parallel environment [Link]
Compiler : Portland Group HPF [Link]
 


Energiekosten

Das GigaCruncher-System mit 30 Knoten und einem Energieverbrauch von je 200 Watt = 6 kWh hat einen Tagesverbrauch von 24*6 kWh ~ 144 kWh. Läuft der GigaCruncher 24hx365d unter Volllast, werden rund 53.000 kWh Energie verbraucht. Bei einem KWh-Preis von 12 Cent (Deutschland) entsteht nochmals eine gigantische Summe von 6360 Euro.
In Industrie und Forschung werden Energiekosten gern als geringe Folgekosten einkalkuliert. Jedoch wird gerade bei diesem Cluster-System sichtbar, dass die Energiekosten die Kosten des eigentlichen Systems ohne weiteres übersteigen können. Deshalb werden sogenannte ‘green-cluster’ in Zukunft eine immer wichtigere Rolle spielen. Der GigaCruncher ist sicherlich kein ‘green-cluster’ Anzumerken ist, das sich solche Cluster-Systeme nur lohnen wenn sie tatsächlich 24h mit Volllast rechnen. Da das sicher nicht realistisch ist, kommen selbst bei einem Verbrauch von 150 Watt pro Knotenrechner und einer Auslastung von 80% immerhin noch 3,6  kW pro Stunde und damit ca. 3800 Euro pro Jahr zusammen.

Zur Zeit steigt allerdings die Prozessorgeschwindigkeit stärker als der Stromverbrauch einer CPU (AMD/Intel). Das Green-Destiny Projekt mit 240 Transmeta Crusoe Prozessoren hatte im Jahre 2002 einen Energieverbrauch von 5,2 kWh bei einer Peakleistung von 38,9 GFLops. Der GigaCruncher mit 30 Prozessoren hat einen Energieverbrauch von ~ 6 kWh bei einer Peakleistung von 100 GFlops. Das entspricht einer Leistungs/Stromverbrauchs-Effiziens von 7,5 MFlops/Watt für Green Destiny und von 16,7 MFlops/Watt für den GigaCruncher. Ein System mit 30 P4 3,0 GHz (s.o.) und ähnlichem Stromverbauch wie der GigaCruncher hätte eine Effizienz von 30 MFlops/Watt.

Themenlink: Green Destiny - Supercomputing in Small Spaces (lanl.gov)
Themenlink: Transmeta Crusoe Prozessor (emuliert Intel Code)
Themenlink: VIA Eden Platform


Benchmarks

Benchmarks sind das Salz in der Suppe beim Aufbau eines jeden Computers. Erst durch den Vergleich verschiedener Computersystem unter verschiedenen Bedingungen kann man das jeweilige Verhalten messen, vergleichen und verbessern.

Themenlink Benchmarks in Science and Chemistry (SCF, MD, MC, Jacobi, Gamess, DL_Poly)
Themenlink Spec.org Datenbank (Integer and floating point CPU-intensive benchmarks)
Themenlink Streamd-Benchmark zur Ermittlung des Speicherdurchsatzes
Themenlink: 65 CPUs von 100MHz bis 3066 Mhz im Vergleich (AMD/Intel)
 

Interessant ist auch das schnelle Wachstum. Ein NEC-SX5 (1-Prozessor-Variante, 200.000 Euro) erreicht beim JACOBI-Test 8 GFlop/s - ein Athlon 2000 (200 Euro - komplett) erreicht beim JACOBI-Test nur ca. 0,2 GFlop/s - das ist ein Faktor von 1:40 bei Berechnung von Matrix-Vektor-Produkten, wo Vektorsysteme ganz klar im Vorteil sind. Jedoch ist bei der self-consistent field Berechnung (SCF/CASSCF) der Athlon 2000 - ca. 8 mal schneller, dies gilt auch für viele andere Berechnungen, bei denen nicht mit grossen Arrays und statischen Schleifen gerechnet wird. Die Speicherbandbreite liegt im Stream Triad Memory Benchmark beim NEC (shared memory) bei 47 GByte/s und bei einem einfachen Athlon 2000 (DDR-RAM-266) bei nur ca. 0,8 GByte/s - ein Faktor von 60:1 zugunsten des NEC also. Allerdings liegt das Preis/Leistungsverhältnis auch bei 1000:1 zugunsten von AMD. Es zeigt sich,  dass Vergleiche von Scalar- und Vektorrechnern durchaus möglich sind, wobei die Systeme eben auf verschiedene Problemstellungen zurechtgeschnitten sind. [Link1] [Link2]

Eine SGI Origin 3900 mit 128 x 600 MHz MIPS R14000A kostet mit 64 GB RAM ~ 2.900.000 Euro [Link1] [Link2]. Sie leistet ca. 150 GFlops (peak) und 137 GFlops (base). Der GigaCruncher-60 leistet ~ 200 GFlops (peak) und 100 GFlops (base) zum Preis von 20.000 Euro. Für gut parallelisierbare Programme, die nicht auf shared-memory-Systeme angewiesen sind, ist ein System mit einem Preisverhältnis von ~100:1 bei vergleichbarer Leistung zu erhalten. Falls die Rechnerleistung nicht ausreicht, können natürlich auch 100 GigaCruncher-60 aufgestellt werden. Diese haben dann eine summierte Gesamtleistung von 10 TFlop/s bei einem Preis von 100 x 20.000 = 2.000.000 Euro (GigaCruncher@Uni-Kampagne).


Arbeitende BeoWulf-Cluster-Systeme:

* Kentucky Linux Athlon Testbed 2 (KLAT2) (66 x 700MHz Athlon)- KLAT2
* SetiCruncher (12 x Athlon XP 1800) - SetiCruncher
* Rust (10 x Athlon MP 1600) - Rust
* Schroedinger I (160 x Athlon XP 1700) -Schroedinger - (500.000 Euro - 472 GFlops peak/ 204 GFlop base)
   mit (64xGigabit und 96x Fast Ethernet)
* HPC2N (240 x Athlon MP2000+) - HPC2N (800 GFlops peak/ 481 GFlops base)
* MPC-Bochum (128 x Athlon MP1800+) - PAULA (400.000 Euro (*)
* Theoretische Chemie RU-Bochum - (128 x AthlonMP1600) - [LINK] (336 GGFlops peak/ 258 GLOPs base (*))


Links
Opteron-Cluster - Angstrom
NEC-Linux-Cluster - NEC-HPCE
HyperSCSI for fast network storage - MCSA
Monster Farms - [Link]
 


Zusammenfassung GigaCruncher
 

GigaCruncher
100 GFLops (peak)

 

Anzahl/
Euro

Summe
(Euro)

 

 

 

April 2003

 

CPU + Kühler

Athlon XP 2000+ (boxed)

30x69,-

2.207

 

Motherboard +
Gigabit-NIC

 

30x65,-

1.950

 

Speicher

DDR PC266 - 512 MB

30x43,-

1.290

 

Gigabit-Switch

XtraCom GSW-716T

2x800,-

1600

 

Netzteil

Noname ATX 300 W

30x19,-

570

 

Betriebssytem

LINUX

30x0,-

0

 

Summe

 

30

7617

 

Der Server mit Tyan S2460 Motherboard (190,-), 2xAthlon MP2000 (270,-), 2x Seagate Cheetah 73.4GB (960,-), SCSI-RAID U320-Controller (230,-), 4GB RAM (510,-), 1x Intel Pro1000 MT Dual Port Server (2 Port) (180,-), Tower + Netzteil 400 Watt (100,-) kostet komplett ca. 2500 Euro. Als Server für einen Number-Cruncher-Cluster ist dieses System ausreichend, bei Aufgaben mit hohem Datentransfer sollte man auf ein Intel System mit RAMBUS zurückgreifen. Zum Gesamtsystem kommen noch diverse Einzelteile (Kabel) usw. Das System ist ein NakedBeoWulf (OcUK Stomp-Monster) kann aber für 300 Euro Aufpreis auch mit ATX-Gehäusen gebaut werden.

Das System kann relativ einfach auf 60 Knotenrechner erweitert werden (GigaCruncher-60). Dazu wird der Server um eine weitere Dual-Gigabit-Karte erweitert und die Knotenzahl auf 60 Rechner erhöht. Falls die Netzwerkgeschwindigkeit nicht ausreicht, kann der 60 Knoten-Rechner auf 56 Knoten reduziert werden. Dafür werden insgesamt 8 x 8-Port Gigabit-Switches eingesetzt und im Server zwei Quad-Gigabit-Server-NICs installiert. Diese Erweiterung kann auch bei dem kleineren System vorgenommen werden.

 

Leistung (Peak) ~ 100 GFlop/s
Leistung (Base) ~ 50 GFlop/s
Kosten pro Knoten ~ 333 Euro
Kosten pro GFlop/s ~ 100 Euro
Energieverbrauch ~ 31,5 MWh pro Jahr (80% unter Volllast)

Gesamtkosten ~ 10.000 Euro
 


[Tobias Kind] [Music] [Panoptikum] [Bücher] [Leute] [Test-Da-Rest] [Forschungsgelder] [Schnelle Version] [SiteMap]

(C) 1995-2003 Tobias Kind
tk2003deja@amdis.net
Keine Haftung für Inhalte externer Links