Driftstörningar för 99mac

Tråden skapades och har fått 9 svar. Det senaste inlägget skrevs .
1

Vi råkade ut för driftstörningar i samband med att en server i vårt cluster slutade svara strax efter 15.00 idag.

Cobraking är en Xserve G5 2x2GHz som just nu står stilla och vi kommer inte åt maskinen utan tvingas åka till serverhallen för att åtgärda. Vad som har hänt vet vi inte ännu.

Tanken med vår clusterlösning är att störningar som detta inte ska påverka driften och det fungerade till 50% iallafall. 99musik som ligger i samma cluster var hela tiden online. Tyvärr hade vi missat två inställningar som gjorde att 99mac inte gick att ladda.

En CSS-fil (stylesheet) till menyraden på 99mac låg länkad från 99pod.se vilket gjorde sajterna beroende av varandra. För att ytterligare ställa till det var 99pod tillfälligt borta från clustret och pekade endast mot en server under utvecklingsfasen av nya funktioner - den pekade mot Cobraking som nu är nere.

Intressant att testa allt i praktiken iallafall. Just nu kör 99mac vidare med två Xserve webbservrar istället för normala fyra så det kanske går lite segare än normalt.

Nu ska vi avgöra om det är värt 2000kr/tim för att få tillgång till serverhallen innan måndag morgon.

Funkar väö ganska ok nu också . hade du inte sagt något hade jag inget märkt!

  • Medlem
  • Huddinge
  • 2006-11-25 20:34

Föreställ er hur handikappat det kändes å inte kunna komma åt 99mac!

Skönt att det funkar nu iaf.

Vi valde att inte betala 950kr/tim * 2 (helgtaxa) för att få upp servern. Åker dit på måndag. Påverkar inte saker så jättemycket - min blog är nere dock

  • Medlem
  • 2006-11-25 21:24

Bloggar är överskattade.

Allt uppe och kör igen. Servern hade hängt sig och gick i fail-safe mode med fläktarna på högvarv. En omstart och allt var bra igen.

Följande meddelande fanns i felrapporten - någon som har tips?

panic(cpu 0 caller 0x000A46D4): attempt to interlock mutex (0x071FD100) failed on mutex lock

Latest stack backtrace for cpu 0:
Backtrace:
0x00000000
Proceeding back via exception chain:
Exception state (sv=0x4EE18780)
PC=0x90032144; MSR=0x0000F030; DAR=0xE01A0AD0; DSISR=0x40000000; LR=0x90032138; R1=0xF0B25070; XCP=0x00000030 (0xC00 - System call)

Kernel version:
Darwin Kernel Version 8.6.0: Tue Mar 7 16:58:48 PST 2006; root:xnu-792.6.70.obj~1/RELEASE_PPC
Model: RackMac3,1, BootROM 5.1.7f2, 2 processors, PowerPC G5 (3.0), 2 GHz, 2.5 GB
Memory Module: DIMM0/J11, 512 MB, DDR SDRAM ECC, PC3200U-30330
Memory Module: DIMM1/J12, 512 MB, DDR SDRAM ECC, PC3200U-30330
Memory Module: DIMM2/J13, 512 MB, DDR SDRAM ECC, PC3200U-30330
Memory Module: DIMM3/J14, 512 MB, DDR SDRAM ECC, PC3200U-30330
Memory Module: DIMM4/J41, 256 MB, DDR SDRAM ECC, PC3200U-30330
Memory Module: DIMM5/J42, 256 MB, DDR SDRAM ECC, PC3200U-30330
Modem: , , , ,
Network Service: Built-in Ethernet 1, Ethernet, en0
PCI Card: bcom5704, network, SLOT-4
PCI Card: bcom5704, network, SLOT-4
Serial ATA Device: Hitachi HDS722580VLSA80, 76.69 GB
FireWire Device: unknown_device, unknown_value, Up to 400 Mb/sec

Varför hyr ni inte plats i en serverhall där man har tillträde dygnet runt?

Ursprungligen av Björn Leander:

Varför hyr ni inte plats i en serverhall där man har tillträde dygnet runt?

Vi har möjlighet att komma in i serverhallen när som helst men vi måste ha med oss en jourtekniker som öppnar dörren. Hade man hittat en hall som erbjuder lika bra pris/prestanda men med eget kodkort hade det varit bra såklart.

Några tips? (Vi behöver ett 42U rack)

Ja inte är Macar felfria heller

Den stora frågan (tycker jag) är om det är något fel på hårdvaran eller mjukvaran (OS X). Väldigt svårt att ta reda i många fall.

Men det finns säkert en hel del "en på miljonen"-fel som kan uppstå i systemet. Jag fick t. ex. en Kernel Panic när jag tryckte ⌘H på min jobb-G5, men det har bara hänt en gång på snart ett år och datorn används flitigt varje dag. Knepigt det här med datorer. Men det är ju rätt komplicerade grejor.

1
Bevaka tråden