Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.
Strony: 1
Witam, dawno mnie tu nie było....
Piszę bo nie mogę sobie poradzić z jednym serwerem a skończyły mi się już pomysły
Serwerek sobie żyje żyje i nagle po prostu wali błędem
rejecting I/O to offline device
i koniec, dopiero po restarcie wraca do normalności....
jak się domyślacie nawet gdy jestem zalogowany gdy następuje pad nie jestem w stanie nic odpalić żeby sprawdzić WTF
Gdy zainstalowałem mu dodatkowy dysk jako Hot-Spare po pierwszym padzie wyniósł się z jednego z dysków na nowy.
Wymieniłem ten "wadliwy" dysk i nadal ma jeden w zapasie ale już nie chce się nigdzie przenosić
W tym momencie pady występują co weekend ( tak złośliwość przedmiotów martwych )
Problematyczny serwerek to:
IBM x3650 (7979)
RAID 5 3x500GB + 1x500 hot-spare
Kontroler:
04:00.0 RAID bus controller: Adaptec AAC-RAID (Rocket) (rev 02)
root@beehive:~# arcconf getconfig 1 Controllers found: 1 ---------------------------------------------------------------------- Controller information ---------------------------------------------------------------------- Controller Status : Optimal Channel description : SAS/SATA Controller Model : IBM ServeRAID 8k Controller Serial Number : 4063ECC Controller World Wide Name : 5005076B04063ECC Physical Slot : 0 Installed memory : 256 MB Copyback : Disabled Background consistency check : Enabled Background consistency check period : 30 Automatic Failover : Enabled Host bus type : unknown Host bus speed : 0 MHz Host bus link width : 0 bit(s)/link(s) Stayawake period : Disabled Spinup limit internal drives : 0 Spinup limit external drives : 0 Defunct disk drive count : 0 Logical devices/Failed/Degraded : 1/0/0 -------------------------------------------------------- Controller Version Information -------------------------------------------------------- BIOS : 5.2-0 (15421) Firmware : 5.2-0 (15421) Driver : 1.2-0 (30200) Boot Flash : 5.1-0 (15411) -------------------------------------------------------- Controller Battery Information -------------------------------------------------------- Status : Optimal Over temperature : No Capacity remaining : 100 percent Time remaining (at current draw) : 4 days, 20 hours, 7 minutes ---------------------------------------------------------------------- Logical device information ---------------------------------------------------------------------- Logical device number 1 Logical device name : Master Block Size of member drives : Unknown RAID level : 5 Unique Identifier : 6EB9A46B Status of logical device : Optimal Size : 244118528 MB Parity space : 0 MB Stripe-unit size : 256 KB Read-cache setting : Enabled Read-cache status : On Write-cache setting : On when protected by battery/ZMM Write-cache status : On Partitioned : Yes Protected by Hot-Spare : Yes Dedicated Hot-Spare : 0,3 Bootable : Yes Failed stripes : No Power settings : Disabled -------------------------------------------------------- Logical device segment information -------------------------------------------------------- Segment 0 : Present (Controller:1,Enclosure:0,Slot:5) TM85133J19NKVL Segment 1 : Present (Controller:1,Enclosure:0,Slot:6) TM85133J166TLL Segment 2 : Present (Controller:1,Enclosure:0,Slot:1) S2ZYJ9DF210802 ---------------------------------------------------------------------- Physical Device information ---------------------------------------------------------------------- Device #0 Device is a Hard drive State : Online Block Size : Unknown Supported : Yes Transfer Speed : SATA 3.0 Gb/s Reported Channel,Device(T:L) : 0,1(1:0) Reported Location : Enclosure 0, Slot 1 Reported ESD(T:L) : 2,0(0:0) Vendor : ST500LM0 Model : 12 Firmware : Serial number : S2ZYJ9DF210802 Reserved Size : 10193574 KB Used Size : 0 MB Unused Size : 30432232 MB Total Size : 30442187 MB Write Cache : Enabled (write-back) FRU : None S.M.A.R.T. : No S.M.A.R.T. warnings : 0 SSD : No NCQ status : Disabled Device #1 Device is a Hard drive State : Dedicated Hot-Spare Block Size : Unknown Dedicated Spare for : logical device 1 Supported : Yes Transfer Speed : SATA 3.0 Gb/s Reported Channel,Device(T:L) : 0,3(3:0) Reported Location : Enclosure 0, Slot 3 Reported ESD(T:L) : 2,0(0:0) Vendor : HGST Model : HTS725050A7E630 Firmware : Serial number : TF652AWJ34BLWV Reserved Size : 1045728 KB Used Size : 30441162 MB Unused Size : 3 MB Total Size : 30442187 MB Write Cache : Enabled (write-back) FRU : None S.M.A.R.T. : No S.M.A.R.T. warnings : 0 SSD : No NCQ status : Disabled Device #2 Device is a Hard drive State : Online Block Size : Unknown Supported : Yes Transfer Speed : SATA 3.0 Gb/s Reported Channel,Device(T:L) : 0,5(5:0) Reported Location : Enclosure 0, Slot 5 Reported ESD(T:L) : 2,0(0:0) Vendor : HGST Model : HTS545050A7E380 Firmware : Serial number : TM85133J19NKVL Reserved Size : 10193574 KB Used Size : 0 MB Unused Size : 30432232 MB Total Size : 30442187 MB Write Cache : Enabled (write-back) FRU : None S.M.A.R.T. : No S.M.A.R.T. warnings : 0 SSD : No NCQ status : Disabled Device #3 Device is a Hard drive State : Online Block Size : Unknown Supported : Yes Transfer Speed : SATA 3.0 Gb/s Reported Channel,Device(T:L) : 0,6(6:0) Reported Location : Enclosure 0, Slot 6 Reported ESD(T:L) : 2,0(0:0) Vendor : HGST Model : HTS545050A7E380 Firmware : Serial number : TM85133J166TLL Reserved Size : 10193574 KB Used Size : 0 MB Unused Size : 30432232 MB Total Size : 30442187 MB Write Cache : Enabled (write-back) FRU : None S.M.A.R.T. : No S.M.A.R.T. warnings : 0 SSD : No NCQ status : Disabled Device #4 Device is an Enclosure services device Reported Channel,Device(T:L) : 2,0(0:0) Enclosure ID : 0 Expander ID : 0 Enclosure Logical Identifier : 5005076A041369F0 Type : SES2 Vendor : IBM-ESXS Model : VSC7160 Firmware : 1.07 Status of Enclosure services device Speaker status : Not available Command completed successfully.
root@beehive:~# arcconf GETLOGS 1 DEVICE Controllers found: 1 <ControllerLog controllerID="0" type="0" time="1415265163" version="1" tableFull="false"> <driveErrorEntry adapterID="0" channelID="0" deviceID="5" slotNum="5" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="9494" mediumErrors="0"/> <driveErrorEntry adapterID="0" channelID="0" deviceID="6" slotNum="6" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="9493" mediumErrors="0"/> <driveErrorEntry adapterID="0" channelID="2" deviceID="0" slotNum="0" enclIndex="0" numParityErrors="0" linkFailures="6" hwErrors="0" abortedCmds="0" mediumErrors="0"/> <driveErrorEntry adapterID="0" channelID="0" deviceID="7" slotNum="7" enclIndex="0" numParityErrors="0" linkFailures="107" hwErrors="0" abortedCmds="1" mediumErrors="2"/> <driveErrorEntry adapterID="0" channelID="0" deviceID="3" slotNum="3" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="1215" mediumErrors="0"/> </ControllerLog> Command completed successfully.
Serwerek pracuje pod Ubuntu 14.04 z ~ 20 virtualkami KVM zarządzanych przez Openstacka
Moim ostatnim pomysłem jest weekendowy problem z siecią elektryczną w biurowcu
specjalistą nie jestem ale słabsze obciążenie transformatora może powodować większą wrażliwość na zakłócenia ?
Próbuje nakłonić szefa na jakiegoś UPSa On-line ale niechętnie patrzy na moje próby zgadywania WFT.
Ma ktoś jakiś sposób żeby to sprawdzić co go boli?
Offline
[quote=czechu]Moim ostatnim pomysłem jest weekendowy problem z siecią elektryczną w biurowcu
specjalistą nie jestem ale słabsze obciążenie transformatora może powodować większą wrażliwość na zakłócenia ?[/quote]
raczej przeciwnie - im większe obciążenie sieci, tym więcej zakłóceń
[quote=czechu]Próbuje nakłonić szefa na jakiegoś UPSa On-line ale niechętnie patrzy na moje próby zgadywania WFT.[/quote]
UPS on-line to trochę przesada, no chyba że firma bogata i stać was na taki gest ;) imo zwykły off-line wystarczy, ważne tylko, żeby był odpowiednio duży i żeby baterie były konserwowane co najmniej raz na pół roku
Offline
Prawdopodobnie znalazłem rozwiązanie problemu
http://en.wikipedia.org/wiki/Error_recovery_control
W serwerku są zwykłe dysku hitachi.....
Ktoś szukał może tego typu zastępstwa dla SASu ?
Znalazłem info że WDedki z serii RED mają już wsparcie dla tlera ma ktoś jakieś doświadczenia w tej kwestii ??
Offline
Strony: 1
Time (s) | Query |
---|---|
0.00009 | SET CHARSET latin2 |
0.00004 | SET NAMES latin2 |
0.00128 | SELECT u.*, g.*, o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='3.145.92.98' WHERE u.id=1 |
0.00081 | UPDATE punbb_online SET logged=1732329075 WHERE ident='3.145.92.98' |
0.00037 | SELECT * FROM punbb_online WHERE logged<1732328775 |
0.00039 | SELECT topic_id FROM punbb_posts WHERE id=279812 |
0.00045 | SELECT id FROM punbb_posts WHERE topic_id=26661 ORDER BY posted |
0.00075 | SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=26661 AND t.moved_to IS NULL |
0.00019 | SELECT search_for, replace_with FROM punbb_censoring |
0.00079 | SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=26661 ORDER BY p.id LIMIT 0,25 |
0.00080 | UPDATE punbb_topics SET num_views=num_views+1 WHERE id=26661 |
Total query time: 0.00596 s |