Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!

Ogłoszenie

Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

#1  2014-11-06 10:34:20

  czechu - Członek DUG

czechu
Członek DUG
Skąd: Gorlice
Zarejestrowany: 2004-10-24

Serwerek i jego weekendowe "rejecting I/O to offline device"

Witam, dawno mnie tu nie było....

Piszę bo nie mogę sobie poradzić z jednym serwerem a skończyły mi się już pomysły

Serwerek sobie żyje żyje i nagle po prostu wali błędem

Kod:

rejecting I/O to offline device

i koniec, dopiero po restarcie wraca do normalności....

jak się domyślacie nawet gdy jestem zalogowany gdy następuje pad nie jestem w stanie nic odpalić żeby sprawdzić WTF

Gdy zainstalowałem mu dodatkowy dysk jako Hot-Spare po pierwszym padzie wyniósł się z jednego z dysków na nowy.

Wymieniłem ten "wadliwy" dysk i nadal ma jeden w zapasie ale już nie chce się nigdzie przenosić

W tym momencie pady występują co weekend ( tak złośliwość przedmiotów martwych )

Problematyczny serwerek to:

IBM x3650 (7979)

RAID 5 3x500GB + 1x500 hot-spare

Kontroler:
04:00.0 RAID bus controller: Adaptec AAC-RAID (Rocket) (rev 02)


Kod:

root@beehive:~# arcconf getconfig 1
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
   Controller Status                        : Optimal
   Channel description                      : SAS/SATA
   Controller Model                         : IBM ServeRAID 8k    
   Controller Serial Number                 : 4063ECC
   Controller World Wide Name               : 5005076B04063ECC
   Physical Slot                            : 0
   Installed memory                         : 256 MB
   Copyback                                 : Disabled
   Background consistency check             : Enabled
   Background consistency check period      : 30
   Automatic Failover                       : Enabled
   Host bus type                            : unknown
   Host bus speed                           : 0 MHz
   Host bus link width                      : 0 bit(s)/link(s)
   Stayawake period                         : Disabled
   Spinup limit internal drives             : 0
   Spinup limit external drives             : 0
   Defunct disk drive count                 : 0
   Logical devices/Failed/Degraded          : 1/0/0
   --------------------------------------------------------
   Controller Version Information
   --------------------------------------------------------
   BIOS                                     : 5.2-0 (15421)
   Firmware                                 : 5.2-0 (15421)
   Driver                                   : 1.2-0 (30200)
   Boot Flash                               : 5.1-0 (15411)
   --------------------------------------------------------
   Controller Battery Information
   --------------------------------------------------------
   Status                                   : Optimal
   Over temperature                         : No
   Capacity remaining                       : 100 percent
   Time remaining (at current draw)         : 4 days, 20 hours, 7 minutes

----------------------------------------------------------------------
Logical device information
----------------------------------------------------------------------
Logical device number 1
   Logical device name                      : Master
   Block Size of member drives              : Unknown
   RAID level                               : 5
   Unique Identifier                        : 6EB9A46B
   Status of logical device                 : Optimal
   Size                                     : 244118528 MB
   Parity space                             : 0 MB
   Stripe-unit size                         : 256 KB
   Read-cache setting                       : Enabled
   Read-cache status                        : On
   Write-cache setting                      : On when protected by battery/ZMM
   Write-cache status                       : On
   Partitioned                              : Yes
   Protected by Hot-Spare                   : Yes
   Dedicated Hot-Spare                      : 0,3
   Bootable                                 : Yes
   Failed stripes                           : No
   Power settings                           : Disabled
   --------------------------------------------------------
   Logical device segment information
   --------------------------------------------------------
   Segment 0                                : Present (Controller:1,Enclosure:0,Slot:5)       TM85133J19NKVL
   Segment 1                                : Present (Controller:1,Enclosure:0,Slot:6)       TM85133J166TLL
   Segment 2                                : Present (Controller:1,Enclosure:0,Slot:1) S2ZYJ9DF210802


----------------------------------------------------------------------
Physical Device information
----------------------------------------------------------------------
      Device #0
         Device is a Hard drive
         State                              : Online
         Block Size                         : Unknown
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,1(1:0)
         Reported Location                  : Enclosure 0, Slot 1
         Reported ESD(T:L)                  : 2,0(0:0)
         Vendor                             : ST500LM0
         Model                              : 12
         Firmware                           : 
         Serial number                      : S2ZYJ9DF210802
         Reserved Size                      : 10193574 KB
         Used Size                          : 0 MB
         Unused Size                        : 30432232 MB
         Total Size                         : 30442187 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         SSD                                : No
         NCQ status                         : Disabled
      Device #1
         Device is a Hard drive
         State                              : Dedicated Hot-Spare
         Block Size                         : Unknown
         Dedicated Spare for                : logical device 1
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,3(3:0)
         Reported Location                  : Enclosure 0, Slot 3
         Reported ESD(T:L)                  : 2,0(0:0)
         Vendor                             : HGST
         Model                              : HTS725050A7E630
         Firmware                           : 
         Serial number                      : TF652AWJ34BLWV
         Reserved Size                      : 1045728 KB
         Used Size                          : 30441162 MB
         Unused Size                        : 3 MB
         Total Size                         : 30442187 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         SSD                                : No
         NCQ status                         : Disabled
      Device #2
         Device is a Hard drive
         State                              : Online
         Block Size                         : Unknown
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,5(5:0)
         Reported Location                  : Enclosure 0, Slot 5
         Reported ESD(T:L)                  : 2,0(0:0)
         Vendor                             : HGST
         Model                              : HTS545050A7E380
         Firmware                           : 
         Serial number                      : TM85133J19NKVL
         Reserved Size                      : 10193574 KB
         Used Size                          : 0 MB
         Unused Size                        : 30432232 MB
         Total Size                         : 30442187 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         SSD                                : No
         NCQ status                         : Disabled
      Device #3
         Device is a Hard drive
         State                              : Online
         Block Size                         : Unknown
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,6(6:0)
         Reported Location                  : Enclosure 0, Slot 6
         Reported ESD(T:L)                  : 2,0(0:0)
         Vendor                             : HGST
         Model                              : HTS545050A7E380
         Firmware                           : 
         Serial number                      : TM85133J166TLL
         Reserved Size                      : 10193574 KB
         Used Size                          : 0 MB
         Unused Size                        : 30432232 MB
         Total Size                         : 30442187 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         SSD                                : No
         NCQ status                         : Disabled
      Device #4
         Device is an Enclosure services device
         Reported Channel,Device(T:L)       : 2,0(0:0)
         Enclosure ID                       : 0
         Expander ID                        : 0
         Enclosure Logical Identifier       : 5005076A041369F0
         Type                               : SES2
         Vendor                             : IBM-ESXS
         Model                              : VSC7160
         Firmware                           : 1.07
         Status of Enclosure services device
            Speaker status                  : Not available
Command completed successfully.

Kod:

root@beehive:~# arcconf GETLOGS 1 DEVICE
Controllers found: 1
<ControllerLog controllerID="0" type="0" time="1415265163" version="1" tableFull="false">
    <driveErrorEntry adapterID="0" channelID="0" deviceID="5" slotNum="5" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="9494" mediumErrors="0"/>
    <driveErrorEntry adapterID="0" channelID="0" deviceID="6" slotNum="6" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="9493" mediumErrors="0"/>
    <driveErrorEntry adapterID="0" channelID="2" deviceID="0" slotNum="0" enclIndex="0" numParityErrors="0" linkFailures="6" hwErrors="0" abortedCmds="0" mediumErrors="0"/>
    <driveErrorEntry adapterID="0" channelID="0" deviceID="7" slotNum="7" enclIndex="0" numParityErrors="0" linkFailures="107" hwErrors="0" abortedCmds="1" mediumErrors="2"/>
    <driveErrorEntry adapterID="0" channelID="0" deviceID="3" slotNum="3" enclIndex="0" numParityErrors="0" linkFailures="0" hwErrors="0" abortedCmds="1215" mediumErrors="0"/>
</ControllerLog>
Command completed successfully.

Serwerek pracuje pod Ubuntu 14.04 z ~ 20 virtualkami KVM zarządzanych przez Openstacka

Moim ostatnim pomysłem jest weekendowy problem z siecią elektryczną w biurowcu
specjalistą nie jestem ale słabsze obciążenie transformatora może powodować większą wrażliwość na zakłócenia ?

Próbuje nakłonić szefa na jakiegoś UPSa On-line ale niechętnie patrzy na moje próby zgadywania WFT.

Ma ktoś jakiś sposób żeby to sprawdzić co go boli?

Offline

 

#2  2014-11-09 00:33:40

  rychu - elektryk dyżurny

rychu
elektryk dyżurny
Skąd: gdańsk
Zarejestrowany: 2004-12-28

Re: Serwerek i jego weekendowe "rejecting I/O to offline device"

[quote=czechu]Moim ostatnim pomysłem jest weekendowy problem z siecią elektryczną w biurowcu
specjalistą nie jestem ale słabsze obciążenie transformatora może powodować większą wrażliwość na zakłócenia ?[/quote]
raczej przeciwnie - im większe obciążenie sieci, tym więcej zakłóceń

[quote=czechu]Próbuje nakłonić szefa na jakiegoś UPSa On-line ale niechętnie patrzy na moje próby zgadywania WFT.[/quote]
UPS on-line to trochę przesada, no chyba że firma bogata i stać was na taki gest ;) imo zwykły off-line wystarczy, ważne tylko, żeby był odpowiednio duży i żeby baterie były konserwowane co najmniej raz na pół roku


linux regd. user #248790

Offline

 

#3  2014-12-09 08:46:45

  czechu - Członek DUG

czechu
Członek DUG
Skąd: Gorlice
Zarejestrowany: 2004-10-24

Re: Serwerek i jego weekendowe "rejecting I/O to offline device"

Prawdopodobnie znalazłem rozwiązanie problemu

http://en.wikipedia.org/wiki/Error_recovery_control

W serwerku są zwykłe dysku hitachi.....

Ktoś szukał może tego typu zastępstwa dla SASu ?

Znalazłem info że WDedki z serii RED mają już wsparcie dla tlera ma ktoś jakieś doświadczenia w tej kwestii ??

Offline

 

Stopka forum

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson
Nas ludzie lubią po prostu, a nie klikając w przyciski ;-)

[ Generated in 0.009 seconds, 13 queries executed ]

Informacje debugowania

Time (s) Query
0.00009 SET CHARSET latin2
0.00004 SET NAMES latin2
0.00093 SELECT u.*, g.*, o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='3.17.154.144' WHERE u.id=1
0.00058 REPLACE INTO punbb_online (user_id, ident, logged) VALUES(1, '3.17.154.144', 1732658848)
0.00045 SELECT * FROM punbb_online WHERE logged<1732658548
0.00063 DELETE FROM punbb_online WHERE ident='185.191.171.5'
0.00053 DELETE FROM punbb_online WHERE ident='85.208.96.207'
0.00057 SELECT topic_id FROM punbb_posts WHERE id=278660
0.00102 SELECT id FROM punbb_posts WHERE topic_id=26661 ORDER BY posted
0.00085 SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=26661 AND t.moved_to IS NULL
0.00005 SELECT search_for, replace_with FROM punbb_censoring
0.00109 SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=26661 ORDER BY p.id LIMIT 0,25
0.00075 UPDATE punbb_topics SET num_views=num_views+1 WHERE id=26661
Total query time: 0.00758 s