시스템 관리/서버H·W

HP ASR (Automatic Server Recovery)

99iberty 2013. 8. 29. 13:55

 

 

https://www.netbuysell.co.kr/global_asp/board/board_view.asp?K_no=1311&page=&Hit_Plus=19&Codeno=1&Pgtype=A&Html_change=

 

 

ASR 의미 : ASR Automatic Server Recovery 약자이며이는 HP 만의고유한기능이아닌산업표준기술의하나입니다.
구현하는방식은업체마다틀릴지라도알고리즘은매우유사합니다.
HP 서버에서 ASR 하드웨어또는소프트웨어장애시서버가서비스역할을하지못한채멈추어있을경우
이를 H/W 레벨에서강제적으로서버를 Restart 시켜본래서비스기능을계속유지할있게끔해주는일종의유틸리티입니다.
ASR 작동하는기준은아래와같습니다.
(1) Processor Exceptions
(2) Software Lockups
(3) Processor, Memory, Thermal Events
(4) Power Supply Events
다시말씀드리자면 ASR ROM BIOS 내장되어있는일종의유틸리티로써 OS 설치되어있는 HP제공하는 ASM (Advanced System Management) 드라이버와상호연동하여
하드웨어적인장애또는소프트웨어적인장애에대하여일정시간동안서버상태가계속해서장애에빠졌을경우강제적으로서버를 restart 해주는것입니다.
HP Proliant 서버는 Default 10분의 ASR Timer 값을가지고있습니다. OS 설치되어있는 ASM 드라이버는 10분이지나게되면 ROM BIOS 있는 ASR Timer 값을 reset 시키고다시 0으로돌립니다.
ASR Timer 다시 0부터 10분까지숫자 count 시작합니다. 이때만약 ASM 드라이버가 10분이다되었는데도 count 값을 0으로돌리지못한다던지 (이런경우를저희는 Lockup 또는 Hang 이라고합니다)
또는 H/W 장애가발생할경우에는 ASR 작동됩니다.
그렇다면상기 4가지상황의경우각각 ASR 어떻게작동되는지설명드리겠습니다.
(1) processor Exceptions
이를테면쉽게이야기해서 Unix 경우 Panic 또는 Windows 경우 Blue Screen 처럼 Kernel 직접잘못건드린경우또는 NMI 오류가발생한경우에는 OS 메카니즘을따라갑니다.
결국 DUMP 저장이되고 Dump 에는마치 snapshot 처럼당시작동중이었던 S/W 같은정보도저장이됩니다.
Processor Exceptions 경우 S/W 또는 H/W 원인이있습니다. Processor Exceptions 경우에는일반적으로 DUMP 저장되기마련이며
S/W 경우 General Protection Fault 또는 Invalid Memory Page Fault 같은메세지가뿌려지며 H/W 적인장애의경우 NMI 에러또는 MCA Exception 처럼메세지가확연히드러납니다.
(2) Software Lockups
Hang 이라고저희가쉽게표현하는 S/W Lockup경우는접근하기가상당히힘이듭니다.
S/W Lockup 누구나알다시피특정 Application 이나서비스가 OS 점유권을가져간채 Job 완료유무와관계없이계속해서 OS 에게점유권을돌려주지않은채쥐고있는상황입니다.
이런경우는 Panic 이나 Blue Screen 발생하지않습니다. 그냥그렇게서버는무응답상태로계속해서멈추어져있는상황이됩니다.
이렇게 Hang 상황인경우 OS 전체가멈추었기때문에 ASM 드라이버역시 ASR Timer 값을 reset 하지못하고이때는바로 ASR 10분이지나면작동이됩니다.
(3) Processor, Memory, Thermal Events
ASM 드라이버는 CPU, 메모리, 온도역시측정합니다. 실제메모리또는 CPU Fail 경우 HP IML 로그에기록을하고서 ASR 작동되며
몇번슬롯에몇번째메모리또는몇번 CPU 불량이었다는것까지기록이남는것이일반적입니다.
온도역시특정기준치온도값을넘어갈경우 (저희는이것을 Thresholds 값이라고표현합니다.) ASR 하드웨어적인서버시스템의보호차원에서자동적으로서버에게 shutdown 명령을내리게합니다.
(4) Power Supply Events
전원자체의불량이거나 Power supply fail 경우역시 IML 로그에기록이남습니다.
VRM 이라고하는, Voltage Regulator Module CPU 한개당한개씩장착이기본적으로되어야하는데 ASM 드라이버는 VRM 과의 Communication 통해
전원자체가서버시스템에고르게공급되고있는지파워서플라이모듈과통신하면서 Fail 발생하지않았는지등등을조사하여 error 발생하거나 warning record 발견될경우로그에기록을남깁니다.