ASR
의의미 : ASR 은 Automatic Server Recovery 의약자이며이는 HP 만의고유한기능이아닌산업표준기술의하나입니다.
구현하는방식은각업체마다틀릴지라도그알고리즘은매우유사합니다.
HP 서버에서 ASR 은하드웨어또는소프트웨어장애시서버가서비스역할을하지못한채멈추어있을경우
이를 H/W 레벨에서강제적으로서버를 Restart 시켜본래서비스기능을계속유지할수있게끔해주는일종의유틸리티입니다.
ASR 이작동하는기준은아래와같습니다.
(1) Processor
Exceptions
(2) Software
Lockups
(3) Processor, Memory,
Thermal Events
(4) Power Supply
Events
다시말씀드리자면 ASR 은 ROM BIOS 에내장되어있는일종의유틸리티로써 OS 에 설치되어있는 HP가제공하는 ASM (Advanced System Management)
드라이버와상호연동하여
하드웨어적인장애또는소프트웨어적인장애에대하여일정시간동안서버상태가계속해서장애에빠졌을경우강제적으로서버를 restart 해주는것입니다.
HP Proliant 서버는 Default 로 10분의 ASR Timer 값을가지고있습니다. OS 에설치되어있는 ASM 드라이버는 10분이지나게되면 ROM BIOS 에있는 ASR Timer 값을 reset 을시키고다시 0으로돌립니다.
ASR Timer 는다시 0부터 10분까지숫자 count 를시작합니다. 이때만약 ASM 드라이버가 10분이다되었는데도 count 값을 0으로돌리지못한다던지 (즉이런경우를저희는 Lockup 또는 Hang 이라고합니다)
또는 H/W 장애가발생할경우에는 ASR 이작동됩니다.
그렇다면상기 4가지상황의경우각각 ASR 이어떻게작동되는지설명드리겠습니다.
(1) processor
Exceptions
이를테면쉽게이야기해서 Unix 의경우 Panic 또는 Windows 의경우 Blue Screen 처럼 Kernel 을직접잘못건드린경우또는 NMI 의오류가발생한경우에는 OS 의메카니즘을따라갑니다.
결국 DUMP 가저장이되고이 Dump 에는마치 snapshot 처럼당시작동중이었던 S/W 와같은정보도저장이됩니다.
Processor Exceptions
의경우 S/W 또는 H/W 가그원인이될수있습니다. Processor Exceptions 의경우에는일반적으로 DUMP 가저장되기마련이며
S/W 의경우 General Protection Fault 또는 Invalid Memory Page Fault 와같은메세지가뿌려지며 H/W 적인장애의경우 NMI 에러또는 MCA Exception 처럼메세지가확연히드러납니다.
(2) Software
Lockups
Hang 이라고저희가쉽게표현하는 S/W Lockup의경우는접근하기가상당히힘이듭니다.
이 S/W Lockup 은누구나다알다시피특정 Application 이나서비스가 OS 점유권을가져간채 Job 완료유무와관계없이계속해서 OS 에게점유권을돌려주지않은채쥐고있는상황입니다.
이런경우는 Panic 이나 Blue Screen 도발생하지않습니다. 그냥그렇게서버는무응답상태로계속해서멈추어져있는상황이됩니다.
이렇게 Hang 상황인경우 OS 전체가멈추었기때문에 ASM 드라이버역시 ASR Timer 값을 reset 하지못하고이때는바로 ASR 이 10분이지나면작동이됩니다.
(3) Processor,
Memory, Thermal Events
ASM 드라이버는 CPU, 메모리, 온도역시측정합니다. 실제메모리또는 CPU Fail 일경우 HP IML 로그에기록을하고서 ASR 이작동되며
몇번슬롯에몇번째메모리또는몇번 CPU 가불량이었다는것까지기록이남는것이일반적입니다.
온도역시특정기준치온도값을넘어갈경우 (저희는이것을 Thresholds 값이라고표현합니다.) ASR 은하드웨어적인서버시스템의보호차원에서자동적으로서버에게 shutdown 명령을내리게합니다.
(4) Power Supply
Events
전원자체의불량이거나 Power supply 의 fail 일경우역시 IML 로그에기록이남습니다.
VRM 이라고하는즉, Voltage Regulator Module 은 CPU 한개당한개씩장착이기본적으로되어야하는데 ASM 드라이버는이 VRM 과의 Communication 을통해
전원자체가서버시스템에고르게공급되고있는지또파워서플라이모듈과통신하면서 Fail 이발생하지않았는지등등을조사하여 error 가발생하거나 warning record 가발견될경우로그에기록을남깁니다.
'시스템 관리 > 서버H·W' 카테고리의 다른 글
CPU 아키텍처 (i386, i686, x86_64, ia64, amd64, EMT64) (0) | 2014.01.24 |
---|---|
아키텍처 설명 (x86_64 , amd64) (0) | 2013.11.28 |
하드디스크(HDD)의 구조와 구동절차 (0) | 2013.10.25 |
HP NT(x86) 서버 Teaming 기본 (0) | 2013.09.12 |
IBM SystemX ASR 설정 (0) | 2013.08.29 |