본문 바로가기
시사

NIRS, 자체 특허기술로 시스템 관제 촘촘히 한다

by 다시시작하는 마음으로 2018. 12. 5.

 

 

NIRS, 자체 특허기술로 시스템 관제 촘촘히 한다

 

- G-클라우드 서버(x86) 장비 ‘온도’ 등 20여개 센서정보 활용체계 마련 -

 

 

행정안전부 국가정보자원관리원(원장 김명희)은 중앙부처 1,440개 업무 정보시스템의 장애예방과 신속한 대응을 위해 소속 공무원이 직접 획득한 특허 기술(특허번호 제10-1865151, ‘18.5.31.)을 NIRS G-클라우드 시스템 관제에 전면도입 활용하게 되었다고 밝혔다.

이번에 적용된 특허기술은 IPMI*(Intelligent Platform Management Interface) 기반기술을 활용한 “서버의 내부온도 모니터링” 방법론이다.

* 인텔 주도로 만들어진 하드웨어 자원제어 및 정보관리를 위한 표준규격으로 CPU, 메모리, 팬, 전력 등 각종 센서정보를 관리 제어하는 기능 제공

기존에는 서버(x86계열)의 운영체제(OS)에서 제공해주는 정보*만으로 제하여 서버 내 각종 센서가 생성하는 정보 관제에 한계가 있었으나, NIRS 특허기술을 적용하여 서버의 내부 온도, 전압, FAN 회전수 등 20여개 센서 정보(붙임 참조)를 실시간으로 수집할 수 있게 되었다.

* 운영체제 제공 정보 : OS 무응답, 커널 메모리 오류, 네트워크 통신 실패 등

○ 이러한 로그정보 수집은 서버에 내장된 특정 부품의 온도나 전압 등이 비정상적으로 상승하는 것을 조기에 찾아내어, 서버가 장애 상황으로 전이되는 것을 최소화 할 수 있고, 장애가 발생하더라도 보다 신속히 원인을 찾도록 도와준다.

행정안전부는 이러한 특허기술을 도입 적용하기 위해 지난 9월 광주센터 G-클라우드 서버(x86계열) 258대 전체를 대상으로 시범 적용을 실시하였다.

○ 이를 통해 시스템 안정성이 검증됨에 따라, 올해 말까지는 대전 본원 G-클라우드 서버(479대)에 까지 모두 적용할 계획이다.

국가정보자원관리원은 세계적 수준의 클라우드 데이터 센터의 명성에 걸맞게 가장 원초적인 H/W 부품 관제에서부터 운영체제(OS) 관제에 까지 과학적인 관제 환경을 구축하게 됨에 따라, 정부 부처의 전자정부 서비스들을 더욱 안정적으로 제공할 수 있을 것으로 기대된다.

김명희 국가정보자원관리원장은 "앞으로도 다양한 신기술 도입을 통해 정보자원을 안정적으로 관리함으로써 국가정보자원관리원이 지능형 컴퓨팅 센터로 더욱 발전될 수 있도록 노력해 나갈 것이다." 라고 말했다.

 

붙 임

클라우드 서버 IPMI 센서 정보

연번

Sensor Type

Sensor Name

설명

1

Temperature

CPU Temp, DIMM Temp,

Ambient Temp, MB Temp, 등

메인보드 고온감지

CPU hot, Memory hot, VR hot

CPU, Memory 고온감지

SSB Thermal trip

베어본 온도감지

2

Voltage

P5V, P12V, P1V1_SSB, P3V3 등

메인보드 전압

3

FAN

PDB FAN, System FAN/FAN_XX

FAN RPM 감지

Fan Redundancy

FAN 동작

Fan Table Error

FAN 테이블

4

Processor

CPU0, CPU1

CPU온도, 기능

CATERR

CPU와 메인보드연결 상태

QPI Error

CPU내 칩셋과 메모리 통신오류

5

Power suply

PSU Status / BBUx Health

파워입력손실, 파워장애

PSU Alert

파워 알람

PSU Redundancy

파워 이중화 손실

6

Power Unit

Power Unit

파워온, 파워오프

7

Memory ECC Error

DIMM

메모리오류, 메모리 임계값경고

8

POST Error

BIOS Post

바이오스 오류, 메모리슬롯 오류

Extended DIMM

확장 메모리슬롯 오류

9

Event Logging

SEL, Event Log

로그 가득참 경고,

10

System Event

System Event

PEF 플랫폼 이벤트 필터 사용

11

Critical Interrupt

Critical IRQ, PCIE, NMI, QPI 등

HW SW 통신정지, PCI슬롯 에러

PCIE Error

PCIE슬롯 에러

12

Watchdog2

Watchdog

시스템리셋, 다운 감지

13

Chassis

Power Limit

파워전력 제한 경고

CMC

시스템 관리 컨트롤

MB Type Error

메인보드 에러

Repeated Error

메인보드 반복 에러

14

PDB

PDB Event

파워보드, HDD 보드 에러

15

Node management

SPS FW Health

BMC에러(이미지, 저장소 등)

NM Health

센서노드 관리정책, 전원, 온도

NM Exception

센서노드 관리정책 수정

NM Threshold

노드관리 임계값 초과

NM Capabilities

관리 정책(모니터링, 전력제한)

16

Operating System

OS Boot

OS 부트상태

OS Stop

OS 종료상태

17

Drive Slot (Bay)

MG9086

드라이브 불량, 핫스페어

18

Button / Switch

Button

버튼(전원, 절전, 리셋)상태

19

Management

Subsystem Health

BMC FW info

관리컨트롤 불능, 부품센서 오류

20

LAN

SYS_NICx_LinkUp

네트워크 링크 업/다운

21

Other IIO Error

Other IIO Error

HW 통신인터페이스 설정에러

22

Back Battery Unit

BBUx_Status

배터리 불량, 배터리 전압

BBUx_State

베터리 충전, 방전, 전압, 다운

 

출처-행정안전부