APEI 일반 하드웨어 오류 Error]: event severity:

지난 주 동안 내 서버 (Debian Jessie 실행)가 두 번 재부팅되었습니다. syslog에서 나는 매번 재부팅하기 전에 이것을 보았습니다.

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

일부 인터넷 검색은 ECC RAM이 오류를 감지하고 복구하는 것과 관련이 있다고 생각합니다. 이 올바른지? 복구중인 경우 왜 시스템이 재부팅됩니까? 가능한 경우 시스템이 재부팅되지 않도록하고 싶습니다.



답변

RAM에 오류가 있거나 수정중인 오류가있는 것 같습니다. 심각도에 따라 이러한 오류가 작동하는 데 영향을 미치고 나중에 다시 부팅해야하는 것처럼 들립니다.

이 스레드의 모양에서 오류 섹션 길이가 너무 작다는 메시지 비트의 끝이 범인 일 수 있습니다.

발췌- [PATCH 1/1] efi : cper : 다른 길이의 오류 섹션 지원

일부 필드는 최신 UEFI 사양의 오류 섹션에 추가 될 수 있습니다. 예를 들어, ‘예약 됨’, ‘순위 번호’, ‘카드 핸들’및 ‘모듈 핸들’필드는 UEFI 사양 2.3에서 시작된 메모리 오류 섹션에 추가됩니다. 불행히도, 메모리 수정 오류가 감지되고 struct acpi_generic_data의 ‘revision’필드가 0x203보다 작 으면 다음과 같은 경고 메시지가 나타납니다 (UEFI spec 2.3).

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

이 문제는이 수정 된 오류를 올바르게 표시 할 수 없습니다. 이 문제를 해결하기 위해이 패치는 다른 UEFI 사양 버전에 대해 다른 길이의 오류 섹션을 지원합니다.

또한이 패치는 사전 정의 된 구조를 사용하여 cper_estatus_print_section 함수에서 중복 된 코드를 정리합니다.

이 패치를 적용하면 오류를 주입 한 후 메모리 수정 오류가 올바르게 표시 될 수 있습니다.

Grantley 플랫폼 및 Intel RAStool을 사용하여 v3.14-rc5에서 테스트되었습니다.

따라서 특정 오류에 대한 패치가 작동하는 것으로 보이며 최신 버전의 커널에서 사용할 수 있습니다.


답변

참고로 나는 이와 비슷한 문제가있는 것으로 보입니다.

솔루션이 메모리를 꺼내고 다시 장착하는 것으로 나타 났으며 모든 것이 정상으로 돌아 왔습니다.


답변