데알못정을

[Review] Recurrent Neural Networks for Multivariate Time Series With Missing Values 본문

Paper Review

[Review] Recurrent Neural Networks for Multivariate Time Series With Missing Values

쩡을이 2024. 10. 14. 15:32
728x90

Summary

이번 포스팅에서는 다변량 시계열에서 존재하는 결측치를 처리할 수 있는 모델인 GRU-D에 대해 다룹니다.

Irregularly Sampled Time Series

본 연구는 불규칙적으로 기록된 다변량 시계열을 잘 다루기 위한 것으로, 여기서 불규칙적으로 기록되었다는 것은 하나의 변수가 일정한 간격으로 수집되지 않으면서, 변수들 사이에서도 서로 다른 타이밍에 값이 수집되었다는 것을 의미합니다. 이러한 시계열을 irregularly sampled time series라고 합니다. 특히 EHR 데이터 베이스를 분석을 위해 다변량 시계열 형태로 만들면 irregularly sampled time series가 됩니다. 왜냐하면 각 측정 과목마다 측정 여부와 간격이 서로 다르기 때문입니다.

Wang, Zhen, et al. "Uncovering Multivariate Structural Dependency for Analyzing Irregularly Sampled Time Series." Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Cham: Springer Nature Switzerland, 2023.

예를 들어, Vital sign은 bedside에서 자동으로 측정되는 반면, Lab test는 하루에 1번 혹은 2번으로 매우 희소한 빈도로 측정됩니다. 이러한 특성은 시계열 데이터를 만들어 하나의 공통된 시간 축에 정렬할 때 데이터 내에 수 많은 결측치를 존재하게 합니다.

Motivation

이 논문에서는 결측치를 어떤 패턴으로 나타낼 수 있고, 그 패턴이 예측 목표와 상관관계가 높은 특성인 informative missingness를 가질 수 있다고 했습니다. Informative missingness란 데이터 내에 존재하는 missing value 들이 그 자체로 매우 유익한 정보를 가지는 경우로, 샘플을 얼만큼의 간격을 가지고 측정했는지, 어느 시점에 마지막으로 측정했는지에 대한 정보들이 우리가 예측하고자 하는 라벨과 관련이 있을 수 있음을 의미합니다. 

[1]에서는 실험실 측정의 경우, 검사를 요청한 시점이 실제 검사 결과 값 보다 3년 이내 사망률을 더 잘 예측한다는 것을 발견했고, 이것이 informative missingness의 중요성을 뒷받침 합니다. 본 논문에서는 실제로 real world EHR 데이터 베이스인 MIMIC-III 를 이용하여 missing pattern과 예측 라벨 간의 상관 관계를 조사했습니다.

조사 결과 비교적 낮은 missing rate을 가지는 변수들이 예측 라벨과 음 또는 양 방향으로 상관 관계가 높았다고 말하면서, 이를 통해 missing pattern의 중요성을 강조했습니다. 따라서 본 연구에서는 이러한 missing pattern을 고려할 수 있는 RNN인 GRU-D를 제안했습니다.

GRU-D

본 논문의 저자는 시계열 내 결측치의 두가지 중요한 특성에 집중했습니다.

1. 만약 마지막 측정이 오래 전에 시행됬을 경우 missing value는 어떤 기본 값에 가까워지는 경향이 있다.

2. 만약 변수가 한동안 결측인 경우 입력 변수의 영향은 시간이 지남에 따라 사라진다.

특히 1의 경우는 헬스케어 도메인에서 인체의 항상성 메커니즘과 일치하는 대목이라 언급하고 있었습니다.

이러한 특성들을 모델링하기 위해 decay rate 이라는 것을 정의했습니다. 이때 데이터 내에 missing pattern 들은 사전에 알 수 없고, 복잡하기 때문에 학습 가능하도록 $W$와 $b$를 파라미터로 두었으며, 변수 별로 독립적인 decay rate을 가질 수 있도록 $W$는 diagonal matrix로 제한했습니다.

GRU-D에서는 입력 값을 구성하기 위해서 다음 4가지 요소가 필요합니다.

1. $X$: Input Time Series $\mathbb{R}^{T\times D}$, D개 변수, T 개 시퀀스

2. $M$:  값이 있으면 1, 아니면 0

3. $s$: 값이 얻어진 때의 time stamp

4. $\Delta$: 변수 별 측정 간격

위 그림은 변수가 2개인 결측치를 포함하고 있는 다변량 시계열의 모습입니다. 

이 시계열에서 입력 값이 missing 일 경우 GRU에 들어가는 입력 값은 다음과 같이 수정됩니다.

이때 $x_{t'}^d$는 t 시점 d 번째 변수의 마지막 측정 값을 나타내고, 여기에 decay rate을 곱해준 것을 볼 수 있습니다. 게다가, 여기에 해당 변수의 데이터 기반 평균이나 잘 알려진 defualt value를 반영하는 모습을 볼 수 있습니다. 이는 missing value의 1번째 특성을 반영하기 위한 장치로 볼 수 있습니다.  

GRU의 hidden state에도 decay rate을 넣어주었는데, 이는 입력 변수에 직접적으로 decay rate을 적용하는 것이 모든 missing information을 완전히포착할 수 없을 수 있기 때문이라 언급했습니다.

 

기존 GRU와 GRU-D는 다음과 같이 비교할 수 있으며, 크게 달라진 부분은 입력 값과 hidden state를 decay rate을 반영하여 수정한 것에 있습니다.

Decay rate의 효과를 살펴보기 위해 decay rate과 hidden state의 값의 분포를 살펴본 실험에서 (a) 대부분의 변수 들이 일정한 decay rate을 가졌으나 일부 변수(pH, RR, Temp, Weight 등) 에서는 시간이 지남에 따라 decay rate이 감소했는데, 이는 이전 관측치에 덜 의존 한다는 것을 의미하며, 과거 정보를 끌어다 쓰는 것 보다, 현재 측정한 정보가 더 중요하다는 것을 알 수 있었습니다. (b) hidden state의 값의 분포는 missing rate이 상대적으로 낮은 변수들이 넓은 분포를 가지고 있었고, missing rate( missing patterns )에 따라 차별적인 학습을 하고 있음을 알 수 있습니다.

Experiment

본 논문에서 수행했던 첫 번째 실험은 missing pattern이 prediction task에 유용했는지 검증하는 것입니다. 저자들은 합성 데이터를 구성하여 같은 missing rate에 대해 서로 다른 4가지 세팅으로 prediction label 과의 correlation에 대해 AUC 점수를 비교했습니다. X 축의 값은 missing rate과 prediction label간의 상관 관계를 나타냅니다. 실험 결과에서 missingness를 활용하지 않는 gru-mean, forward의 경우 correlation 이 증가하더라도 성능 변화가 거의 없음이 관찰되었습니다.  반면 missingness 를 활용하는 gru-simple 과 gru-d 의 경우 상관관계가 증가할 수록 성능이 올라가는 양상을 보였는데요,  이는 중요할 수 있는 missing pattern을 고려하는 것이 예측 성능을 올릴 수 있음을 의미합니다. gru-d와 다르게 simple은 correlation이 낮을 경우엔 성능이 낮은 것을 볼 수 있는데,  gru-d가 더 robust하며, missing pattern을 더 잘 잡는다는 것을 잘 보여주는 대목입니다.

GRU-D와 다른 모델 간의 성능 비교 (multiclass classification)

Reference

[1] Agniel D, et.al. Biases in electronic healthrecord data due to processes within the healthcare system : retrospective observational study

[2] Che, Zhengping, et al. "Recurrent neural networks for multivariate time series with missing values." Scientific reports 8.1 (2018): 6085.

728x90
Comments