연구활동

Technology Management, Economics and Policy Program

[이정혜 교수님 연구실] Developing a Novel Temporal Air-quality Risk Index Using LSTM Autoencoder: A Case Study with South Korean Air Quality Data

2025-09-29l 조회수 30
  1. 연구 배경

대기질 지수(Air Quality Index)는 여러 대기 오염 물질의 복잡한 영향을 대중이 이해하기 쉬운 단일 점수로 변환하여 제공하는 유용한 대기 환경 평가 도구임. 다양한 나라는 개별 국가의 정책에 입각하여 대기 질 지수를 도입하고 있으며, 이러한 대기 질 지수의 대표적인 예로는 미국 환경보호청의 AQI (Air Quality Index)와 캐나다의 AQHI (Air Quality Health Index)가 있음. 하지만, 기존의 대기질 지수는 가장 해로운 오염물질 하나에만 초점을 맞추거나, 개별 오염물질에 대한 위험도를 단순 합산하는 방식으로 인하여 오염물질 간의 복합적인 영향을 제대로 반영하지 못하는 문제점이 있음. 뿐만 아니라, 기존 지수들은 시간에 따른 환경 요인의 동적인 변화, 즉 시간적 종속성을 제대로 포착하지 못하여 환경 오염으로 인한 누적 효과를 반영할 수 없다는 한계점 또한 존재함. 이러한 한계는 대기오염과 인체 건강 사이의 관계를 정확히 나타내기 어렵게 만들므로 이를 극복할 새로운 지수의 개발이 필요함.

  1. 연구 내용

본 연구는 기존 대기질 지수의 한계를 극복하기 위해 딥러닝 기반의 새로운 TARI (Temporal Air-quality Risk Index)를 개발하는 프레임워크를 제안함. 본 연구가 제안하는 프레임워크는 총 3단계이며, (1) 위험 점수 산출, (2) RSLAE 모델을 통한 표현 생성, (3) TARI 변환으로 구성되어 있음.

  • 위험 점수(Risk Score; RS) 산출: 본 연구에서는 각 오염물질의 위험도에 대해 가우시안 분포를 가정하므로써 오염물질의 실제 위험 수준을 비선형적이고 연속적인 위험 점수(RS)로 변환함. 이 접근은 기존 지수의 불연속적인 구간 평가 방식이 야기하는 위험도의 과대/과소평가와 같은 정보 왜곡 문제를 효과적으로 완화할 수 있음.
  • RSLAE 모델을 통한 표현 생성: LSTM 오토인코더 (Long Short-Term Memory Autoencoder) 기반의 RSLAE (RS-embedded LSTM Autoencoder) 모델을 활용하여 대기질 데이터의 시간적 종속성과 변수 간의 복잡한 비선형 관계를 학습함. RSLAE 모델은 입력된 대기질 데이터와 위험 점수(RS)를 동시에 복원하는 과정을 통해, 환경 위험도 정보를 풍부하게 함축한 잠재 표현(Latent Representation)을 추출함.
  • TARI 변환: RSLAE 모델이 추출한 잠재 표현을 기존 대기질 지수(예: AQHI)의 분포 및 규모에 맞게 조정한 후, 선형 회귀를 통해 결합하여 최종 TARI를 생성함. 이로써 TARI는 기존 지수와 유사한 형태를 띠면서도 대기질 데이터의 시간 종속성을 반영할 수 있게 됨.

 

[그림 1] TARI 생성 프레임워크 구조

  1. 기대 효과
  • 정보 왜곡 방지 및 포괄적인 위험 평가:불연속적인 기준 구간으로 인해 발생할 수 있는 정보 왜곡을 줄이고, 오염물질의 영향을 연속적인 위험 점수로 표현하여 대중에게 더 직관적이고 포괄적인 안전 및 위험 정보를 제공할 수 있음.
  • 지수 개발의 유연성 및 확장성: TARI 생성 방법론은 특정 대기질 데이터에 국한되지 않고, 유사한 구조를 가진 다른 환경 시스템(예: 수질)에도 쉽게 적용할 수 있어 다양한 분야에서의 활용이 가능함.
  • 정책결정자를 위한 의사결정 지원: 시공간적 특성을 시각화한 TARI 지도를 통해 대한민국의 계절별, 지역별 대기질 패턴을 직관적으로 파악할 수 있으며, 이는 국가 환경 문제의 핵심을 파악하고 효과적인 정책을 수립하는 데 중요한 도구로 활용될 수 있음.

<논문 정보>

Hyerim Park†, Wonho Sohn†, Eunjin Kang, Jungho Im, and Junghye Lee, "Developing a Novel Temporal Air-quality Risk Index Using LSTM Autoencoder: A Case Study with South Korean Air Quality Data", Science of The Total Environment, 978, May 2025.*

<용어 정리>

대기질 지수 (Air Quality Index, AQI): 여러 종류의 대기 오염 물질(예: 미세먼지, 오존 등) 농도를 종합해서, 현재 공기 질이 얼마나 좋은지 또는 나쁜지를 하나의 숫자로 간단하게 알려주는 지표임.
LSTM 오토인코더 (Long Short-Term Memory Autoencoder): 인코더와 디코더에 LSTM 모델을 사용한 딥러닝 모델임. 데이터의 핵심 특징을 추출하는 오토인코더의 능력에, 순차적인 데이터의 흐름과 패턴을 학습하는 LSTM의 장점을 결합하여 시계열 데이터의 특징 포착에 특화된 모델임.
잠재 표현 (Latent Representation): 인공지능 모델이 복잡한 원본 데이터를 분석하여 그 안에 숨겨진 핵심적인 특징들을 압축해 놓은 결과물이며, 보이지 않는 데이터의 본질이나 패턴을 담고 있음.