안정적인 시스템 운영을 위해서는 애플리케이션의 상태와 성능을 지속적으로 모니터링하는 것이 필수적이다. 토리의 전반적인 시스템 상태를 더 효과적으로 파악하기 위해 기존 Loki 로깅 시스템에 더해 Prometheus를 도입하기로 결정했다.

Prometheus 도입 이유

Prometheus는 다음과 같은 이점을 제공한다

시스템 자원 사용률, API 응답 시간, 오류율 등의 주요 지표를 실시간으로 모니터링함으로써 문제가 발생하기 전에 예방적 조치를 취할 수 있다.

Loki와 Prometheus 비교

현재 토리에서 사용 중인 Loki와 Prometheus는 서로 다른 모니터링 영역을 담당한다

Loki

Prometheus