ArgoCD 및 Kubernetes 운영 장애를 자동 감지하고 분석하는 지능형 SRE 에이전트
Prometheus AlertManager와 연동하여 장애 발생 시 LangGraph 기반 에이전트가 자동 가동됩니다. 장애 로그 분석, 원인 파악 및 해결 방안이 포함된 리포트를 Discord로 실시간 전송합니다.
n8n 기반의 데이터 파이프라인을 구축하여 최신 기술 문서를 매일 크롤링합니다. 변경 사항 발생 시 Qdrant 벡터 데이터베이스에 자동으로 반영하여 지식 베이스의 최신성을 유지합니다.
GitHub Actions CI 파이프라인에 Langfuse 기반 평가 단계를 통합했습니다. 답변 품질(Faithfulness, Relevance 등) 점수가 기준치 미달일 경우 배포를 자동으로 차단하여 시스템 신뢰도를 보장합니다.
Langfuse를 통한 LLM 추론 과정의 전수 트레이싱 및 비용 모니터링을 수행하며, Grafana 대시보드를 통해 인프라와 에이전트 상태를 통합 관측합니다.
GCP GKE 인프라 내에서 지능형 에이전트, 벡터 DB, 관측성 도구가 유기적으로 통합된 자율 운영 아키텍처
이 시스템은 GitOps(ArgoCD)를 통해 배포되며, LangGraph의 State Machine 구조를 활용해 멀티 스텝 분석 과정을 수행합니다. Qdrant Sidecar 패턴을 도입하여 CI 환경에서의 테스트 일관성을 확보했습니다.
GitHub Actions CI 환경에서 로컬 Qdrant와의 연결 부재로 평가가 실패하던 문제를 Service Sidecar 패턴으로 Qdrant를 실행하고, 평가 직전 Golden Set 데이터 자동 주입 스크립트를 구성하여 해결했습니다.
Kubernetes 내에서 직접 수정한 Secret이 Git 상태로 자동 원복되는 문제를 해결하기 위해, External Secrets Operator 도입 검토 또는 파이프라인을 통한 Git 소스 업데이트 방식으로 배포 프로세스를 개선했습니다.
새로 생성한 Alert Rule이 대시보드에 감지되지 않던 문제를 분석하여, Prometheus Operator의 ruleSelector 설정에 정의된 특정 레이블(예: release: prometheus)이 누락되었음을 확인하고 이를 메타데이터에 추가하여 해결했습니다.
클라우드 환경 배포 후 트레이싱 데이터 전송이 중단되는 문제를 디버깅하여, SDK 설정 내 리전 엔드포인트와 실제 계정 리전의 불일치를 발견하고 환경 변수(LANGFUSE_HOST)를 명시적으로 수정하여 해결했습니다.
장애 발생 즉시 알림이 오지 않는 현상을 분석하여, Prometheus Rule의 'for: 1m' 설정에 따른 의도된 지연임을 확인했습니다. 이를 통해 실무 환경에서의 오탐 방지 설계의 중요성을 이해하고 테스트 시나리오를 보강했습니다.