← 포트폴리오로 돌아가기
2026.03 — 2026.04

AgentOps 플랫폼 구축

ArgoCD 및 Kubernetes 운영 장애를 자동 감지하고 분석하는 지능형 SRE 에이전트

Role Solo project
Tech Stack
PythonLangGraphQdrant GKEArgoCDPrometheus

주요 기능

Autonomous SRE Agent

Prometheus AlertManager와 연동하여 장애 발생 시 LangGraph 기반 에이전트가 자동 가동됩니다. 장애 로그 분석, 원인 파악 및 해결 방안이 포함된 리포트를 Discord로 실시간 전송합니다.

Automated Knowledge Ingestion

n8n 기반의 데이터 파이프라인을 구축하여 최신 기술 문서를 매일 크롤링합니다. 변경 사항 발생 시 Qdrant 벡터 데이터베이스에 자동으로 반영하여 지식 베이스의 최신성을 유지합니다.

CI Eval Gate (RAG Quality Assurance)

GitHub Actions CI 파이프라인에 Langfuse 기반 평가 단계를 통합했습니다. 답변 품질(Faithfulness, Relevance 등) 점수가 기준치 미달일 경우 배포를 자동으로 차단하여 시스템 신뢰도를 보장합니다.

Observability & Tracing

Langfuse를 통한 LLM 추론 과정의 전수 트레이싱 및 비용 모니터링을 수행하며, Grafana 대시보드를 통해 인프라와 에이전트 상태를 통합 관측합니다.

시스템 아키텍처

GCP GKE 인프라 내에서 지능형 에이전트, 벡터 DB, 관측성 도구가 유기적으로 통합된 자율 운영 아키텍처

AgentOps Architecture (Autonomous SRE)

이 시스템은 GitOps(ArgoCD)를 통해 배포되며, LangGraph의 State Machine 구조를 활용해 멀티 스텝 분석 과정을 수행합니다. Qdrant Sidecar 패턴을 도입하여 CI 환경에서의 테스트 일관성을 확보했습니다.

트러블슈팅 (Lessons Learned)

CI 환경 내 검색 실패 및 Eval 0점 발생

GitHub Actions CI 환경에서 로컬 Qdrant와의 연결 부재로 평가가 실패하던 문제를 Service Sidecar 패턴으로 Qdrant를 실행하고, 평가 직전 Golden Set 데이터 자동 주입 스크립트를 구성하여 해결했습니다.

ArgoCD Self-Heal로 인한 Secret 동기화 충돌

Kubernetes 내에서 직접 수정한 Secret이 Git 상태로 자동 원복되는 문제를 해결하기 위해, External Secrets Operator 도입 검토 또는 파이프라인을 통한 Git 소스 업데이트 방식으로 배포 프로세스를 개선했습니다.

PrometheusRule 레이블 불일치 이슈

새로 생성한 Alert Rule이 대시보드에 감지되지 않던 문제를 분석하여, Prometheus Operator의 ruleSelector 설정에 정의된 특정 레이블(예: release: prometheus)이 누락되었음을 확인하고 이를 메타데이터에 추가하여 해결했습니다.

Langfuse 리전 불일치로 인한 401 Unauthorized

클라우드 환경 배포 후 트레이싱 데이터 전송이 중단되는 문제를 디버깅하여, SDK 설정 내 리전 엔드포인트와 실제 계정 리전의 불일치를 발견하고 환경 변수(LANGFUSE_HOST)를 명시적으로 수정하여 해결했습니다.

AlertManager Webhook 발송 로직 검증

장애 발생 즉시 알림이 오지 않는 현상을 분석하여, Prometheus Rule의 'for: 1m' 설정에 따른 의도된 지연임을 확인했습니다. 이를 통해 실무 환경에서의 오탐 방지 설계의 중요성을 이해하고 테스트 시나리오를 보강했습니다.