tirosh-infra Guide

tirosh-infra는 site별 on-prem 인프라를 같은 방식으로 설치하고 운영하기 위한 자동화 저장소입니다. Proxmox VM, host network, Kubernetes bootstrap, Nexus 운영 상태, GitHub Actions self-hosted runner를 같은 site profile 기준으로 다룹니다.

이 가이드는 실제 운영자가 자주 보는 순서에 맞춰 구성합니다.

  1. 시작하기에서 기본 명령, site 구조, 최신 운영 순서, 자주 쓰는 변수를 확인합니다.
  2. 운영 모델에서 profile.toml, inventory, *.vars.yml, *.tfvars의 책임 경계를 확인합니다.
  3. 현재 site가 어느 단계까지 준비되었는지 확인한 뒤 필요한 운영 가이드로 이동합니다.
  4. 설계 배경이 필요하면 ADR을 확인합니다.

1. 주요 영역

  • Host Network: host static IP 적용
  • Proxmox: Ubuntu template 생성과 OpenTofu 기반 VM lifecycle 관리
  • Argo CD: management cluster, Argo CD bootstrap, workload cluster 등록
  • RKE2 GPU cluster: GPU node용 RKE2 workload cluster 설치와 제거
  • Nexus: PyPI, npm, Maven, Helm, Cargo, Go, Conan, embedded raw registry 운영 상태
  • GitHub CI: self-hosted runner VM 등록과 운영

2. 설계 문서

  • 운영 모델: repository 역할, 책임 경계, site 파일 구조
  • ADR 0001: DGX Spark workload cluster에 RKE2 사용
  • ADR 0002: RKE2 GPU cluster에 NVIDIA GPU Operator 사용
  • ADR 0003: DGX Spark stacking 방향

3. 문서 빌드

문서 원본은 docs/에 있습니다. MkDocs 빌드 결과는 site-docs/에 생성됩니다.

make docs/build
make docs/serve