tirosh-infra Guide¶
tirosh-infra는 site별 on-prem 인프라를 같은 방식으로 설치하고 운영하기 위한 자동화 저장소입니다. Proxmox VM, host network, Kubernetes bootstrap, Nexus 운영 상태, GitHub Actions self-hosted runner를 같은 site profile 기준으로 다룹니다.
이 가이드는 실제 운영자가 자주 보는 순서에 맞춰 구성합니다.
- 시작하기에서 기본 명령, site 구조, 최신 운영 순서, 자주 쓰는 변수를 확인합니다.
- 운영 모델에서
profile.toml, inventory,*.vars.yml,*.tfvars의 책임 경계를 확인합니다. - 현재 site가 어느 단계까지 준비되었는지 확인한 뒤 필요한 운영 가이드로 이동합니다.
- 설계 배경이 필요하면 ADR을 확인합니다.
1. 주요 영역¶
- Host Network: host static IP 적용
- Proxmox: Ubuntu template 생성과 OpenTofu 기반 VM lifecycle 관리
- Argo CD: management cluster, Argo CD bootstrap, workload cluster 등록
- RKE2 GPU cluster: GPU node용 RKE2 workload cluster 설치와 제거
- Nexus: PyPI, npm, Maven, Helm, Cargo, Go, Conan, embedded raw registry 운영 상태
- GitHub CI: self-hosted runner VM 등록과 운영
2. 설계 문서¶
- 운영 모델: repository 역할, 책임 경계, site 파일 구조
- ADR 0001: DGX Spark workload cluster에 RKE2 사용
- ADR 0002: RKE2 GPU cluster에 NVIDIA GPU Operator 사용
- ADR 0003: DGX Spark stacking 방향
3. 문서 빌드¶
문서 원본은 docs/에 있습니다. MkDocs 빌드 결과는 site-docs/에 생성됩니다.
make docs/build
make docs/serve