작성
·
143
0
질문 답변을 제공하지만, 강의 비용에는 Q&A는 포함되어 있지 않습니다.
다만 실습이 안되거나, 잘못된 내용의 경우는 알려주시면 가능한 빠르게 조치하겠습니다!
[질문 전 답변]
1. 강의에서 다룬 내용과 관련된 질문인가요? [예]
2. 인프런의 질문 게시판과 자주 하는 질문에 없는 내용인가요? [예]
3. 질문 잘하기 법을 읽어보셨나요? [예]
(https://www.inflearn.com/blogs/1719)
4. 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
[질문 하기]
안녕하세요. Prometheus, Grafana 수강생입니다.
제공해주신 OVA 파일들로 VM을 실행해서 Prometheus와 Grafana를 실행해 실습도 열심히 하고 있습니다.
그런데 어느 정도 시간이 지나면 저절로 Prometheus 서버 pod가 자꾸 죽고 재실행도 안되어서 매우 불편합니다.
pod/prometheus-server-74dbc948cf-vxwpn 1/2 CreateContainerError 0 (7m48s ago)
아래 두가지 sh 모두 동일합니다. 왜 잘 실행되던 서버가 아무것도 안했는데 왜 Prometheus만 자꾸 죽는걸까요..ㅜ
sh 등을 변경하거나 그런 것은 전혀 없습니다.
[root@m-k8s 2.2]# cat 1.prometheus-installer-15s.sh
#!/usr/bin/env bash
# scrape default is 1m
helm install prometheus edu/prometheus \
--set pushgateway.enabled=false \
--set alertmanager.enabled=false \
--set nodeExporter.tolerations[0].key="node-role.kubernetes.io/master" \
--set nodeExporter.tolerations[0].effect="NoSchedule" \
--set nodeExporter.tolerations[0].operator="Exists" \
--set nodeExporter.tolerations[1].key="node-role.kubernetes.io/control-plane" \
--set nodeExporter.tolerations[1].effect="NoSchedule" \
--set nodeExporter.tolerations[1].operator="Exists" \
--set server.service.type="LoadBalancer" \
--set server.service.loadBalancerIP="192.168.1.11" \
--set server.global.scrape_interval="15s" \
--set server.global.evaluation_interval="15s" \
--set server.extraFlags[0]="web.enable-lifecycle" \
--set server.extraFlags[1]="storage.tsdb.no-lockfile" \
--namespace=monitoring \
--create-namespace
1.prometheus-installer-1m-default.sh
#!/usr/bin/env bash
# scrape default is 1m
helm install prometheus edu/prometheus \
--set pushgateway.enabled=false \
--set alertmanager.enabled=false \
--set nodeExporter.tolerations[0].key="node-role.kubernetes.io/master" \
--set nodeExporter.tolerations[0].effect="NoSchedule" \
--set nodeExporter.tolerations[0].operator="Exists" \
--set nodeExporter.tolerations[1].key="node-role.kubernetes.io/control-plane" \
--set nodeExporter.tolerations[1].effect="NoSchedule" \
--set nodeExporter.tolerations[1].operator="Exists" \
--set server.service.type="LoadBalancer" \
--set server.service.loadBalancerIP="192.168.1.11" \
--set server.extraFlags[0]="web.enable-lifecycle" \
--set server.extraFlags[1]="storage.tsdb.no-lockfile" \
--namespace=monitoring \
--create-namespace
해결 방법 꼭 알려주시길 부탁드립니다.
감사합니다.
답변 1
0
안녕하세요
OVA를 추가하고 위의 말씀해 주신 작업을 진행해 보았는데요. 재현이 되지 않아.
해당 문제를 확인하기 위해서는 다음의 정보가 필요할 것 같습니다.
[root@m-k8s ~]# k describe -n monitoring po prometheus-server-<hash 값>
[root@m-k8s ~]# k logs -n monitoring -c prometheus-server prometheus-server-<hash 값>
ts=2024-05-19T02:47:11.640Z caller=main.go:535 level=info msg="Starting Prometheus Server" mode=server version="(version=2.37.0, branch=HEAD, revision=b41e0750abf5cc18d8233161560731de05199330)"
ts=2024-05-19T02:47:11.642Z caller=main.go:540 level=info build_context="(go=go1.18.4, user=root@0ebb6827e27f, date=20220714-15:13:18)"
ts=2024-05-19T02:47:11.642Z caller=main.go:541 level=info host_details="(Linux 3.10.0-1160.90.1.el7.x86_64 #1 SMP Thu May 4 15:21:22 UTC 2023 x86_64 prometheus-server-d94b68f64-8bc29 (none))"
ts=2024-05-19T02:47:11.642Z caller=main.go:542 level=info fd_limits="(soft=1048576, hard=1048576)"
ts=2024-05-19T02:47:11.642Z caller=main.go:543 level=info vm_limits="(soft=unlimited, hard=unlimited)"
ts=2024-05-19T02:47:11.718Z caller=web.go:553 level=info component=web msg="Start listening for connections" address=0.0.0.0:9090
ts=2024-05-19T02:47:11.720Z caller=main.go:972 level=info msg="Starting TSDB ..."
<snipped>
참고로 -c 는 멀티 컨테이너 중에서 프로메테우스 서버의 로그를 보기 위해 추가한 구문입니다.
부가적으로 다음의 내용도 함께 부탁드립니다.
[root@m-k8s ~]# k get nodes -o wide
[root@m-k8s ~]# k get po -A
[root@m-k8s ~]# k exec -n monitoring -c prometheus-server prometheus-server-<hash 값> -it -- prometheus --version
해당 내용을 제공해 주시면 살펴보고 말씀드리겠습니다.
혹은 (다른 랩탑, PC등 에서) 재현 가능한 방법을 알려주시면 그걸 통해서 문제를 파악하도록 하겠습니다.
감사합니다.