Prometheus 서버가 자꾸 죽습니다.

Question

질문 답변을 제공하지만, 강의 비용에는 Q&A는 포함되어 있지 않습니다. 다만 실습이 안되거나, 잘못된 내용의 경우는 알려주시면 가능한 빠르게 조치하겠습니다! [질문 전 답변] 1. 강의에서 다룬 내용과 관련된 질문인가요? [예] 2. 인프런의 질문 게시판과 자주 하는 질문에 없는 내용인가요? [예] 3. 질문 잘하기 법을 읽어보셨나요? [예] ( https://www.inflearn.com/blogs/1719 ) 4. 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. [질문 하기] 안녕하세요. Prometheus, Grafana 수강생입니다. 제공해주신 OVA 파일들로 VM을 실행해서 Prometheus와 Grafana를 실행해 실습도 열심히 하고 있습니다. 그런데 어느 정도 시간이 지나면 저절로 Prometheus 서버 pod가 자꾸 죽고 재실행도 안되어서 매우 불편합니다. pod/prometheus-server-74dbc948cf-vxwpn 1/2 CreateContainerError 0 (7m48s ago)   아래 두가지 sh 모두 동일합니다. 왜 잘 실행되던 서버가 아무것도 안했는데 왜 Prometheus만 자꾸 죽는걸까요..ㅜ sh 등을 변경하거나 그런 것은 전혀 없습니다. 1.prometheus-installer-15s.sh [root@m-k8s 2.2]# cat 1.prometheus-installer-15s.sh #!/usr/bin/env bash # scrape default is 1m helm install prometheus edu/prometheus \ --set pushgateway.enabled=false \ --set alertmanager.enabled=false \ --set nodeExporter.tolerations[0].key="node-role.kubernetes.io/master" \ --set nodeExporter.tolerations[0].effect="NoSchedule" \ --set nodeExporter.tolerations[0].operator="Exists" \ --set nodeExporter.tolerations[1].key="node-role.kubernetes.io/control-plane" \ --set nodeExporter.tolerations[1].effect="NoSchedule" \ --set nodeExporter.tolerations[1].operator="Exists" \ --set server.service.type="LoadBalancer" \ --set server.service.loadBalancerIP="192.168.1.11" \ --set server.global.scrape_interval="15s" \ --set server.global.evaluation_interval="15s" \ --set server.extraFlags[0]="web.enable-lifecycle" \ --set server.extraFlags[1]="storage.tsdb.no-lockfile" \ --namespace=monitoring \ --create-namespace 1.prometheus-installer-1m-default.sh #!/usr/bin/env bash # scrape default is 1m helm install prometheus edu/prometheus \ --set pushgateway.enabled=false \ --set alertmanager.enabled=false \ --set nodeExporter.tolerations[0].key="node-role.kubernetes.io/master" \ --set nodeExporter.tolerations[0].effect="NoSchedule" \ --set nodeExporter.tolerations[0].operator="Exists" \ --set nodeExporter.tolerations[1].key="node-role.kubernetes.io/control-plane" \ --set nodeExporter.tolerations[1].effect="NoSchedule" \ --set nodeExporter.tolerations[1].operator="Exists" \ --set server.service.type="LoadBalancer" \ --set server.service.loadBalancerIP="192.168.1.11" \ --set server.extraFlags[0]="web.enable-lifecycle" \ --set server.extraFlags[1]="storage.tsdb.no-lockfile" \ --namespace=monitoring \ --create-namespace   해결 방법 꼭 알려주시길 부탁드립니다. 감사합니다.

조훈(Hoon Jo) · Answer

안녕하세요

OVA를 추가하고 위의 말씀해 주신 작업을 진행해 보았는데요. 재현이 되지 않아.

해당 문제를 확인하기 위해서는 다음의 정보가 필요할 것 같습니다.

[root@m-k8s ~]# k describe -n monitoring po prometheus-server-<hash 값>

[root@m-k8s ~]# k logs -n monitoring -c prometheus-server prometheus-server-<hash 값> 
ts=2024-05-19T02:47:11.640Z caller=main.go:535 level=info msg="Starting Prometheus Server" mode=server version="(version=2.37.0, branch=HEAD, revision=b41e0750abf5cc18d8233161560731de05199330)"
ts=2024-05-19T02:47:11.642Z caller=main.go:540 level=info build_context="(go=go1.18.4, user=root@0ebb6827e27f, date=20220714-15:13:18)"
ts=2024-05-19T02:47:11.642Z caller=main.go:541 level=info host_details="(Linux 3.10.0-1160.90.1.el7.x86_64 #1 SMP Thu May 4 15:21:22 UTC 2023 x86_64 prometheus-server-d94b68f64-8bc29 (none))"
ts=2024-05-19T02:47:11.642Z caller=main.go:542 level=info fd_limits="(soft=1048576, hard=1048576)"
ts=2024-05-19T02:47:11.642Z caller=main.go:543 level=info vm_limits="(soft=unlimited, hard=unlimited)"
ts=2024-05-19T02:47:11.718Z caller=web.go:553 level=info component=web msg="Start listening for connections" address=0.0.0.0:9090
ts=2024-05-19T02:47:11.720Z caller=main.go:972 level=info msg="Starting TSDB ..."
<snipped>

참고로 -c 는 멀티 컨테이너 중에서 프로메테우스 서버의 로그를 보기 위해 추가한 구문입니다.

부가적으로 다음의 내용도 함께 부탁드립니다.

[root@m-k8s ~]# k get nodes -o wide 
[root@m-k8s ~]# k get po -A
[root@m-k8s ~]# k exec -n monitoring -c prometheus-server prometheus-server-<hash 값> -it -- prometheus --version

해당 내용을 제공해 주시면 살펴보고 말씀드리겠습니다.

혹은 (다른 랩탑, PC등 에서) 재현 가능한 방법을 알려주시면 그걸 통해서 문제를 파악하도록 하겠습니다.

감사합니다.

인프런 커뮤니티 질문&답변

Prometheus 서버가 자꾸 죽습니다.