인프런 커뮤니티 질문&답변

choongwon.jeon님의 프로필 이미지
choongwon.jeon

작성한 질문수

실습으로 배우는 그라파나 - {{ x86-64, arm64 }}

9.5.그라파나의 경보(Alert,얼럿) 기능을 이용해서 장애를 빠르게 감지하고 조치하기

Prometheus 서버가 자꾸 죽습니다.

작성

·

143

0

질문 답변을 제공하지만, 강의 비용에는 Q&A는 포함되어 있지 않습니다.
다만 실습이 안되거나, 잘못된 내용의 경우는 알려주시면 가능한 빠르게 조치하겠습니다!

[질문 전 답변]
1. 강의에서 다룬 내용과 관련된 질문인가요? [예]
2. 인프런의 질문 게시판과 자주 하는 질문에 없는 내용인가요? [예]
3. 질문 잘하기 법을 읽어보셨나요? [예]
(https://www.inflearn.com/blogs/1719)
4. 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.

[질문 하기]

안녕하세요. Prometheus, Grafana 수강생입니다.

제공해주신 OVA 파일들로 VM을 실행해서 Prometheus와 Grafana를 실행해 실습도 열심히 하고 있습니다.

그런데 어느 정도 시간이 지나면 저절로 Prometheus 서버 pod가 자꾸 죽고 재실행도 안되어서 매우 불편합니다.

pod/prometheus-server-74dbc948cf-vxwpn 1/2 CreateContainerError 0 (7m48s ago)

 

아래 두가지 sh 모두 동일합니다. 왜 잘 실행되던 서버가 아무것도 안했는데 왜 Prometheus만 자꾸 죽는걸까요..ㅜ

sh 등을 변경하거나 그런 것은 전혀 없습니다.

1.prometheus-installer-15s.sh

[root@m-k8s 2.2]# cat 1.prometheus-installer-15s.sh

#!/usr/bin/env bash

# scrape default is 1m

helm install prometheus edu/prometheus \

--set pushgateway.enabled=false \

--set alertmanager.enabled=false \

--set nodeExporter.tolerations[0].key="node-role.kubernetes.io/master" \

--set nodeExporter.tolerations[0].effect="NoSchedule" \

--set nodeExporter.tolerations[0].operator="Exists" \

--set nodeExporter.tolerations[1].key="node-role.kubernetes.io/control-plane" \

--set nodeExporter.tolerations[1].effect="NoSchedule" \

--set nodeExporter.tolerations[1].operator="Exists" \

--set server.service.type="LoadBalancer" \

--set server.service.loadBalancerIP="192.168.1.11" \

--set server.global.scrape_interval="15s" \

--set server.global.evaluation_interval="15s" \

--set server.extraFlags[0]="web.enable-lifecycle" \

--set server.extraFlags[1]="storage.tsdb.no-lockfile" \

--namespace=monitoring \

--create-namespace

1.prometheus-installer-1m-default.sh

#!/usr/bin/env bash

# scrape default is 1m

helm install prometheus edu/prometheus \

--set pushgateway.enabled=false \

--set alertmanager.enabled=false \

--set nodeExporter.tolerations[0].key="node-role.kubernetes.io/master" \

--set nodeExporter.tolerations[0].effect="NoSchedule" \

--set nodeExporter.tolerations[0].operator="Exists" \

--set nodeExporter.tolerations[1].key="node-role.kubernetes.io/control-plane" \

--set nodeExporter.tolerations[1].effect="NoSchedule" \

--set nodeExporter.tolerations[1].operator="Exists" \

--set server.service.type="LoadBalancer" \

--set server.service.loadBalancerIP="192.168.1.11" \

--set server.extraFlags[0]="web.enable-lifecycle" \

--set server.extraFlags[1]="storage.tsdb.no-lockfile" \

--namespace=monitoring \

--create-namespace

 

해결 방법 꼭 알려주시길 부탁드립니다.

감사합니다.

답변 1

0

조훈(Hoon Jo)님의 프로필 이미지
조훈(Hoon Jo)
지식공유자

안녕하세요

OVA를 추가하고 위의 말씀해 주신 작업을 진행해 보았는데요. 재현이 되지 않아.

해당 문제를 확인하기 위해서는 다음의 정보가 필요할 것 같습니다.

 

[root@m-k8s ~]# k describe -n monitoring po prometheus-server-<hash 값>

 

[root@m-k8s ~]# k logs -n monitoring -c prometheus-server prometheus-server-<hash 값> 
ts=2024-05-19T02:47:11.640Z caller=main.go:535 level=info msg="Starting Prometheus Server" mode=server version="(version=2.37.0, branch=HEAD, revision=b41e0750abf5cc18d8233161560731de05199330)"
ts=2024-05-19T02:47:11.642Z caller=main.go:540 level=info build_context="(go=go1.18.4, user=root@0ebb6827e27f, date=20220714-15:13:18)"
ts=2024-05-19T02:47:11.642Z caller=main.go:541 level=info host_details="(Linux 3.10.0-1160.90.1.el7.x86_64 #1 SMP Thu May 4 15:21:22 UTC 2023 x86_64 prometheus-server-d94b68f64-8bc29 (none))"
ts=2024-05-19T02:47:11.642Z caller=main.go:542 level=info fd_limits="(soft=1048576, hard=1048576)"
ts=2024-05-19T02:47:11.642Z caller=main.go:543 level=info vm_limits="(soft=unlimited, hard=unlimited)"
ts=2024-05-19T02:47:11.718Z caller=web.go:553 level=info component=web msg="Start listening for connections" address=0.0.0.0:9090
ts=2024-05-19T02:47:11.720Z caller=main.go:972 level=info msg="Starting TSDB ..."
<snipped>

 

참고로 -c 는 멀티 컨테이너 중에서 프로메테우스 서버의 로그를 보기 위해 추가한 구문입니다.

 

부가적으로 다음의 내용도 함께 부탁드립니다.

[root@m-k8s ~]# k get nodes -o wide 
[root@m-k8s ~]# k get po -A
[root@m-k8s ~]# k exec -n monitoring -c prometheus-server prometheus-server-<hash 값> -it -- prometheus --version

 

해당 내용을 제공해 주시면 살펴보고 말씀드리겠습니다.

 

혹은 (다른 랩탑, PC등 에서) 재현 가능한 방법을 알려주시면 그걸 통해서 문제를 파악하도록 하겠습니다.

 

감사합니다.

choongwon.jeon님의 프로필 이미지
choongwon.jeon

작성한 질문수

질문하기