묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2
데이터 전처리할 때 왜 id를 삭제하나요?학습할 때 필요할 지테스트의 id값이 최종적으로 필요할 지 어떻게 아나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링
안녕하세요. 자료에 따라 스케일링을 다르게 쓰시는 것 같은데요.일단 실기시험을 준비하는 입장에서는 어느 경우에 스탠다드, 민맥스, 로버스트 등을 쓰는지 잘 이해가 가지 않네요. 강사님게서 쓰시니까 그런가보다,, 하고 쓰긴 하는데 시험에서는 민맥스 스케일링 하나만 이해하고 사용해도 문제가 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[예시문제 작업형2] EDA 중 이상치 처리
안녕하세요.강의 잘 듣고 있습니다.예시문제 작업형2 풀면서X_train.describe() 기초통계량 볼 때(3:56)총 구매액, 최대 구매액의 최소값이 음수여서...이상치로 판단하고 금액이 <0인 행은 drop..처리하고 했는데 괜찮은 걸까요?괜찮다면 결측치처리를 X_train, y_train 동시에 해주는 것처럼 결측치도 두 데이터에 모두 해줘야하는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
from scipy import stats 와 import scipy.stats as stats
from scipy import stats 와 import scipy.stats as stats 차이가 있나요?어떨땐 전자로 어떨땐 후자로 코딩이 되어 있는데차이가 있나 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀 실습 중 rmse 결과값 질문
안녕하세요 선생님현재 모델링 및 평가(회귀)부분을 학습하고 있습니다.코드를 따라가면서 실습을 진행하고 있는데, rmse 값이 선생님과 달라 질문 드립니다.제가 알기로는 모델링을 하는 과정에서 예측한 값이 달라질 수 있고, 이에 따라 평가지표인 rmse 값이 다를 수 있다...라고 알고 있습니다.그런데 값의 차이 뿐만이 아니라 baseline과 scaler 적용 결과가 좋은지 나쁜지가 달라 질문드립니다.예를 들어, 선생님께서 하셨을때는 RandomForestRegressor의 baseline이 rmse값이 가장 좋았고(작았고), scaler를 적용했을 때 rmse가 커져서 scaler 적용은 하지 않는게 좋다~라는 내용의 실습이었는데제가 했을 때는 baseline의 rmse보다 scaler를 적용했을 때의 rmse가 작아 scaler를 적용하는 것이 좋다..는 결론이 나옵니다. 질문을 정리하자면,모델링을 하는 과정에서 선생님과 제가 실습한 예측값과 rmse가 다른게 맞는지다른게 맞다 해도 scaler 적용여부 등을 바꿀 수 있을 정도로 예측값과 rmse가 달라질 수 있는지(추가질문)달라지더라도 선생님 실습값 : 4728.xx 제 실습값 6025.174022213681 이정도로 달라질 수 있는지...(추가질문) 모델링 및 평가(회귀) 24:56에서 수험자는 알 수 없는 영역>y_test로 rmse로 구하시고 결과값이 17909.xx로 나왔는데 여기에서도 charges에 로그변환 한 이후기 떄문에 원래는 np.exp(pred)로 rmse를 구했어야 하는지일 것 같습니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩할 때 코드
안녕하세요.강의 잘 듣고 있습니다.모델링 및 평가(회귀) 강의 + 5회 실기 기출유형 문제풀이 유튜브를 보는데 train = pd.get_dummies(train, colmns=cols) ->강의train =pd.get_dummies(train) ->유튜브 이렇게 작성하시더라구요.결과는 같던데.... 둘 중 아무거나 써도 될까요?
-
미해결15일간의 빅데이터 파일럿 프로젝트
flask에서 API호출 에러
안녕하세요~선생님,마지막 수업 "3.텐서플로를 이용한 신경망 분석 - 스마트카 이상징후 판별 4" 에서 다음과 같은 크롬에서 API호출 에러가 발생합니다.Anaconda prompt에는 정상적으로 실행이 되는데 API호출 변수에 이상이 있는 것 같습니다.API호출 함수를 아래와 같이 두 가지로 해보았으나 같은 에러가 발생합니다.(1)127.0.0.1:9001/smartcar/predict?wea=2&temp=0&hum=1&arrOthCar=2&time=0&acciArea=1&drvCond=1&innCond=2&carSpd=2&steeAng=0(2)127.0.0.1:9001/smartcar/predict?wea=2&temp=0&hum=1&arrCar=2&timeSlot=0&acciArea=1&drvCond=1&innCond=2&carSpd=2&steeAng=0감사합니다~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Concat 문의
선생님 안녕하세요? 우선 좋은 강의 감사드립니다 ㅎㅎ 6.24 시험을 위해 막 듣기 시작했습니다 ㅎㅎ오늘 강의 중 concat 개념이 나왔는데,df = pd.concat([x_train, y_train[‘income’], axis = 1) 로 합치는 것 예시가 있었습니다. 여기서 궁금한 게 id 기준으로 합쳐야 할텐데, x_train의 id 컬럼과 y_train의 id 컬럼이 같은 것끼리 연결하라는 말이 없어서, 그냥 자동으로 id에 따라 연결해주는건지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 후 분리
안녕하세요섹션3. 피처 엔지니어링원핫인코딩 후 iloc를 통해 train과 test를 분리할 때line = int(X_train.shape[0]) 이 부분이 이해가 안 가요왜 [0]이 train의 마지막 행을 의미하는 것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩에 데이터 업로드
안녕하세요? 수업 잘 듣고 있습니다.매번 강의 시작할 때 .csv 데이터 파일을 코랩에 업로드하고 코드 실행하면서 강의를 듣고 있는데요, 용량이 상대적으로 큰 train 데이터 업로드가 계속 실패하는데, 혹시 해당 코랩 강의 파일 열고 데이터 넣는 방식 말고 다른 방식으로 .csv 파일들 업로드하는 방법이 있을까요?일시적인 오류이면 좋겠습니다만..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 강의 이상치 처리 질문
# age가 음수인 데이터 X_train[X_train['age']<=0]# age가 1이상인 데이터만 살림 print(X_train.shape) X_train = X_train[X_train['age']>0] print(X_train.shape) 이런식으로 밖에 X_train 대괄호로 전체를 한번 더 묶어주는 것은 어떤 의미가 있나요?
-
미해결빅데이터 분석기사 시험 실기(Python)
7강 코드 질문드립니다
7강 코드를 replit에 따라쳐보고 있는데요ㅠㅠ 두가지 질문이 있습니다1) get_dummies 관련 강의에서 선생님께서는 get_dummies에서 df 만 인자로 넣으셨는데저는 그렇게 하니까 숫자처럼 보이는 컬럼도 원핫인코딩이 되어버립니다. dtypes 해보면 object 로 나옵니다 그래서 columns = ['island','sex'] 를 넣어야 하는건지 궁금합니다 이것만 넣으면 될까요? 저는 df만 넣으면 왜 결과가 다른지도 궁금합니다 2) 그리고 이어서 qcut 관련 질문인데요df['body_mass_g_qcut'] = pd.qcut(df['body_mass_g'],q=5,labels=False) 에서 계속해서 에러가 납니다. TypeError: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule "safe" 똑같이 따라친것 같은데 에러가 나는 이유를 잘 모르겠습니다. 혹시 조언주실 수 있을까요..?
-
해결됨빅데이터분석기사 실기대비 (R 활용)
가설검정결과 채택의 의미에 대해 의문사항이 있습니다!
강의 감사합니다!귀무가설이 평균차이가 0보다 크다(치료후 혈압 - 치료전 혈압이 0보다 크다->치료후 혈압이 크다)인데p-value가 0.99니까 귀무가설을 기각할 수 없다그러면 귀무가설인 치료후 혈압-치료전혈압이 0보다 크다는 말이 맞으니까치료후 혈압 > 치료전 혈압이고 그러면 이 약의 효과가 없는게 아닌지 궁금합니다!(이 약은 고혈압 치료제)
-
미해결[핵집] 2024 빅데이터 분석기사(필기)_과목 1~2
통합 강의안 요청 드립니다.
통합 강의교안 요청 드립니다.이메일 주소는 hsc2000@gmail.com 입니다. 고맙습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델링 및 평가(분류) 11:07
submit = pd.DataFrame({ 'income': pred })문제가 성인 인구 조사 소득 예측(분류문제) 인데 submit = pd.DataFrame( { 'id':X_test['id'], 'income':pred } )2번처럼 id를 꼭 적어줘야 하나요? income만 적으면 안되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 답안 제출 관련
안녕하세요 강사님!예시문제 중 작업형 3유형의 4번문제가 아래와 같이 나와 있고,풀이를 해보면 검정통계량은 -3.34, p-value는 0.0006이 나와서예시 문제에서 요구하는 유의수준 0.05 이하 이므로 귀무가설을 기각 / 대립가설 채택 하는 결과가 나오는데, 귀무가설 기준으로 답을 적어야 하는지, 아니면 대립가설을 기준으로 답안을 적어야 하는지 궁금하여 문의드립니다. (귀무가설 기준으로는 답이 기각이고, 대립가설은 답이 채택)
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
pyspark - collect error
안녕하세요! 좋은 강의 잘 듣고 있습니다.제공해주신 연습 예제부터 차근차근 실습해보고 더 큰 데이터로 학습 해보고자 컬럼수 10개 / 큰 용량의 csv파일로 학습중입니다. 변수만 바꾸고 코드를 동일하고 학습하고 있습니다.코드의 마지막 줄인results = avg_by_count.collect() print(results)이 부분에서 에러가 나서 어떻게 해결해야 하는지 질문드립니다. === 이것저것 검색해보다가 pyspark / python 버전이 안맞으면 에러가 날 수 있다고 보고 버전도 확인해봤습니다.print(sc.version)# 3.3.2print(sc.pythonVer)#3 .10print(sc.master)#local[*] 아래는 에러 전문입니다.1197 sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd()) 1198 return list(_load_from_socket(sock_info, self._jrdd_deserializer)) File /usr/local/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/java_gateway.py:1321, in JavaMember.__call__(self, *args) 1315 command = proto.CALL_COMMAND_NAME +\ 1316 self.command_header +\ 1317 args_command +\ 1318 proto.END_COMMAND_PART 1320 answer = self.gateway_client.send_command(command) -> 1321 return_value = get_return_value( 1322 answer, self.gateway_client, self.target_id, self.name) 1324 for temp_arg in temp_args: 1325 temp_arg._detach() File /usr/local/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/protocol.py:326, in get_return_value(answer, gateway_client, target_id, name) 324 value = OUTPUT_CONVERTER[type](answer[2:], gateway_client) 325 if answer[1] == REFERENCE_TYPE: --> 326 raise Py4JJavaError( 327 "An error occurred while calling {0}{1}{2}.\n". 328 format(target_id, ".", name), value) 329 else: 330 raise Py4JError( 331 "An error occurred while calling {0}{1}{2}. Trace:\n{3}\n". 332 format(target_id, ".", name, value)) Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 10.0 failed 1 times, most recent failure: Lost task 1.0 in stage 10.0 (TID 11) (b4b9f5895184 executor driver): org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 686, in main process() File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 676, in process out_iter = func(split_index, iterator) File "/usr/local/spark/python/pyspark/rdd.py", line 3472, in pipeline_func return func(split, prev_func(split, iterator)) File "/usr/local/spark/python/pyspark/rdd.py", line 3472, in pipeline_func return func(split, prev_func(split, iterator)) File "/usr/local/spark/python/pyspark/rdd.py", line 540, in func return f(iterator) File "/usr/local/spark/python/pyspark/rdd.py", line 2554, in combineLocally merger.mergeValues(iterator) File "/usr/local/spark/python/lib/pyspark.zip/pyspark/shuffle.py", line 253, in mergeValues for k, v in iterator: File "/usr/local/spark/python/lib/pyspark.zip/pyspark/util.py", line 81, in wrapper return f(*args, **kwargs) File "/tmp/ipykernel_35939/1438163465.py", line 11, in parse_line ValueError: invalid literal for int() with base 10: '61.760999927297242' at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.handlePythonException(PythonRunner.scala:552) at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:758) at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:740) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:505) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at scala.collection.Iterator$GroupedIterator.fill(Iterator.scala:1211) at scala.collection.Iterator$GroupedIterator.hasNext(Iterator.scala:1217) at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:460) at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:140) at org.apache.spark.shuffle.ShuffleWriteProcessor.write(ShuffleWriteProcessor.scala:59) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:99) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:52) at org.apache.spark.scheduler.Task.run(Task.scala:136) at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:548) at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1504) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:551) at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136) at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635) at java.base/java.lang.Thread.run(Thread.java:833) Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.failJobAndIndependentStages(DAGScheduler.scala:2672) at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2(DAGScheduler.scala:2608) at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2$adapted(DAGScheduler.scala:2607) at scala.collection.mutable.ResizableArray.foreach(ResizableArray.scala:62) at scala.collection.mutable.ResizableArray.foreach$(ResizableArray.scala:55) at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:49) at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:2607) at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1(DAGScheduler.scala:1182) at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1$adapted(DAGScheduler.scala:1182) at scala.Option.foreach(Option.scala:407) at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:1182) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:2860) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2802) at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:2791) at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:49) at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:952) at org.apache.spark.SparkContext.runJob(SparkContext.scala:2238) at org.apache.spark.SparkContext.runJob(SparkContext.scala:2259) at org.apache.spark.SparkContext.runJob(SparkContext.scala:2278) at org.apache.spark.SparkContext.runJob(SparkContext.scala:2303) at org.apache.spark.rdd.RDD.$anonfun$collect$1(RDD.scala:1021) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112) at org.apache.spark.rdd.RDD.withScope(RDD.scala:406) at org.apache.spark.rdd.RDD.collect(RDD.scala:1020) at org.apache.spark.api.python.PythonRDD$.collectAndServe(PythonRDD.scala:180) at org.apache.spark.api.python.PythonRDD.collectAndServe(PythonRDD.scala) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:77) at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.base/java.lang.reflect.Method.invoke(Method.java:568) at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244) at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357) at py4j.Gateway.invoke(Gateway.java:282) at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132) at py4j.commands.CallCommand.execute(CallCommand.java:79) at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182) at py4j.ClientServerConnection.run(ClientServerConnection.java:106) at java.base/java.lang.Thread.run(Thread.java:833) Caused by: org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 686, in main process() File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py", line 676, in process out_iter = func(split_index, iterator) File "/usr/local/spark/python/pyspark/rdd.py", line 3472, in pipeline_func return func(split, prev_func(split, iterator)) File "/usr/local/spark/python/pyspark/rdd.py", line 3472, in pipeline_func return func(split, prev_func(split, iterator)) File "/usr/local/spark/python/pyspark/rdd.py", line 540, in func return f(iterator) File "/usr/local/spark/python/pyspark/rdd.py", line 2554, in combineLocally merger.mergeValues(iterator) File "/usr/local/spark/python/lib/pyspark.zip/pyspark/shuffle.py", line 253, in mergeValues for k, v in iterator: File "/usr/local/spark/python/lib/pyspark.zip/pyspark/util.py", line 81, in wrapper return f(*args, **kwargs) File "/tmp/ipykernel_35939/1438163465.py", line 11, in parse_line ValueError: invalid literal for int() with base 10: '61.760999927297242' at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.handlePythonException(PythonRunner.scala:552) at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:758) at org.apache.spark.api.python.PythonRunner$$anon$3.read(PythonRunner.scala:740) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:505) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at scala.collection.Iterator$GroupedIterator.fill(Iterator.scala:1211) at scala.collection.Iterator$GroupedIterator.hasNext(Iterator.scala:1217) at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:460) at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:140) at org.apache.spark.shuffle.ShuffleWriteProcessor.write(ShuffleWriteProcessor.scala:59) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:99) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:52) at org.apache.spark.scheduler.Task.run(Task.scala:136) at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:548) at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1504) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:551) at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1136) at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:635) ... 1 more ㅠㅠ혹시 해결방법을 아신다면 답변 부탁드립니다..감사합니다.!!!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문있습니다.
라벨 인코더 실행할 때나, 스케일러 실행할 때,X_train 에서는 fit_transform 함수를 사용하고X_test 에서는 transform 함수를 사용하는데,무슨 차이가 있는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 문제5번 데이터의 수
작업형1 모의문제2 문제5번 데이터의 수를 구하면sum함수가 아닌, len함수를 사용해야하는 것아닌지 궁금합니다.실제 시험에서 데이터수를 구할 때 len을 써야할지 sum을 써야할지 구분 기준 질문드립니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형2) 5:16초 수치형 변수 스케일링
3회 기출유형(작업형2) 수치형 변수 스케일링 RobustScaler에 대한 강의 내용은 없어서, 혹시 민맥스나 스탠다드로 스케일링한 코드 공유가 가능할까요 ? 민맥스로 혼자 돌려보려고 30분째 씨름하는데도 에러가 떠서 질문드립니다 !