Posts
Q&A
GCSSinkconnector
안녕하십니까, 확인해보니, GCS Sink Connector는 말씀하신대로 라이센스가 필요하군요. 라이센스가 부담되신다면, 직접 구현하셔야 할 것 같습니다. 다만 connector를 직접 구현하시는 것 보다는 Java로 Consumer 기반으로 Object Storage에 write하는 application을 구현하시는게 더 좋을 것 같습니다. 자바에 조예가 깊으시다면 GCS Sink Connector를 역 컴파일해서 소스코드를 분석하신 다음에 구현해보시는 것도 좋으실 것 같습니다. 아무래도 file write라 다른 connector 보다는 구현이 상대적으로 쉬울 것 같습니다. 감사합니다.
- 0
- 1
- 0
Q&A
TMDB5000 데이터 세트를 이용한 콘텐츠기반 필터링 구현 실습 - 02 강의내용 질문입니다
안녕하십니까, 첫번째 나오는 find_sim_movie() 함수가 약간 소스코드가 잘못된 측면이 있습니다. 원래는 자기 자신은 언제나 유사도가 1이기 때문에 자기 자신을 제외한 코사인 유사도 행렬에서 그 다음 높은 값을 찾아야 하는데, 해당 소스 코드가 생략이 되어 있습니다. 그런데 이 코드가 생략되었음에도 The Godfather와 가장 유사한 영화가 자기 자신이 아닌 다른 영화를 찾아 주는 결과가 될 수 있는데, 이런 경우는 해당 유사도가 1과 컴퓨터 계산적으로 동일한 0.999999999 와 같은 값일 때 이 경우 1로 동일하게 간주해서 argsort() 시에 해당 인덱스를 가장 높은 값으로 추출해 줄 수 있습니다. 그래서 강의 영상에 마지막 쯤에 보시면 find_sim_movie() 함수가 재 정의 되어 있습니다. 여기서는 기준영화 index를 제외하는 것으로 소스코드가 제대로 적용됩니다. # 기준 영화 index는 제외 similar_indexes = similar_indexes[similar_indexes != title_index]재 정의된 find_sim_movie() 함수가 바르게 작성된 함수로 생각해 주시면 될 것 같습니다. 감사합니다.
- 0
- 2
- 26
Q&A
데이터 로드 및 로딩 된 파일 데이터 목록 조회 방
안녕하십니까, 먼저 코드가 잘 실행이 되면 파일이 잘 올라 간 것입니다. 화면 메뉴가 강의와 살짝 다르게 바뀌었군요. 강의대로 왼쪽 메뉴의 Catalog 선택하시고 나오는 팝업 메뉴에서 Create Table 클릭하시면 나오는 메뉴에 보시면 DBFS Target Directory 밑에 Files에 Drop files to upload, or click에다가 Local PC에 있는 파일을 드래그하셔서 올리시면 파일을 Upload 하는 것 까지는 똑같은데 dbfs 메뉴가 사라졌군요. 하지만 upload 해보시면 upload 화면 밑에 "File Uploaded to /FileStore/tables/파일명" 이 나오는 것을 확인하실 수 있습니다. create table with ui, create table in notebook 버튼은 안누르셔도 됩니다(강의에서도 누르지 않습니다)감사합니다.
- 0
- 2
- 26
Q&A
라소,릿지 gridsearchcv에서 알파값관련
안녕하십니까특별한 기준은 없습니다. 말씀하신대로 경험치적인 부분도 있습니다. 예를 들어 라쏘 같은 경우 소수점 이하 좀 작게 값을 설정해서 올리며 시작하는 등 경험치로 값을 설정하였습니다 감사합니다
- 0
- 2
- 26
Q&A
사이킷런을 이용한 GMM 군집화 실습 강의 중 질문입니다.
안녕하십니까, 해당 부분은 군집화에 대한 부분이 아니고, 샘플 데이터를 만들기 위한 작업의 한 부분입니다. # make_blobs() 로 300개의 데이터 셋, 3개의 cluster 셋, cluster_std=0.5 을 만듬. X, y = make_blobs(n_samples=300, n_features=2, centers=3, cluster_std=0.5, random_state=0)위와 같이 make_blobs()로 샘플 데이터를 만들지만, 이걸 아래쪽으로 길게 늘어나는 타원형 형태의 데이터 세트로 그냥 만들 수 없습니다. 그래서 일정의 선형 변환을 하는데, 선형 변환을 하기 위해서 적용되는 값이 transformation = [[0.60834549,-0.63667341],[-0.40887717,0.85253229]] 입니다. 이건 회전 및 늘어나는 데이터 변환을 위해 원본 데이터에 적용하는 필터성 데이터라고 생각해 주시면 됩니다. 이걸 원본 X 데이터에 np.dot()을 transformation값을 적용하게 되면 transformation 값에 따라 회전 및 늘어나는 데이터 변환을 수행하게 됩니다. X_aniso = np.dot(X, transformation) 감사합니다.
- 0
- 1
- 23
Q&A
클러스터 버전 설정
10.4로 설치 하시면 될 것 같습니다. 테스트 결과 실습 코드 모두 정상 동작합니다. 감사합니다.
- 0
- 3
- 38
Q&A
클러스터 버전 설정
안녕하십니까, 아, 그러셨군요. 알려주셔서 감사합니다. 일단은 10.4 로 설치해서 강의 수강 부탁드립니다. 제가 실습코드가 호환되는 지 확인해 보도록 하겠습니다. 확인에 시간이 걸릴것 같습니다. 빨리 진행해서 이번주 주말까지 작업해 보도록 하겠습니다. 감사합니다.
- 0
- 3
- 38
Q&A
Consumer Group 강의 Lag 질문있습니다!
안녕하십니까, 2000건을 보내고, 2000건을 아직 읽지 않았으면, 2000건이 있는게 맞습니다. 하지만, 적어주신 글 자체로는 어떻게 메시지를 2000건을 보내신건지, 2000건이 맞게 간 건지, 1300건이 lag로 어떻게 되어 있는지 확인할 수 없군요. . 제 생각엔 2000건이 제대로 간 건지 다시 확인해 보시면 어떨까 싶습니다만, 어쩧든, 2000건을 보내신 utility 명령어등으로 2000건이 명확히 보내진 스크린 캡처와, 1300건이 lag로 되어 있는 스크린 캡처를 여기에 올려봐 주시면 제가 상황을 판단하는데 도움이 될 것 같습니다. 감사합니다.
- 0
- 2
- 36
Q&A
1인지 M인지는 결국엔 테이블을 직접 확인을 해야 하는걸까요?
안녕하십니까, 1인지 M인지는 결국엔 테이블을 직접 확인을 해야 하는걸까요?=> 직접 확인이 어느 레벨인지 까지는 잘 모르겠지만, 테이블의 group by나 count를 하는 것을 직접 확인이라고 한다면, 연결할 key로 테이블에 Primary key가 잡혀 있으면 테이블을 직접 확인하지 않고 해당 primary key로 1인지 M인지 판단할 수 있습니다. 가려 emp의 pk가 empno이고 emp_salary_hist의 pk가 empno+ fromdate 라면 pk만 가지고도 emp와 emp_salary_hist는 empno로 1:M인 것을 확인 할 수 있습니다. 테이블을 열어서 봤을 때 on에서 서로 연결할 키들의 중복들이 많으면 이 테이블은 M이고 유니크하면 1이 된다 라고 이해하면 될까요?=> 네 맞습니다. 그래서emp_salary_hist,emp_dept_hist,emp는 m이고dept는1 로 이해 했는데 맞게 이해한 건지 궁금합니다. => 음, 질문을 제대로 이해하지 못했습니다만, 테이블별로 정리해서 말씀드리자면emp와 emp_salary_hist는 empno로 1:M 입니다. emp와 emp_dept_hist는 empno로 1:M이며, dept와 emp_dept_hist는 마찬가지로 deptno로 1:M 입니다. 그리고 dept와 emp는 deptno로 1:M 입니다. 감사합니다.
- 0
- 2
- 40
Q&A
강의 설명 및 코드 정리
안녕하십니까, 네 가능합니다. 아래 인프런 AI 답변에서와 같이 강의 내용이나 강의 자료를 복사하지 않고 본인만의 정리 내용으로 출처를 밝히시고 블로그에 올려 주시면 됩니다.소스코드의 경우 지나치지 않게 적절한 수준에서 정리해서 올리시면 좋을 것 같습니다.감사합니다.
- 0
- 2
- 67