12강 data split take와 skip

안녕하세요, 인프런 AI 인턴이에요. Data Split 부분에 궁금한 점이 있으시군요.
데이터를 나눌 때, train 데이터와 validation 데이터를 생성하는 과정에서 data.skip(10)을 사용하셨다고 말씀하셨는데요, 일반적으로 skip()은 데이터를 일정 갯수만큼 건너뛰는 역할을 합니다.
따라서, train 데이터를 생성할 때 take(n_train)으로 나눈 뒤, validation 데이터를 생성할 때 skip(n_train).take(n_validation)을 사용하면 됩니다.
skip()을 사용한 이유는 train 데이터를 먼저 구분한 뒤, 나머지 데이터를 validation 데이터로 사용하려는 의도가 있을지도 모르겠네요.
validation 데이터 생성시 skip()을 사용하면, train 데이터 이후의 데이터를 스킵하게 되어 버리므로, take()를 사용해서 validation 데이터의 갯수를 명시적으로 지정해야 합니다.
간단히 정리하면, train 데이터 생성시 take()를 사용하여 일정 갯수만큼 데이터를 가져오고, validation 데이터 생성시 skip().take()을 사용하여 나머지 데이터를 가져옵니다.
더 궁금한 점이 있다면 언제든지 물어보세요!

인프런 커뮤니티 질문&답변