-
프로젝트 진행 중 새로 알아간 내용
- 결측치 처리 방법
- 결측치 확인
- isnull(), isna(), isin([])
- 결측치 제거
- dropna : NaN 값 제거, row, column 제거
- drop : 이상치까지 제거 가능
- 결측치 채우기
- pad/ffill : 바로 앞 행의 값으로 채우기
- bfill/backfill : 바로 뒤 행의 값으로 채우기
- fillna(원하는 값) : 원하는 값 넣기
- df.interpolate(method='linear',limit_direction='forward') : 보간법 활용
- 데이터 타입 변경
- astype() : 변수에 할당 필요
- set_index, reset_index : 원치않는 col 인덱스 전환 후 전체 astype 진행
- astype( { ’열’ : ‘type’ } ) : 일부 col 타입만 변경
- 특정 값이 들어간 행 제거
- 여러 열의 행값들 더해서 새로운 Feature 만들기
-
오늘 한 사항
- 프로젝트 작업 순서, 틀 정리
- 데이터 Cleaning (결측치 행 제거, 데이터 타입 변경, 이상치(K,M 문자열 포함) 행 제거)
- 기술 통계치 확인
- Feature Engineering(total_sales 열 생성)
- 상관계수 확인, Heatmap, barplot 시각화
- Scaling 간단하게 시도
-
앞으로 할 사항
- 작업 순서 재정리
- 기존 Feature들을 가지고 시각화 EDA
- Groupby를 활용한 새로운 Feature Engineering
- 새로운 Feature 들과 함께 시각화 EDA
- 가설 설정 및 검증
- Scaling, PCA, Clustering 알고리즘들을 활용해 새로운 인사이트 확보
- 시간이 남는다면 결측치 및 이상치 처리를 다른 방식으로 해서 결과보기