• 프로젝트 진행 중 새로 알아간 내용

    • 결측치 처리 방법
      • 결측치 확인
        • isnull(), isna(), isin([])
      • 결측치 제거
        • dropna : NaN 값 제거, row, column 제거
        • drop : 이상치까지 제거 가능
      • 결측치 채우기
        • pad/ffill : 바로 앞 행의 값으로 채우기
        • bfill/backfill : 바로 뒤 행의 값으로 채우기
        • fillna(원하는 값) : 원하는 값 넣기
        • df.interpolate(method='linear',limit_direction='forward') : 보간법 활용
    • 데이터 타입 변경
      • astype() : 변수에 할당 필요
        • set_index, reset_index : 원치않는 col 인덱스 전환 후 전체 astype 진행
        • astype( { ’열’ : ‘type’ } ) : 일부 col 타입만 변경
    • 특정 값이 들어간 행 제거
      • 잘 제거된지 어떻게 확인?
    • 여러 열의 행값들 더해서 새로운 Feature 만들기
      • sum(axis=1)
  • 오늘 한 사항

    • 프로젝트 작업 순서, 틀 정리
    • 데이터 Cleaning (결측치 행 제거, 데이터 타입 변경, 이상치(K,M 문자열 포함) 행 제거)
    • 기술 통계치 확인
    • Feature Engineering(total_sales 열 생성)
    • 상관계수 확인, Heatmap, barplot 시각화
    • Scaling 간단하게 시도
  • 앞으로 할 사항

    • 작업 순서 재정리
    • 기존 Feature들을 가지고 시각화 EDA
    • Groupby를 활용한 새로운 Feature Engineering
    • 새로운 Feature 들과 함께 시각화 EDA
    • 가설 설정 및 검증
    • Scaling, PCA, Clustering 알고리즘들을 활용해 새로운 인사이트 확보
    • 시간이 남는다면 결측치 및 이상치 처리를 다른 방식으로 해서 결과보기