6.1 작업 정의6.1.1 문제 정의입력 데이터는 무엇인지?예) 영화 리뷰와 감성 테이블 태깅 → 영화 리뷰의 감성 분류 학습당면한 문제가 어떤 종류인지?이진분류/다중분류, 스칼라회귀/벡터회귀 등예) 스팸감지/신용 카드 부정 거래 감지 프로젝트는 이진 분류 작업기존 솔루션은 어떤 것이 있는지?스팸 필터링/신용카드부정거래감지 → if문 구성 수동 알고리즘어떤 시스템으로 어떻게 일하고 있는지 이해 고려해야 할 특별한 제약?예) 스팸감지시스템 : 엔드-투-엔드 방식(암호화)6.1.2 데이터 수집대표성 없는 데이터 주의훈련 데이터가 제품 환경의 데이터를 대표하지 못함(학습 품질과 실제 품질의 차이)샘플링 편향 문제선거 당선 예측 → 실패이유: 전화설문결과 신뢰-투표 인구를 랜덤하게 대표한 샘플X. 즉 데이터 ..