본문 바로가기

Book Review/[혼공머신] 리뷰12

데이터 전처리 기초 with python (2) 이번 포스트에서는 머신러닝에서 올바른 결과 도출을 위해 데이터 전처리 하는 법을 예제 코드를 통해 알아보겠습니다. 그 중 표준 점수로 특성의 스케일을 변환하는 법에 대해 알아보도록 하겠습니다. 데이터를 먼저 준비하겠습니다. 이전 포스트에서 계속 다루던 도미와 빙어 데이터로 준비했습니다. import numpy as np fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0,.. 2022. 11. 24.
데이터 전처리 기초 with python (1) 이번 포스트에서는 파이썬을 활용하여 데이터 전처리 하는 방식에 대해 혼공머신 예제를 통해 알아보도록 하겠습니다. 1. 지도학습(supervised learning)이란? 들어가기에 앞서, 지도학습(supervised learning)과 비지도학습(unsupervised learning)에 대해 알아보겠습니다. 이전 포스트에서는 knn 알고리즘을 활용하여 도미와 빙어를 구분하는 간단한 머신러닝 모델을 만들어 보았습니다. 도미와 빙어를 구분하기 위해서는 어떠한 데이터가 필요했는지 기억이 나시나요? 도미, 빙어의 길이와 무게 데이터와 각각의 길이, 무게 데이터가 도미인지 빙어인지 정답을 알려주는 정답 데이터가 있었습니다. 이처럼 입력(input, 여기서는 도미와 빙어의 길이,무게), 타깃(target, 도미,.. 2022. 11. 23.
k-최근접 이웃을 통한 분류 모델 훈련 혼공머신에 첫번째 챕터에서는 k-최근접 이웃(knn)을 통해 생선 이름을 자동으로 알려주는 머신러닝을 만듭니다. 생선 데이터셋은 캐글에 공개된 데이터 셋입니다. http://www.kaggle.com/aungpyaeap/fish-market Fish market Database of common fish species for fish market www.kaggle.com 1. 생선 분류 문제 fish market 데이터에는 다양한 생선 데이터가 들어있습니다. 이 데이터를 통해 생선을 분류하는 게 우리의 목적입니다. 그렇다면 어떠한 기준으로 생선을 나눠야 잘 분류했다고 할 수 있을까요? 생선의 크기와 길이 혹은 무게와 같은 절대적인 기준으로 분류를 하는 것은 부적절합니다. ex) "50cm가 넘으면 도미.. 2022. 11. 16.