분류 전체보기 36

Day33. 머신러닝 결측치 인코딩/ TIL. 20240611

To do list.-머신러닝 활용 심화-통계 4회차 세션 결측치: 존재하지 않는 데이터 수치형데이터-평균값으로 대치-중앙값으로 대치(평균값이 대표성이 없는 경우) 범주형데이터-최빈값으로 대치 사용함수-간단한 삭제 / 대치# 인포 매서드로 결측치 확인 ( age와 cabin에서 결측치가 있음을 알 수 있다)titanic_df.info()RangeIndex: 891 entries, 0 to 890Data columns (total 12 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 PassengerId 891 non-null int64 1 Survived 891..

Day32. 데이터분석프로세스 / TIL. 20240610

To do list.- 코드카타-머신러닝 활용 심화-통계 세션 라이브 강의데이터분석 프로세스ML1.지도  -회귀(숫자를 맞춤)  -분류(범주)2.비지도3.강화 데이터 수집 -회사 내 데이터가 존재한다면    SQL 혹은 Python 을 통해 데이터 마트를 생성 -회사 내 Data가 없다면 → 데이터 수집 필요    방법1: CSV, EXCEL 파일 다운로드    방법2: API를 이용한 데이터 수집    방법3: Data Crawling    데이터 전처리 🚩밑의 코드블럭의 이상치발견식은 어느정도 외워두기 Extreme Studentized Deviation(ESD) 이용한 이상치 발견데이터가 정규분포를 따른다고 가정할 때, 평균에서 표준편차의 3배 이상 떨어진 값ESD를 이용한 처리import num..

Day31. 로지스틱 회귀 개념/ TIL. 20240607

To do list.-머신러닝 활용 기초 완강-코드카타  다중선형회귀🚩간단한 단순회귀분석과 달리 실제의 데이터들은 비선형적 관계를 가지는 경우가 많이를 위해서 X변수를 추가 할 수도, 변형할 수 도 있음 범주형 데이터 실습📌 데이터 선형회귀를 훈련 시켰지만 성능이 별로 좋지 않다는 것을 알게됨-> 그래서 성별과 같은 다른 데이터를 사용하고 싶어짐->그런데 문제는 성별데이터는 문자형이여서 숫자로 표현할 방법이 필요해짐 머신러닝 모델에 데이터를 훈련시킬려면 해당 데이터를 숫자로 바꿔야함성별, 날짜 와 같은 데이터를 범주형 데이터라고 부르며 이를 임의로 0,1 등에 숫자로 바꿀 수 있음. 이를 Encoding 과정이라 함📩머신러닝(ML) 숫자(회귀) -> 선형회귀범주/카테고리(분류) ->로지스틱 회귀 ?..

Day30. 선형회귀 실습 / TIL. 20240605

To do list.-머신러닝 강의-통계 세션 강의 / 복습 선형회귀 적용 실습 import sklearnimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsweights = [87,81,82,92,90,61,86,66,69,69]heights = [187,174,179,192,188,160,179,168,168,174]print(len(weights))print(len(heights))# 딕셔너리 형태로 데이터 생성body_df = pd.DataFrame({'height' : heights , 'weight' : weights})body_df.head(3)# weight와 height간의 산점도(..

Day29. 회귀분석 / TIL. 20240604

To do list.-코드카타-머신러닝 강의 회귀분석 - 선형회귀선형회귀의 데이터 사이언스틱한 발상=> 산점도에서 이를 대표할 수 있는 선형(직선)을 그으려고 할 때,  직선과 점의 간의 거리를 계산하는 것이다.이를 Erorr 라고 정의하고 최소의 Erorr인 직선을 그리면 된다...  *1번과 2번 3번의 점과 빨강 직선사이의 거리를 Erorr라고 명명하는데 이 Erorr를 최소화하는 직선의 위치로 설정!*각각 Erorr를 제곱하여 모두 더하기 (선분 밑에 값은 음수라 다 더하면 값이 상쇄됨 그래서 제곱하여 양수 에러의 총 값을 구하는 것)*전체 에러 합에 데이터의 갯수로 나누기 (데이터가 많아질수록 오차가 커지는 우려를 대비하여 데이터만큼 나눠서 평균값을 구해줌) 선형회귀 용어 Y는 종속 변수 / 결..

Day28. 머신러닝 기초 / TIL. 20240603

To do list.- 코드카타-통계 세션 1회차 복습-머신러닝 활용 기초머신러닝의 기초머신러닝과 관련한 용어AI: 인간의 지능을 요구하는 업무를 수행하기 위한 시스템Machine Learning: 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘Deep Learning: 인공신경망을 이용한 머신러닝Data science: AI를 포괄하여 통계학과 컴퓨터공학을 바탕으로 발전한 융합학문Data Analysis: 데이터 집계, 통계 분석, 머신러닝을 포함한 행위AI > 머신러닝(ML)> 딥러닝(DL) 머신러닝 => 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론               => 데이터 처리기술의 발전과 저장매체의 가격 하락으로 머신러닝의 급성장 머신러닝 종류 지도학습..

Day27. 코딩테스트 코드카타 기본 / TIL. 20240531

To do list.-알고리즘 / sql 코드카타-파이썬 세션 복습  알고리즘 코드카타def solution(n):     answer = []     str_n = str(n)     for i in range(0,len(str_n)):         answer.append(int(str_n[i]))     answer.reverse()     return answer str_n = str(n)=>예를 들어, n이 12345라면, str_n은 "12345"가 됨 즉, 숫자 12345가 문자열 "12345"로 변환  for i in range(0,len(str_n))=>여기서 range(0, len(str_n))는 0부터 len(str_n) - 1까지의 숫자를 생성len(str_n)은 문자열 str_n..

Day26. 통계 회귀 / TIL. 20240530

To do list.-알고리즘 / SQL 코드카타-통계학 강의 회귀 자료형 질적Qualitative 자료: 수칙 연산이 불가한 자료 범주형Categorical이라고도 함명목형Nominal: 이름, 성별과 같이 위계나 순서가 없는 자료순서형Ordinal: 학년 별점과 같이 순서가 있지만 사칙연산이 적용되기 어려운 자료양적Quantitative 자료: 수칙 연산이 가능한 자료연속형Continuous: 길이나 무게처럼, 분절되지 않고 연속적인 수치형 자료이산형Discrete: 개수와 같이 연속적이지 않은 수치형 자료 독립변수 / 종속변수독립변수 : 종속변수를 예측 설명하는 데 활용하는 번수종속변수 : 우리가 예측 혹은 설명하고자 하는 변수 선형회귀(Linear Regression)-평균으로의 회귀? 선형-> ..

Day25. 통계 가설 / TIL. 20240529

To do list-코드카타-통계학 강의-시각화 세션-(+파이썬 세션 복습) 통계적 가설 검정-주어진 자료가 특정 가설을 충분히 뒷받침하는지 여부를 결정하는 통계적 추론 방법 귀무 가설-기존의 통념이라 일반적으로 표현 대립 가설-새롭게 입증,주장하고자 하는 것-우리의 목표는 보통 귀무가설이 틀렸을 데이터로 증명하는 것 p-value와 귀무가설-귀무 가설이 정확하다는 가정 하에서 실제 관찰된 결과만큼 극단적인 검정 결과를 얻을 확률 신뢰수준과 오류1종 오류Type I Error: 귀무가설이 맞았는데 기각하는 것. 거짓 약팔이가 대표적인 예시2종 오류Type II Error: 귀무가설이 틀렸는데 기각하지 못하는 것. 연구비 날림이 대표적인 예시 다양한 t-test일표본One Sample t-test한 집단의..

Day24. 통계학 평균 / TIL. 20240528

to do list-코드카타-통계학 강의 평균우리가 일반적으로 생각하는 평균은 산술평균이다..그 외에도 수십가지 평균이 있고, 각 평균은 필요에 따라 적절히 사용되어야함=>평균은 데이터 집합을 가장 잘 나타내는 단일 숫자 또는 값임 / 세상에서 숫자로 측정 가능한 거의 모든것? 이다 왜도 Skewness=> 왜도는 특정한 방향으로 데이터가 쏠려있는 것 이상치Outlier=> 다른 관측치와 유의하게 다른 데이터인데 소수의 데이터가 평균에 크게 영향을 주기 때문에, 평균을 구할 때 제거하거나 변환하는 것이 일반적이다 (예를 들면 증권쪽 데이터에서 소수의 고객이 많은 비용 부분을 차지할때??) 다양한 평균대푯값 - 3M (M으로 시작하여 자주언급되는 평균 3개) 산술평균왜도와 이상치에 취약/중앙값왜도와 이상치..