본문 바로가기

DATA ANALYSIS

(8)
쉽게 정리하는 이상 탐지(Anomaly Detection) - 정의, 종류, 제조 분야에서의 활용 이상 탐지 (Anomaly Detection) 란?  - 전체 데이터 중 특이한 패턴을 보이는 데이터를 찾는 모형을 만드는 방법 - 제조, 금융, 게임 등 다양한 분야에서 사용되는 분석 방법  이상탐지의 종류 - y값의 label 유무에 따라1. Unsupervised Anomaly Detection  - 정답이 필요 없다, 즉 y값의 label이 필요없다. - 데이터 라벨링이 불가능한 상황에 많이 사용된다. 불량 발생 시점을 모를 때, 설비 이상을 예측하고 싶을 때 가장 유용하다. - 양/불 판정 정확도가 높지 않고, 주로 딥러닝 모델이기 때문에 hyper parameter에 매우 민감하다.   ex) Auto-encoder  2. Semi-supervised Anomaly Detection ✨✨ - ..
제조 데이터에서의 전처리란? (2) (for 모델링) https://ss-doubt.tistory.com/38 제조 데이터에서의 전처리란? (1) (for 데이터셋 구성)0. 들어가며 데이터 분석가가 분석 프로젝트를 진행할 때 80%의 시간을 전처리에 사용한다고 합니다. 데이터 사이언티스트도 마찬가지, 모델링을 하기 위해서는 내가 원하는 형식의 데이터 셋 구ss-doubt.tistory.com 0. 들어가며지난 글에서는 데이터 전처리 과정에 대해 알아봤는데요 !이번에는 모델링 과정에 대해 자세히 글을 작성해 보겠습니다. 이번 모델링의 경우 제조 분야에서 "가상 계측"이라고 흔히 불리는 품질/물성 예측 모델링을 중점적으로 이야기하겠습니다. 즉, 다양한 공정 변수(X)를 활용하여 물성값(Y, 정형 데이터, 숫자형)을 예측하는 모델링 과정입니다. [그림1]은 실..
제조 데이터에서의 전처리란? (1) (for 데이터셋 구성) 0. 들어가며 데이터 분석가가 분석 프로젝트를 진행할 때 80%의 시간을 전처리에 사용한다고 합니다. 데이터 사이언티스트도 마찬가지, 모델링을 하기 위해서는 내가 원하는 형식의 데이터 셋 구축이 필수적입니다. 제조 데이터를 활용한 예측 모델링 업무를 수행하며 대부분의 전처리 방식은 동일하나, 일부는 제조 도메인에서 자주 사용된다는 것을 알게 되었습니다. 이 글은 데이터 전처리에 대한 기본적인 지식을 가지고 있으며, 제조 도메인이 궁금한 분들에게 추천드립니다. 1. 데이터 전처리 (Data Preprocessing) 이란? 데이터 분석을 흔히 요리로 비유하는데요, 전처리는 요리의 재료를 손질하는 부분이라고 말합니다.채소를 씻고, 적당한 크기로 자르고, 필요없는 부분은 버리기도 하죠. 그래야 재료 준비가 완..
제조 도메인에서의 데이터 분석과 AI 활용 서론 제조 분야는 기업 데이터를 사용해야하는 경우가 대부분이라 데이터 공개가 비교적 보수적입니다. 그래서 더욱 데이터 관련 분야에서 제조 도메인에 대한 정보를 얻기 어려운데요, 현업에서 하는 업무가 궁금하셨던 취준생이나 타분야 분들께 많은 도움이 되길 바랍니다 :) 제조 도메인에서 DS로 일하며 직간접적으로 경험한 데이터 분석 업무에 대해 소개하겠습니다 ! 더보기 사실 이 글은 제조 도메인이 뭔지도 모르던 취준생 시절의 제가 정말 궁금했던 글이 될 것 같습니다. (과거의 저에게 보여주고 싶네요..) 실제로 대한민국의 많은 회사가 제조업과 관련되어 있고, 그에 따라 제조 분야에 특화된 데이터 분석가 / 데이터 사이언티스트가 많이 필요한 것 같습니다. 그러나 많은 취준생들은 이 분야에서 어떤 데이터를 활용하..
[오류 해결/sklearn] DataConversionWarning: A column-vector y was passed when a 1d array was expected. 모델을 돌리다보면 심심찮게 오류가 발생한다. 이건 warn이라 모델이 알아서 하긴 하는데 오류는 최대한 안 보는게 좋으니 해결해보자. DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples,), for example using ravel(). 데이터를 1차원 배열로 넣어달라. ravel()을 이용하면 된다. 상당히 친절하다. 하지만 이렇게 대충하면 오류가 생긴다. 현재 내 데이터에서 y_train은 Dataframe 형태이다. 왜냐면 내가 그렇게 만들었기 때문이다. RandomForestClassifier(n_estimators=100)...
[오류 해결/numpy 버전 확인] TypeError: ufunc 'isfinite' not supported for the input types! The signature was () -> unhandle 오류 해결 from keras.models import Sequential from keras.layers import Dense, Activation from keras.layers import LSTM, GRU from tensorflow.keras.callbacks import EarlyStopping import itertools import sklearn.gaussian_process as gp keras를 import하는 과정에서 오류가 발생했다. 사실은 처음부터 오류가 발생한 것이 아니라, 코딩을 하는 과정에서 여러 라이브러리를 install 하는 과정에서 발생했다. 설치가 잘 안 되는 경우에는 'pip install --user ~~' 등의 명령어를 쓰다보면 이미 깔려 있는 라이브러리가 uninsta..
[데이터리안] WEEK1 EDA 과제 : US E-Commerce Records 2020 Q. records 테이블, customer_stats 테이블에 각각 어떤 데이터들이 들어있는지 테이블에서 데이터를 10개만 뽑아서 확인해봅시다. records 테이블의 한 행은 주문 1개를 의미하나요? SELECT * FROM records LIMIT 10 아니다. order_id가 겹치는 경우가 많음. 한 행은 상품 한 개를 의미함. Q. records 테이블에 들어있는 'JP-15520' 유저의 데이터를 확인해봅시다. SELECT * FROM records WHERE customer_id = 'JP-15520' -- 해당 유저가 주문을 한 횟수는 몇 번인가요? 2번 SELECT COUNT(DISTINCT order_id) AS total_order FROM records WHERE customer_..
[SQL] 클래식 리텐션(classic retention) 분석 solvesql 플레이그라운드에서 제공하는 US E-commerce Records 2020 데이터를 사용했다. solvesql - 플레이그라운드 solvesql - 플레이그라운드 플레이그라운드 다양한 데이터에 자유롭게 SQL을 적용해보며 데이터 분석 역량을 키워보세요. solvesql.com -- 전처리한 TABLE은 WITH로 처리 후 저장 WITH records_preprocessed AS( SELECT r.customer_id , r.order_id , r.order_date , c.first_order_date , DATE_FORMAT(r.order_date, '%Y-%m-01') AS order_month , DATE_FORMAT(c.first_order_date, '%Y-%m-01') AS f..