분류 전체보기 (34) 썸네일형 리스트형 쉽게 정리하는 이상 탐지(Anomaly Detection) - 정의, 종류, 제조 분야에서의 활용 이상 탐지 (Anomaly Detection) 란? - 전체 데이터 중 특이한 패턴을 보이는 데이터를 찾는 모형을 만드는 방법 - 제조, 금융, 게임 등 다양한 분야에서 사용되는 분석 방법 이상탐지의 종류 - y값의 label 유무에 따라1. Unsupervised Anomaly Detection - 정답이 필요 없다, 즉 y값의 label이 필요없다. - 데이터 라벨링이 불가능한 상황에 많이 사용된다. 불량 발생 시점을 모를 때, 설비 이상을 예측하고 싶을 때 가장 유용하다. - 양/불 판정 정확도가 높지 않고, 주로 딥러닝 모델이기 때문에 hyper parameter에 매우 민감하다. ex) Auto-encoder 2. Semi-supervised Anomaly Detection ✨✨ - .. 제조 데이터에서의 전처리란? (2) (for 모델링) https://ss-doubt.tistory.com/38 제조 데이터에서의 전처리란? (1) (for 데이터셋 구성)0. 들어가며 데이터 분석가가 분석 프로젝트를 진행할 때 80%의 시간을 전처리에 사용한다고 합니다. 데이터 사이언티스트도 마찬가지, 모델링을 하기 위해서는 내가 원하는 형식의 데이터 셋 구ss-doubt.tistory.com 0. 들어가며지난 글에서는 데이터 전처리 과정에 대해 알아봤는데요 !이번에는 모델링 과정에 대해 자세히 글을 작성해 보겠습니다. 이번 모델링의 경우 제조 분야에서 "가상 계측"이라고 흔히 불리는 품질/물성 예측 모델링을 중점적으로 이야기하겠습니다. 즉, 다양한 공정 변수(X)를 활용하여 물성값(Y, 정형 데이터, 숫자형)을 예측하는 모델링 과정입니다. [그림1]은 실.. 제조 데이터에서의 전처리란? (1) (for 데이터셋 구성) 0. 들어가며 데이터 분석가가 분석 프로젝트를 진행할 때 80%의 시간을 전처리에 사용한다고 합니다. 데이터 사이언티스트도 마찬가지, 모델링을 하기 위해서는 내가 원하는 형식의 데이터 셋 구축이 필수적입니다. 제조 데이터를 활용한 예측 모델링 업무를 수행하며 대부분의 전처리 방식은 동일하나, 일부는 제조 도메인에서 자주 사용된다는 것을 알게 되었습니다. 이 글은 데이터 전처리에 대한 기본적인 지식을 가지고 있으며, 제조 도메인이 궁금한 분들에게 추천드립니다. 1. 데이터 전처리 (Data Preprocessing) 이란? 데이터 분석을 흔히 요리로 비유하는데요, 전처리는 요리의 재료를 손질하는 부분이라고 말합니다.채소를 씻고, 적당한 크기로 자르고, 필요없는 부분은 버리기도 하죠. 그래야 재료 준비가 완.. 제조 도메인에서의 데이터 분석과 AI 활용 서론 제조 분야는 기업 데이터를 사용해야하는 경우가 대부분이라 데이터 공개가 비교적 보수적입니다. 그래서 더욱 데이터 관련 분야에서 제조 도메인에 대한 정보를 얻기 어려운데요, 현업에서 하는 업무가 궁금하셨던 취준생이나 타분야 분들께 많은 도움이 되길 바랍니다 :) 제조 도메인에서 DS로 일하며 직간접적으로 경험한 데이터 분석 업무에 대해 소개하겠습니다 ! 더보기 사실 이 글은 제조 도메인이 뭔지도 모르던 취준생 시절의 제가 정말 궁금했던 글이 될 것 같습니다. (과거의 저에게 보여주고 싶네요..) 실제로 대한민국의 많은 회사가 제조업과 관련되어 있고, 그에 따라 제조 분야에 특화된 데이터 분석가 / 데이터 사이언티스트가 많이 필요한 것 같습니다. 그러나 많은 취준생들은 이 분야에서 어떤 데이터를 활용하.. [오류 해결/tensorflow] AttributeError: 'Adam' object has no attribute 'get_updates' 1. 오류 AttributeError: 'Adam' object has no attribute 'get_updates' 생각없이 같은 코드를 돌리다가 발생한 오류였습니다 .. 기존 개발 환경은 keras 및 tensorflow가 2.8 버전이었고, 새로운 환경이 2.15 버전이라 오류가 생긴 것으로 'get_updates'를 보자마자 예상이 되었습니다. 공식 문서를 확인해보니 optimizer의 업데이트가 있었다고 하네요! 2. keras 버전에 따른 코드 수정 - keras 2.8.0 버전 optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate) - keras 2.15.0 버전 optimizer = tf.keras.optimizers.lega.. 신입 데이터 사이언티스트의 2023년 업무 회고록 0. 구구절절 서론일주일 중 5일, 하루에 7시간을 일하는 직장인으로 업무 회고록이 필수적이라 느껴진다.최소 6개월에 한번은 정기적으로 써서 업무의 방향성과 직무 적합성에 대해 돌아보기 위해 회고록을 쓴다. 데이터 분석가 겸 사이언티스트로 어쩌다 짧은 취준 기간 끝에 취업을 하게 되었고, 4월부터 3개월 인턴십을 거쳐, 5개월째 정규직으로 일하고 있다. 인턴 시절 작성한 글을 요약하면 아래와 같다. 종합 - 분석 기획, 문서 작업, sql 및 python 사용이 공통적으로 도움이 될 것 같다.- Power bi는 자격이나 우대에 있으면 좋아서 이것 또한 괜찮고, 노코딩 툴은 음.. 잘 모르겠다. 오히려 분석 인력양성 교육으로 어필할 수 있지 않을까 싶다. 이랬다고 한다.꽤나 솔직하고 은근 정확하다.. [논문 리뷰] EfficientNet : Rethinking Model Scaling for Convolutional Neural Network 2019년에 나온 논문이지만 아직도 Computer Vision 분야에서 많이 쓰이는 EfficientNet 논문 리뷰입니다. [ 논문 링크 ] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks | Papers With Code Papers with Code - EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 🏆 SOTA for Medical Image Classification on NCT-CRC-HE-100K (Accuracy (%) metric) paperswithcode.com We demonstrate the effectiveness .. [논문 리뷰] Melt Index 예측 모델링 사례 - DNN, GPR 1. Data-based Melt Index Prediction in Styrene-Acrylonitrile Polymerization Process (2021.06) - 실제 공정 데이터를 사용해 6가지 모델의 예측 성능 테스트 실시 - 학습 데이터 : 1,029개 / 테스트 데이터 : 115개 Y : MI 값 - 4시간마다 실험을 통해 얻어지며, 두 등급의 고분자에서 서로 다른 범위를 가짐) X : 9개 측정 변수 - 각 단량체의 유량 및 재사용 단량체의 총 유량과 개시제 유량, 각 반응기의 온도 및 압력 등을 센서를 통하여 1시간마다 측정 - MI가 측정된 시간부터 이전 4시간 동안 입력 변수들의 평균값을 계산하여 모델의 입력으로 사용 - 두 가지 등급의 고분자 생산 데이터가 혼재되어 있으며 공정의.. 이전 1 2 3 4 5 다음