제조 도메인에서의 데이터 분석과 AI 활용
서론
제조 분야는 기업 데이터를 사용해야하는 경우가 대부분이라 데이터 공개가 비교적 보수적입니다. 그래서 더욱 데이터 관련 분야에서 제조 도메인에 대한 정보를 얻기 어려운데요, 현업에서 하는 업무가 궁금하셨던 취준생이나 타분야 분들께 많은 도움이 되길 바랍니다 :)
제조 도메인에서 DS로 일하며 직간접적으로 경험한 데이터 분석 업무에 대해 소개하겠습니다 !
사실 이 글은 제조 도메인이 뭔지도 모르던 취준생 시절의 제가 정말 궁금했던 글이 될 것 같습니다. (과거의 저에게 보여주고 싶네요..)
실제로 대한민국의 많은 회사가 제조업과 관련되어 있고, 그에 따라 제조 분야에 특화된 데이터 분석가 / 데이터 사이언티스트가 많이 필요한 것 같습니다. 그러나 많은 취준생들은 이 분야에서 어떤 데이터를 활용하는지도 잘 모르는 상태입니다. 보통 산업공학과가 아니면 접하기 쉽지 않은 데이터와 분야인 것 같아요. 제 경험상으로도 취업을 준비하며 사이드 프로젝트를 하거나 공모전에 참여해도 주로 공공 , 금융, 마케팅 분야의 데이터를 주로 접하게 됩니다.
따라서, 이 글은 제조 도메인, 특히나 화학 분야에서의 데이터 활용 방안이 궁금한 많은 취준생/이직러와 타분야가 궁금한 데이터 및 AI 업계 종사자들이 읽어주시면 많이 좋겠습니다 !
제조 데이터 분석의 목표
제조 현장의 데이터를 어떻게 활용할까?
먼저, 공정 과정에서 수집되는 데이터는 다음과 같습니다.
- 설비 데이터 (ex. 온도, 속도, 스펙트럼 등)
- 품질 데이터 (ex. 물성 검사 결과 등)
- 생산시간 데이터
- 체류시간 데이터
- 결점 이미지 데이터
등의 데이터가 주로 사용됩니다.
데이터를 활용하는 목적은 아주 단순합니다.
1. 생산량 증가
2. 비용 감소 (원가 절감, 불량 감소)
3. 업무 자동화
→ 결론적으로 공정 최적화 목표
제조 도메인 특성 상, 현장에서 근무하시는 현업의 의견이 분석에 중요한 영향을 미치게 됩니다.
실무에서는 현업과 분석가가 협업을 하지만, 이 글에서는 주로 분석가의 입장에서 방법론적으로 작성되었습니다.
다양한 데이터셋을 어떤 분석 방법론을 가지고 분석하는지 알아봅시다.
제조 데이터 분석의 종류
불량 인자 도출
공정마다 풀리지 않는 불량 문제가 존재합니다. 특히 화학 공정의 경우 연속 공정이므로 하나의 불량은 다양한 변수에 의해 발생하는 경우가 많습니다.
불량을 일으키는 원인을 찾기 위해서 불량(event group)과 양품(control group)이 차이가 있는지 분석합니다.
최적 공정조건 (Golden Recipe) 도출
대부분 '불량 인자 도출'과 '최적 공정조건 도출'은 순차적으로 진행되는 경향이 많습니다.
불량 인자가 도출이 되면 best practice를 찾아, 그것을 최적 공정조건으로 제안합니다.
- 통계량 분석 (ex. 평균, 분산, 이상치 여부 등)
- 시각화 분석 (ex. conditinal boxplot, pararrel plot 등)
- 상관분석 (ex. x와 y 간의 상관관계, x 끼리의 다중공선성 등)
- y값에 영향을 미치는 주요 인자 분석 (ex. xgboost 활용 등)
- 회귀분석 (ex. x가 y에 얼마나 영향을 미치는지 등)
분석 목적에 따라 가설 설정이 가장 중요한 분석이라고 생각합니다. 경험적으로 실제 불량의 원인은 다변량적인데, 단변량 분석으로는 쉽게 결론을 짓기 어려운 문제가 많았습니다.
또한, 모든 설비의 데이터가 수집되지 않는 경우 불량의 원인을 찾지 못하는 경우도 있습니다.
추후에는 golden recipe을 찾는 과정도 AI를 활용하는 것으로 대체되지 않을까 생각합니다.
가상 계측 (품질 예측) 모델링
제품의 점도값과 같이 품질이 수치적으로 나오는 경우, 데이터로 예측하면 실험실에서 측정하는 시간과 비용을 줄일 수 있습니다. 또한, 실험실 측정도 human error가 존재하는데 정확도가 높은 가상 계측 모델을 통해 결과의 오차도 줄일 수 있습니다.
다른 분야와 크게 예측 모델링 방법은 다르지 않습니다.
주로 머신러닝 모델링이나 NN 계열의 딥러닝 모델을 많이 활용합니다.
제조업의 특성상, 공정 중단이 빈번하기 때문에 연속적인 시계열 데이터로 보기 어려운 점이 있습니다.
제조 분야만 특화되어있는 모델링이 있지는 않고 데이터에 맞는 모델과 튜닝 방법을 실험적으로 구축합니다.
현정 적용 후, 최대한 사람의 손이 타지 않도록 데이터가 추가됨에 따라 자동으로 튜닝이 되는 모델을 구축하고 있습니다.
가상 계측의 가장 큰 장점은 실시간으로 품질을 예측해, 공정 이상을 미리 감지할 수 있습니다.
이 또한 최적조건과 병행되면 가장 이상적인 방법이겠죠.
Vision 이미지 지능화
제품 외관 품질 검사를 위해, 결점(defect) 촬영하기 위한 Vision 카메라가 현장에 설치되어 있습니다.
Vision 카메라는 결점의 종류를 판별하지 못하고, 단순히 결점만 촬영해주는 설비입니다.
분석 방법론은 크게 3가지가 있습니다.
1. Image Classification (이미지 분류)
2. Object Detection (객체 탐지)
3. Image Segmentation (이미지 분할)
이미지 분류 기준이나 현장에서 원하는 결과를 고려해 3가지 방법 중 하나를 선택하여 모델링을 진행합니다.
수집 가능한 이미지의 개수나 이미지에 따라 다른 모델이 선정됩니다.
모델을 현장에 적용하면 실시간으로 어떤 결점이, 어느 위치에 발생하는지를 알 수 있습니다.
이 역시 현장 지능화를 촉진시키고, 추후 결점 분류 결과를 후데이터로 활용해 추가 분석도 가능합니다.
이미지 분석 방법론에 대해서는 다음글에 구체적으로 작성하도록 하겠습니다 :)