[기고] 스마트 제조를 더 스마트하게 만드는 빅데이터 분석의 5가지 방법-아이씨엔매거진

스마트 제조 분석의 현재와 한계

제조업, 특히 하이테크 제조분야에서는 인더스트리 4.0(Industry 4.0)과 스마트 공장(Smart Factory)과 같은 새로운 방법의 모색을 통하여 끊임없이 변화하는 시장 요구사항에 대응함으로써 혁신적인 제품을 더 빨리 제공할 수 있는 방법을 찾는데 노력을 기울이고 있습니다. 이러한 노력과 더불어 IoT 기반의 센싱(Sensing) 기술이 발전하면서 이전에 수집하지 못하던 다양한 데이터를 측정할 수 있게 되었고, 네트워크 기술의 발전을 통해 측정된 데이터를 빠르게 저장소로 이동시킬 수 있게 되었죠. 또한 Hadoop과 Spark와 같은 오픈소스 기술의 발전으로 인해 적은 비용으로 대용량 데이터를 저장하고 빠른 속도로 분석이 가능하게 되었습니다.

그럼에도 불구하고 설비 로그 및 센서 데이터를 통해 불량 원인을 빠르게 찾아 조치하는 것이 무엇보다 중요한 하이테크 업종의 제조 공정의 특성상, 여전히 빅데이터 분석 과정의 이슈는 존재합니다. 수 년 전부터 지금까지 생산 공정의 미세화가 지속적으로 진행되면서, 각 공정 별 설비/센서에서 생산되는 데이터는 폭발적으로 증가했고, 기존 방식으로는 이렇게 증가한 데이터를 활용하여 적시에 불량 원인을 찾는 것은 한계가 있기 때문입니다. 위에서 언급한 바와 같이, 2010년대부터 빅데이터 분석 기술이 발전하면서 어느 정도 대용량의 처리가 가능하기 시작했고, 더 빠른 분석을 시도하게 되었으나, 빅데이터를 단순히 분산/병렬 처리하는 기술만으로는 제조현장의 분석 요구를 충족할 수 없는 것이 현실입니다.

이렇듯 스마트 제조를 위해 기초가 되는 데이터를 수집하고 분석할 수 있는 기술적/이론적 환경은 갖추어졌으나, 제조현장에서는 이렇게 수집된 데이터를 실제로 분석하는 작업을 수행하는 관점에서 해결해야 이슈들이 존재하고 있는 것입니다.

이번 아티클에서는 현재의 스마트 제조에서의 빅데이터 분석 과정에서 해결되어야 하는 문제점을 크게 ‘분석 성능’, ‘데이터 추출’, ‘데이터 특성’, ‘분석 방법론’, ‘시각화’ 등 5개 항목으로 정의하고, 이에 대한 해결책을 사례 중심으로 설명함과 동시에 빅데이터 분석 솔루션이 갖추어야 할 기술적 특성에 대해 살펴보겠습니다.

성공적인 빅데이터 분석의 필요 조건

1. 빅데이터 분석처리 성능
빅데이터 기술이 본격화 되기 이전에는 전체적인 데이터를 보지 못하고 일부 데이터만을 샘플링을 통해 분석을 수행했기 때문에 전체 데이터를 분석해야만 알 수 있는 교호작용 분석 등을 시도하기가 어려웠습니다. 이후, 빅데이터 기술이 급격히 발전함에 따라 전체 데이터 분석이 가능하게 되었음에도 빅데이터 분석이 생각보다 빨리 저변이 확산되지 않은 이면에는 증가한 데이터의 양만큼 데이터 분석에 걸리는 시간도 비례하여 증가하면서 실질적인 효과를 얻기 어려웠기 때문이죠. 빅데이터 분석이 실효성을 얻기 위해서는 대용량의 데이터를 저장 및 단순 조회만할 뿐만 아니라 예측분석과 같은 고급분석에 있어서도 기존처럼 짧은 시간 안에 결과를 얻을 수 있는 고속 분석 성능이 필요하게 되었습니다. 이는 제조현장의 불량 분석이나 공정 분석 등이 짧아질수록 원가 절감 및 매출 향상에 막대한 영향을 줄 수 있기 때문에 고속의 분석시간 기능을 가장 중요한 첫 번째 이슈로 살펴보겠습니다.

[그림1]은 사후분석에서 자주 활용되는 Duncan test를 데이터분석에 일반적으로 사용되는 통계패키지인 오픈소스 R을 통하여 수행한 결과입니다.

실제 제조현장에서 발생하는 데이터는 하루에만 수십 TB의 데이터가 발생하기도 하는데, 테스트데이터를 1GB 까지만 테스트를 하여도 오픈소스 R은 데이터 크기에 비례하여 실행시간이 급격하게 증가하므로 대용량 데이터 분석에는 적합하지 않습니다. 이는 오픈소스 R이 실행되는 서버의 메모리 크기에 성능이 종속적이기 때문이며, 이는 대용량 제조 데이터의 분석에서는 대용량 데이터를 분석할 수 있는 툴이 필요함을 보여주고 있죠. 비교로 사용된 SDS Brightics AI과 같이 Spark 기반으로 병렬 및 분산처리가 가능한 대용량 분석 솔루션은, 데이터의 크기에 상관없이 성능을 유지할 수 있는 확장성(Scalability)을 기본적으로 제공합니다.

2. 효율적인 데이터 추출
막대한 데이터를 처리하기 위해서 빅데이터 라이프사이클에 대한 거버넌스가 필요하게 되었습니다. 그 중에서 초기단계인 데이터를 수집/저장하여 Data Lake를 구축하는 것은 많은 기업에서도 성공적으로 운영을 하고 있습니다. 하지만 Data Lake에서 데이터를 추출하여 각 분석 단계로 데이터를 흘려 보내는 과정에서 느린 데이터 추출 속도 및 저장 공간의 비효율성이 시급한 개선 사항이 되고 있죠. 전통적인 분석에서는 분석용 Data Mart를 별도로 구축하고 이 Data Mart에서 데이터를 가져와 분석을 수행합니다. 하지만 일부 현장에서는 시시각각 쌓이는 데이터를 매번 Data Mart로 구축하는 과정이 불필요해지면서, 각 분석 시스템이 Data Lake에서 데이터를 필요할 때 가져와서 분석하려는 시도를 하고 있습니다. 이를 위해서 Data Lake에 부하를 최소화 하면서 빠른 속도로 데이터를 추출해주는 기술이 필요하게 되었습니다.

데이터 분석을 위한 기본 데이터는 제조 공장에 설치된 수만 개의 센서로부터 나옵니다. 이 센서 데이터들이 저장되는 장소로 처음부터 Hadoop기반으로 적재를 할 수도 있고 현재 시중에 Hadoop에 통합되어 적재된 데이터를 바로 분석할 수 있는 솔루션들이 출시되고 있지만, 아직까지 대부분의 제조현장에서는 관계형 데이터베이스로 구축되어 저장되어 있습니다.

데이터베이스에 저장된 데이터를 빅데이터 분석 시스템으로 가져오기 위해 많이 사용되는 표준 인터페이스로는 Java 환경을 위한 JDBC(Java Database Connectivity)가 있으나, 이는 데이터를 분산하여 저장하고 병렬처리 하는 빅데이터 분석환경에 적합하지 않습니다. 이를 해결하기 위해 많은 소프트웨어들이 다중쿼리 방식을 활용하죠. 그러나 다중쿼리 방식 역시 쿼리에 대한 응답속도 보장에 한계가 있고, 복잡한 쿼리일수록 데이터베이스의 부담이 급격하게 증가하게 되는 이슈가 존재합니다. 또한, 서버의 수만큼 연결이 생성되기 때문에 데이터베이스의 가용성을 떨어뜨리는 점, 전체 데이터의 분산처리 능력을 높이거나 낮추기 어렵다는 점, 모든 서버가 데이터베이스와 연결이 가능해야 한다는 점 등이 문제점으로 지적되고 있습니다.

이와 같은 문제점들을 개선하기 위하여 대용량 데이터를 위한 새로운 추출기능이 필요합니다. 이 추출기능이 제공하는 핵심기술은 마스터 서버가 데이터베이스와 JDBC연결을 생성하고 이들 서버간에 주고받는 패킷데이터를 기반으로 가상의 데이터베이스 접속환경을 제공하여, 슬레이브 서버(Slave Server)들에게 균등하게 데이터가 분산되게 하는 것입니다. 또한, 마스터서버의 실제 쿼리수행이 끝난 시점에 이미 데이터가 슬레이브 서버들에게 균등하게 분배되어 재균등화 (rebalancing 및 repartitioning)와 같은 후처리 작업이 필요없도록 데이터의 로컬리티(locality)가 보장되어야 합니다. 이는 추출 후 수행하는 분석작업의 병렬처리 속도를 비약적으로 향상시키기 때문에, 전체적인 분석모델의 수행시간이 크게 감소하게 됩니다.

제조 공장의 빅데이터 분석의 경우 원시데이터를 추출하는 쿼리를 조금씩 바꿔가며 특정 분석모델을 수행하는 과정을 반복하여 의미 있는 분석결과를 얻어내는 경우가 많습니다. 이때 원시데이터를 가져오는 추출기의 성능이 분석모델을 반복수행 할 수 있는 횟수와 직결되기 때문에 그 성능이 매우 중요한 요소입니다.

향후 전망

스마트 제조의 근간은 빅데이터 활용에 있다. 제조 현장의 빅데이터 라이프 사이클에 대한 거버넌스 체계가 확립해가는 과정 중에 있으며, 관리가 되기 시작한 빅데이터를 적시적소에 활용되기 시작할 것입니다. 초기 단계로서 데이터 시각화를 지나 현재는 사후 분석 중심의 제조 데이터분석이 이루어지고 있죠. 사후 분석에서는 무엇을 어떻게 해야 할 지에 대한 지식은 가지고 있었으나, 기술적인 문제로 초대용량 데이터에 적용하지 못했던 분석을 빅데이터 기술로 해결해 나가는 과정입니다.

대표적인 예가 품질불량 원인분석입니다. 그리고 사후 분석의 성과가 검증되면서 점차 사후 분석이 아닌 제조 공정 중 실시간 분석으로 분석 시점이 앞당겨지게 될 것입니다. 그 이후에는 제조공정에 앞선 설계 공정까지 분석 시점이 앞당겨 질 것으로 예상합니다. 예를 들면 디자인 변경, 공정 변경, 소재 변경 등 막대한 비용이 필요한 파일럿 공정 및 시뮬레이션과정이 있으며, 이를 Predictive analytics를 지나 Prescriptive 기능을 제공하는 AI 로 해결하고자 하는 시도가 본격화 될 것으로 예상됩니다.

현재의 스마트 제조에서의 빅데이터 분석 과정에서 해결되어야 하는 문제점 중 ‘데이터 특성’, ‘분석 방법론’, ‘시각화’ 에 대해 더 자세히 알고 싶다면, 지금 삼성SDS 홈페이지에 방문하여 White Paper를 다운로드하세요.

[제공. 삼성SDS]