Alan Zeichick | Content Strategist | 2023년 5월 31일
비즈니스 데이터로부터 가치를 창출하기 위해서는 공장, 사무실, R&D 등에 투자할 때와 같이 투자수익률을 계산해 보아야 합니다. 기업은 고객, 제품, 거래, 임직원, 재무, 경제, 경쟁사 등에 대한 데이터 없이는 운영될 수 없습니다. 기업의 성장과 번영을 위해 꼭 필요한 데이터입니다. 그러나 고품질 데이터의 획득, 저장, 관리, 보안, 분석에는 그만한 비용이 듭니다. 기업이 보유한 데이터가 많을수록 고객 서비스 및 파트너사와의 협업에는 도움이 되지만, 데이터 생태계 전반에 투입해야 할 시간, 노력, 자원도 함께 늘어납니다. 일관적인 ROI 중심 관점으로 데이터를 다루면 기업의 비즈니스에 도움이 됩니다.
본 문서에서는 데이터 ROI 방정식 중 비용 측면에 주목하고, 데이터 획득, 저장, 보안, 활용 비용을 통제 및 최소화하는 방법을 중점적으로 살펴볼 것입니다.
데이터 비용은 비즈니스 데이터의 획득, 유지, 보안, 활용에 드는 비용을 말합니다. 이러한 데이터 비용 중 상당수는 명확합니다. 데이터 자체는 온프레미스의 하드 드라이브나 스토리지 어레이, 또는 물리 디스크로 구성된 클라우드 스토리지 등에 반드시 저장돼야 합니다. 콘텐츠 관리 시스템, 관계형 데이터베이스, 데이터 웨어하우스/데이터 레이크 등 데이터를 체계화하기 위한 소프트웨어가 필요하며, 오픈 소스 솔루션을 사용하는 경우 상용 라이선스 비용, 또는 구독/지원 계약 비용이 발생합니다. 데이터는 반드시 백업되어야 하며, 일부 데이터 유실 시의 제한적 복구, 또는 물리적 재해 시의 전체 복구를 대비하기 위한 추가 스토리지와 백업 관리 소프트웨어가 필요합니다.
타사로부터 데이터를 구매할 경우 라이선스 또는 다른 비용이 발생할 수도 있습니다. 산업 또는 정부 규정을 준수하고 프라이버시 이슈를 해결하기 위한 보안 및 액세스 제어가 필요합니다. 오래된 정보를 수정하는 것과 같이 데이터 검증 및 데이터 품질 보장/개선과 관련된 비용도 발생합니다.
데이터를 최대한 활용하려면 UI, 분석, 보고용 소프트웨어는 물론 인사이트 확보를 위한 딥러닝, AI 소프트웨어 비용도 발생할 수 있습니다.
마지막으로, 성능 및 확장성과 관련된 비용이 발생합니다. 데이터가 메가바이트에서 테라바이트, 페타바이트급으로 증가할 경우 정교한 소프트웨어, 신중한 계획, 나아가 데이터를 유지 관리하고 사용하기 위한 자동화 도구 및 대규모로 저장 및 액세스하기 위한 하드웨어가 필요합니다. 또한 기업은 이상 언급한 각 데이터 비용 항목과 관련된 데이터 관리 도구들을 관리하고 운영하기 위한 숙련된 인력을 고용해야만 합니다.
핵심 요점
데이터 비용 최소화는 보유 중인 데이터를 파악하는 것부터 시작됩니다. 개중 일부는 행과 열로 저장된 관계형 데이터입니다. 문서, 이미지, 동영상, 바이너리 파일 등의 비정형 데이터도 있을 수 있습니다. 보유 중인 데이터 자산을 파악한 기업의 다음 단계는 관계형 데이터베이스, NoSQL 데이터베이스, 문서 저장소 등 최적의 저장 형식을 결정하고 데이터베이스 통합 기회를 검토하는 것입니다. 데이터의 출처, 위치, 사용 장소 및 방식도 반드시 알아 두어야 합니다.
보유 중인 데이터와 최적의 저장 위치를 파악했다면, 다음 단계는 다양한 데이터 소스 및 용도를 포괄하며 데이터 획득, 관리, 저장, 분석을 최적화할 수 있는 유연한 데이터 아키텍처를 채택하는 것입니다. 그중에서도 핵심 요소는 데이터 활용 방식을 정의할 적절한 데이터 거버넌스 모델을 찾는 것입니다. 또 다른 핵심 요소는 성능, 유연성, 보안, 유용성을 극대화하면서 비용을 최소화할 온프레미스 또는 클라우드 데이터 관리 시스템을 선택하는 것입니다. 기업은 이상의 모든 단계를 거쳐 데이터 묶음의 가치와 활용도를 평가하고, 평가한 만큼의 가치를 실제로 확보하기 위한 비용을 최소화할 수 있습니다.
기업에는 현재 보유하고 있는 데이터의 양과는 무관하게 새로운 데이터가 매일, 어쩌면 매초마다 추가됩니다. 새로운 데이터의 상당 부분은 운영, 거래, 고객 및 파트너사 서비스, 경영 지원, 재무 보고, 규제 준수 등에 필요합니다. 하지만 가치가 거의 없는 데이터도 있습니다. 데이터 획득, 변환, 저장, 보안, 활용 비용을 최소화하기 위한 11가지 방법은 다음과 같습니다. 개중에는 비즈니스 민첩성 향상, 직원 생산성 향상 또는 다른 효율성 향상이 직접적인 예산 절감이 아닌 간접적인 절감으로 이어지는 경우도 있습니다.
예상 사용 사례와 데이터 규모를 바탕으로 트랜잭션 데이터베이스, 데이터 웨어하우스, 데이터 레이크, 머신러닝 도구 등 최적의 데이터 관리 시스템을 결정합니다. 데이터 및 워크로드를 더 적은 수의 데이터베이스로 통합하면 소프트웨어 라이선스 및 데이터 관리 비용을 절감할 수 있습니다. 최적의 데이터 스토리지 및 관리 기술을 선택하면 통합 생성 및 유지 관리에 필요한 작업을 단순화하여 비용을 절감할 수 있습니다.
클라우드 기반 데이터 관리 시스템은 더 낮은 총비용, 온프레미스보다 나은 확장성과 관리성을 제공하며 복원력, 연결성, 보안, 관리 서비스 등의 측면에서 이점이 있습니다. 또한 인프라 관리 인력 비용을 절감할 수 있습니다.
수작업에 의존하는 데이터 관리는 확장성이 낮고, 인적 오류와 정책 불일치가 발생하기 쉽습니다. Autonomous Database가 제공하는 것과 같은 자동화 기능들은 예측 가능성 및 강력한 보안을 제공하며 인건비 절감에도 도움이 됩니다.
데이터 거버넌스 정책은 귀사의 데이터 최적화 및 보호 방식과 비즈니스 운영 지원을 위한 데이터 활용 방식을 정의합니다. 강력한 데이터 거버넌스 정책은 데이터 중복을 제거해 저장, 백업, 분석해야 하는 데이터를 줄이는 것을 비롯한 많은 이점을 제공합니다.
선도적인 오픈 소스 데이터베이스 시스템들은 다양한 대규모 개발자 커뮤니티, 안정성, 다양한 도구 및 소프트웨어 생태계, 소프트웨어 커스터마이징, 소프트웨어 라이선스 비용 절감 등의 다양한 이점을 제공합니다. 오픈 소스를 사용해 총비용을 낮출 수 있을지를 확인하기 위해서는 면밀한 재무 분석이 필요합니다. 오픈 소스 소프트웨어에 기반한 관리형 클라우드 서비스는 이러한 이점을 활용할 수 있는 또 다른 옵션을 제공합니다.
데이터는 일상적인 트랜잭션 및 운영을 위한 필수 요소입니다. 물론 그것이 주요 사용처이기는 하지만, 데이터의 진정한 경쟁력은 분석에서 나옵니다. 분석을 통해 데이터에서 인사이트를 확보함으로써 트렌드 파악, 운영 비용 절감, 매출 증대, 고객 서비스 개선 등의 효과를 누릴 수 있습니다. AI를 사용해 다양한 대규모 데이터 저장소들로부터 인사이트를 도출하는 빅데이터 이니셔티브가 그 좋은 예입니다. 주의 : 데이터 분석은 ROI 방정식의 '수익' 항목을 키우지만, 분석 도구 비용이 추가되므로 총관리 비용은 낮아지지 않을 수 있습니다.
데이터 정제는 표준 또는 맞춤형 규칙에 따라 데이터 행렬의 오류와 불일치를 수정하는 작업입니다. 정제되지 않은 원시 데이터도 트랜잭션에는 사용될 수 있지만, 분석에 사용되는 데이터는 정제될수록 정확성 및 유용성이 향상됩니다. 데이터가 깨끗할수록 분석에 드는 노력(과 비용)이 줄어듭니다. 다만 데이터 정제의 비용 절감 효과를 과대평가하지는 마세요. 삭제되는 데이터량이 많지 않을 가능성도 크고, 정제에도 비용이 들기 때문입니다. 정제의 이점은 비용 절감보다는 분석 품질 향상에 집중되어 있습니다.
데이터를 운영하는 지점이 온프레미스든 클라우드든, 네트워크 트래픽 분석을 통해 효율적 구간과 불필요한 병목 구간을 파악할 수 있습니다. 데이터 사용량과 네트워크 활동을 모니터링하면 설정을 변경해 성능과 생산성을 높일 수 있는 지점이 어디인지 알 수 있습니다. 네트워크 모니터링을 통해 데이터 액세스가 과도한 리소스를 소모하는 구간, 더 효과적인 아키텍처로 전환해 비용을 낮출 수 있는 기회를 포착할 수 있습니다.
귀사의 데이터는 어디에서 올까요? 가장 많이 사용하는 데이터는 어디에서 가져오나요? 핵심 데이터의 계보를 분석하고 시각화하면, 데이터가 내부에서 만들어지든, 외부(특히 빅데이터)에서 가져오든 상관없이 데이터 거버넌스를 최적화해 효율적으로 활용할 수 있습니다. 이 또한 큰 비용 절감은 아니더라도, 사용하지 않거나 불필요한 유료 서드파티 데이터를 가려낼 수 있습니다.
데이터 아키텍처, 서버, 리소스, 애플리케이션을 직접 관리할 수도 있고, 전문 업체에 맡길 수도 있습니다. 아웃소싱할 경우 복잡한 데이터 관리 대신 본업에 집중하면서 효율을 향상시키고 위험을 줄일 수 있습니다. 서비스 제공업체의 전문 인력과 도구를 사용하면 데이터 관리를 더 낮은 비용으로 더 잘 수행할 수 있는 경우도 많습니다. 고려해 볼 가치가 있는 비용입니다.
귀사 중에서도 특정 부서들은 데이터 의존도가 매우 높을 것입니다. 하지만 그중에서도 어떤 데이터가 가장 중요할까요? 해당하는 데이터는 어떻게 사용되고 있나요? 언제 어디서 사용되나요? 누가 사용하나요? 이러한 인사이트를 바탕으로 기술 리소스 및 데이터 관리 예산을 최대한 활용할 수 있습니다.
트랜잭션과 레이크하우스 규모 분석을 위해서는 자동화된 통합 생성형 AI 및 머신러닝을 하나의 클라우드 서비스로 활용하는 방법을 확인해 보세요.
데이터 비용 절감 프로그램의 목표는 더 적은 비용으로 더 많은 성과를 내는 것입니다. 구체적으로는 데이터 관리 비용은 줄이고 더 큰 인사이트와 운영 대응력을 확보하는 것입니다.
많은 기업들이 클라우드와 최신 데이터 아키텍처를 활용하여 데이터 비용을 절감하고 있습니다.
데이터는 청구, 번역 로그, 문서, 부품 카탈로그, 가격표, 재고까지 귀사의 다양한 비즈니스 부문 전반을 지원합니다. 운영 데이터를 더 효과적으로 활용하면 새로운 기회를 창출할 수 있습니다. 하지만 데이터는 매일 늘어나고, 그에 따라 비용도 증가합니다. 다행히 귀사의 성장 및 효율성 향상을 지속하며 데이터 비용을 최소화할 수 있는 방안이 있습니다.
트랜잭션 및 레이크하우스 단위의 데이터 분석을 모두 수행 가능한 단일 클라우드 서비스인 HeatWave는 자동화된 생성형 AI 및 머신러닝 기능을 기본 제공합니다. 기업은 여러 분석 및 벡터 데이터베이스, 머신러닝 서비스, ETL 프로세스가 야기하는 과도한 비용과 복잡성을 해소하고, 저장소 간 데이터 이동으로 인한 지연 및 보안 위험을 피할 수 있습니다. 개발자와 DBA는 내장된 머신러닝 기반 자동화 기능을 활용해 시간을 절약하고, 성능을 더 끌어올리고, 비용을 절감할 수 있습니다. HeatWave는 Oracle Cloud Infrastructure(OCI), Amazon Web Services(AWS), Microsoft Azure, 그리고 OCI Dedicated Region을 도입한 고객사의 데이터 센터에서 사용할 수 있습니다.
HeatWave 레이크하우스의 쿼리 성능은 Amazon Redshift보다 15X 빠르며, 18X는 Databricks 및 Snowflake보다 빠르며 35X는 Google BigQuery보다 빠릅니다. 가격 대 성능비 또한 MySQL HeatWave Lakehouse 쪽이 크게 앞섰습니다. 빠르게 성장 중인 기업들 중 다수가 HeatWave를 사용해 데이터 인프라를 단순화하고 데이터 관리 비용을 절감함과 더불어 성능, 확장성, 보안, 생산성 향상으로 인한 이점을 누리고 있습니다.
데이터 센터 운영 종료를 위한 첫 번째 단계는 무엇인가요?
데이터 센터 운영 종료를 계획할 때에는 애플리케이션, 데이터, 서비스, 사용자, 보안 요구 사항을 면밀히 조사해야 합니다. 조사의 모든 내용에는 '리프트 앤 시프트' 방식으로 기존 애플리케이션과 데이터를 클라우드로 모두 옮길 것인지, 새로운 애플리케이션을 선택할 것인지, 처음부터 새로운 애플리케이션을 구축할 것인지 등 마이그레이션 방식에 대한 정보도 포함되어야 합니다.
데이터 센터 내 장비의 수명은 얼마나 긴가요?
HVAC(난방, 환기, 냉방) 시스템, 배전, 물리적 보안 시스템 등 데이터 센터 인프라의 주요 구성 요소들은 정기적인 유지 관리를 통해 10년 이상 사용할 수 있습니다. 그러나 서버, 라우터, 스위치, 스토리지 등 컴퓨태이션 장비가 구형 모델로 전락하기까지는 대략 3년에서 5년이 걸립니다.
클라우드 보안 책임은 누구에게 있나요?
클라우드 인프라의 물리적 보안(서버, 네트워크, 인프라 등)은 클라우드 제공업체가 관리합니다. 소프트웨어 및 서비스의 보안 책임은 클라우드 제공업체와 기업이 공동으로 집니다.
데이터 센터의 운영을 종료하기까지는 얼마의 기간이 걸리나요?
완전한 데이터 센터 종료까지는 수 개월이 소요될 수 있습니다. 대규모 IT 인프라의 경우 수년이 걸리기도 합니다. 데이터 센터 운영 종료 기간은 데이터 센터의 크기, 복잡성, 데이터의 양에 따라 달라집니다. 그중 상당한 시간이 면밀한 재고 조사, 계획 수립, 새로운 소프트웨어 생성 및 테스트(필요 시), 교육에 소비됩니다. 사무실 이전과 마찬가지로, 모든 계획이 완료된 상태에서는 실제 마이그레이션 및 데이터 센터 운영 종료 그 자체는 상대적으로 단기간에 끝낼 수 있습니다.
전문가 워크숍을 통해 생성형 AI 활용하기, 머신러닝 모델 구축하기, 객체 스토리지에서 데이터 쿼리하기, 또는 그 외 관심있는 HeatWave 관련 주제를 탐색해 보세요.