데이터 보호: RoT(Root of Trust)에서 프로비넌스 추적까지
인공 지능(AI), 머신 러닝(ML) 및 클라우드 컴퓨팅은 IT의 리스크 모델을 근본적으로 바꾸고 있습니다. 기존에 엔터프라이즈 데이터는 기업이 물리적으로 통제하는 중앙집중식 인프라에 배치되었지만, 최근에는 엣지 또는 클라우드와 같은 다른 위치에 저장되는 경우가 많습니다.
인공 지능(AI), 머신 러닝(ML) 및 클라우드 컴퓨팅은 IT의 리스크 모델을 근본적으로 바꾸고 있습니다. 기존에 엔터프라이즈 데이터는 기업이 물리적으로 통제하는 중앙집중식 인프라에 배치되었지만, 최근에는 엣지 또는 클라우드와 같은 다른 위치에 저장되는 경우가 많습니다. 위협 모델은 구성 가능한 분산형 인프라에 따라 근본적으로 변화합니다. 그 결과, 데이터 오케스트레이션 아키텍처에는 하드웨어 기반 RoT 및 개방형 보안 솔루션 등 기타 보안 조치를 포함하여 물리적 데이터 센터의 경계 이상으로 보안을 제공해야 합니다.
Seagate의 데이터 보안 연구자 Manuel Offenberg는 “예를 들어, 엣지에서 위협 모델에는 장비에 대한 무단 물리적 액세스가 포함됩니다. 감시하는 사람이 없는 경우에도 말이죠.”라고 말합니다.
최근 엔터프라이즈 데이터는 공용 및 하이브리드 클라우드에 저장됩니다. 데이터는 원격 장치에서 생성 및 전송됩니다. 하나의 엔터프라이즈가 사용 중인 모든 장치, 네트워크 장비 및 기타 분산 인프라를 물리적으로 보호할 수 있는 방법은 없습니다.
이로 인해 분산된 아키텍처에 위치하는 데이터를 보호하는 것이 더욱 중요해지고 있습니다. 일반적으로 사용되고 있는 여러 보안 관리는 데이터의 기밀성을 보호하는 데 매우 적합합니다. 강력한 암호화는 전송 중 및 미사용 데이터를 보호할 수 있습니다. 메시지 다이제스트와 같은 다른 암호화 도구는 데이터의 무결성을 보호하는 데 도움이 됩니다.
그러나 최근에는 AI와 ML의 중요성이 증가함에 따라 데이터의 신뢰성 보장에 대한 요구도 증가하고 있습니다.
시스템과 소프트웨어의 취약점을 활용하는 도구는 오랜 기간 동안 지속적으로 증가하고 있지만, 최근의 공격자는 ML/AI 시스템을 공격하여 시스템을 활용하는 새로운 방법을 보유하고 있습니다. 공격자는 이러한 시스템에 공급되는 데이터를 해킹함으로써 악의적인 목적으로 ML/AI 기술의 약점을 활용할 수 있습니다.
그러나 ML/AI는 해커와의 싸움에서 도움이 될 수 있습니다. ML 알고리즘은 많은 사례에서 악의적인 행위를 보호하기 위해 사용됩니다. 예를 들어, 신용 카드 산업에서는 ML을 활용하여 많은 수의 합법적 및 사기성 트랜잭션을 분석하고 있습니다. 알고리즘의 학습을 위해 사용되는 데이터 샘플은 구입한 제품의 유형, 트랜잭션의 위치, 청구 금액, 고객과 판매자에 대한 구체적인 특성 등과 같은 수많은 특성으로 구성됩니다. ML 알고리즘은 합법적인 트랜잭션과 사기성 트랜잭션을 구분할 수 있는 데이터 내 패턴을 식별합니다.
또한, Offenberg가 지적한 것과 같이 ML 모델은 다른 머신 러닝 시스템이 사람이 생각할 수 없는 방식으로 공격 가능성을 인식하도록 학습시키는 새로운 방법인 "인공 또는 적대적 머신 러닝"을 사용하여 학습됩니다.
공격자가 과거 신용 카트 트랜잭션 데이터에 대한 액세스를 획득하여 이를 수정하거나 새로운 데이터를 주입하여 알고리즘이 일부 사기성 트랜잭션을 합법적인 트랜잭션으로 오인하게 만드는 상황을 가정해 보겠습니다. 이러한 유형의 악성 학습 데이터는 감지하기가 어려울 수 있습니다. 코드 검토 또는 기타 수단으로 감지가 가능한 애플리케이션 소스 코드의 백도어와 달리, ML 모델은 사람이 확인할 때 이해하기가 불가능하지는 않지만 어려운 방식으로 표현됩니다. 이는 특히 딥 러닝의 경우 그러하며, 딥 러닝에서 모델은 트랜잭션이 합법적인 것인지를 판단하는 복잡한 계산 배열을 유도하는 여러 레이어와 수많은 매개변수로 구성될 수 있습니다.
보안 RoT(root of trust)와 함께 데이터 프로비넌스를 구축함으로써, 이 예에서의 경우 모델의 학습을 위해, 데이터가 사용되기 전 데이터의 무단 변경을 감지할 수 있는 프레임워크를 개발할 수 있습니다. Offenberg는 “ML/AI 데이터에서 이러한 유형의 공격은 우리가 아직 완벽하게 이해하지 못하고 있는 새로운 세대의 보안 우려 사항을 나타냅니다”라고 말합니다.
새로운 클래스의 ML/AI 데이터 공격은 RoT가 포함된 하드웨어 보안 향상, 데이터의 컴퓨팅 작업 보호 및 데이터 수명 주기 전체에서의 데이터 프로비넌스 유지를 통해 완화될 수 있습니다. RoT는 무조건적으로 신뢰할 수 있는 근본적인 연결 장치 보안 구성 요소로서, 나머지 시스템이 보안을 보장하기 위해 신뢰하며 사용할 수 있는 암시적인 신뢰 기능을 제공합니다.
RoT는 시스템 부트 무결성 및 강력한 암호화와 같은 보안 서비스를 시스템에서 실행 중인 운영 체제 및 애플리케이션에 제공하는 보안 요소입니다. RoT를 사용하면 시스템 보안을 향상할 수 있으며, 그러므로 해당 시스템에 의해 저장 및 처리되는 데이터에 대한 신뢰성이 향상됩니다. 데이터가 분산형 시스템을 통해 이동하면서 신뢰할 수 있는 구성 요소를 사용하여 데이터를 보호하고 데이터 프로비넌스 서비스는 생성 시점부터 데이터에 대한 작업을 기록할 수 있습니다.
최근에는 분산형 시스템에서 데이터의 사용이 점점 더 복잡해지고 있으므로 데이터 프로비넌스의 중요성이 강조되고 있습니다. Offenberg는 “우리가 데이터의 생성 방법, 시점, 위치, 생성자를 파악한다면 ‘이 데이터는 조작되지 않은 원본’임을 보장할 수 있는 방식으로 해당 데이터에 대한 추적을 유지할 수 있습니다”라며 "보안 데이터 프로비넌스의 개념을 기반으로 인프라를 구축한다면 우리는 이동하여 결국에는 사용되는 데이터에 대한 신뢰 수준을 향상할 수 있습니다"라고 설명합니다.
모든 데이터 오케스트레이션 전략에는 신뢰할 수 있는 컴퓨팅 플랫폼에 대한 데이터 프로비넌스가 포함되어야 합니다. 데이터의 생성 시점, 해당 데이터 소유자의 신원 및 생성한 장치를 안전하게 추적함으로써 데이터의 변경 여부를 감지하는 것이 가능합니다. 이는 데이터 신뢰성의 토대가 됩니다.
실리콘 RoT(root of trust) 칩에 대한 통합 가이드라인과 함께 참조 설계를 개발하는 OpenTitan 프로젝트와 같은 개방형 보안 솔루션은 이러한 솔루션의 일부입니다. OpenSSL과 같은 기타 오픈 소스 도구는 이미 광범위하게 사용되고 있습니다. 분산형 아키텍처의 한 가지 단점은 통합이 올바르게 완료되지 않으면 다른 취약점이 나타날 수 있다는 것입니다. 마찬가지로, 통합 가이드라인을 이해하여 준수하지 않고 단순히 오픈 소스 솔루션의 보안만을 활용한다면 취약점이 발생할 수 있습니다. OpenSSL에 대한 Heartbleed 공격은 여러 시스템이 갑자기 취약해지게 된 오픈 소스 라이브러리의 취약점에 대한 명확한 예가 됩니다. 조직은 오픈 소스 프로젝트의 통합 시 신중을 기해 정보를 제공받아야 하며, 애플리케이션 통합 방식으로 인해 발생할 수 있는 보안 및 잠재적 취약성에 특히 주의해야 합니다.
AI 및 ML 작업 부하는 다양한 데이터의 대규모 용량에 따라 달라집니다. ML 실무자는 데이터의 무결성을 보호할 뿐만 아니라 대용량 데이터 저장소에서 특정 데이터를 식별 및 추출할 수 있어야 합니다. 이를 위해서는 데이터 리소스에 태그 또는 라벨을 지정하는 기능 등 고급 메타데이터 캡처 및 관리가 필요합니다.
궁극적으로 분산형 시스템은 고립된 데이터 센터를 보호하는 동일한 보안 수단에 의존할 수 없습니다. RoT 및 데이터 프로비넌스와 같은 종합 보안 프로토콜은 데이터 수명 주기를 조율하고 데이터의 무결성을 보호하며 온디맨드 방식으로 액세스할 수 있도록 해주는 복잡한 서비스 배열의 일부입니다.
Seagate의 백업 및 복구 솔루션을 활용하여 유틸리티를 최적화하는 동시에 데이터를 보호할 수 있는 방법에 대해 자세히 알아보십시오.