Introduction to AI Ready Data Foundation

Abstract

인공지능, 특히 생성형 인공지능(GenAI)에 대한 풍부한 경험을 가진 전문가로, AI 준비 데이터 기반 구축의 중요성에 초점을 맞춥니다. 전통적인 데이터 기반이 구조화된 데이터에 중점을 두는 반면, GenAI는 구조화되지 않은 데이터 및 실시간 컨텍스트 이해를 요구하며, 이는 데이터 유형, 컨텍스트, 처리, 저장 및 거버넌스 등 여러 측면에서 차이를 보입니다. 현재 많은 기업이 GenAI 개념 증명(POC)에 나서고 있지만, 환각 현상, 데이터 품질, 콘텐츠 새로 고침, 기술 및 거버넌스 등의 문제로 인해 성공적인 프로덕션 구현에는 어려움을 겪고 있습니다. 이러한 격차를 해소하기 위해 발표자는 데이터 수집, 문서화, 데이터 및 메타데이터 계층, 저장 및 배포 계층, 라이선스 및 사용 계층, 보안 계층을 포함하는 AI 준비 데이터 프레임워크를 제시하며, 데이터 기반을 구축하는 조직에게 점진적으로 접근하고 강력한 거버넌스를 구축할 것을 권고합니다.

GenAI 기반 데이터의 차이점

전통적인 데이터 기반과 GenAI 데이터 기반을 여러 측면에서 비교하며, GenAI가 요구하는 데이터 기반의 새로운 특성을 강조했습니다. 주요 차이점은 다음과 같습니다.

데이터 유형 (Data Type):
- 전통적인 데이터 기반: 주로 정형 데이터에 맞춰져 있습니다. SQL Server와 같은 시스템은 정형 데이터 및 일부 반정형 데이터(JSON 등) 저장을 지원합니다.
- GenAI 데이터 기반: 정형 데이터, 비정형 데이터 모두를 처리해야 하지만, 특히 비정형 데이터(PDF 파일, 회사 Wiki, 이메일, 이미지, 오디오, 비디오 등)에 대한 요구사항이 매우 높습니다. 관련 정보 대부분이 이러한 비정형 데이터 형태로 저장되어 있기 때문입니다. 데이터 저장뿐만 아니라 관계를 유지하는 것도 중요합니다.
컨텍스트 요구사항 (Context Requirement):
- 전통적인 데이터 기반: 테이블에서 매우 구체적인 결과만을 찾습니다.
- GenAI 데이터 기반: 모델은 컨텍스트에 대한 인식이 있어야 더 나은 응답을 제공할 수 있습니다. 단순히 특정 정보를 찾는 것을 넘어, 해당 정보가 과거 버전에 존재했는지 여부와 같은 관련 컨텍스트를 이해해야 합니다.
쿼리 패턴 (Query Pattern):
- 전통적인 데이터 기반: 예측 가능한 쿼리 패턴을 가지며, 어떤 종류의 응답을 기대하는지 알고 있습니다.
- GenAI 데이터 기반: 자연어로 의도를 이해하는 의미론적(Semantic) 이해가 중요합니다. 예를 들어, 제품 후기에서 긍정적인 표현과 부정적인 표현이 혼합된 경우 전체적인 의미(예: 제품은 좋지만 가격 대비 가치는 낮다)를 파악해야 합니다.
처리 (Processing):
- 전통적인 데이터 기반: 주로 배치(Batch) 처리를 수행하며, 점점 스트리밍으로 이동하는 추세입니다.
- GenAI 데이터 기반: 실시간(Real-time), 인터랙티브(Interactive)하며 동적인 컨텍스트를 가져야 합니다. 조직 내부 정보뿐만 아니라 외부 인터넷 정보까지 가져와 실시간으로 매우 낮은 지연 시간(밀리초 단위) 내에 응답해야 합니다.
저장 (Storage):
- 전통적인 데이터 기반: 테이블 지향적인 행과 열 또는 객체 스토리지를 사용합니다.
- GenAI 데이터 기반: 벡터 기반 저장소(Vector DB)가 필요합니다. SQL Server도 이제 벡터 저장을 지원합니다.
업데이트 (Update):
- 전통적인 데이터 기반: 비즈니스 요구사항에 따라 업데이트됩니다.
- GenAI 데이터 기반: 지속적인 통합(Continuous Integrations)이 필요하며, 항상 최신 정보를 제공할 수 있어야 합니다. 그래야 모델의 환각(Hallucination)을 방지할 수 있습니다.
스키마 요구사항 (Schema Requirement):
- 전통적인 데이터 기반: 고정된(Rigid) 스키마를 가질 수 있습니다.
- GenAI 데이터 기반: 유연한 스키마가 필요합니다.
거버넌스 (Governance):
- 전통적인 데이터 기반: 속성 기반 접근 제어, 행 기반 접근 제어, IAM 제어 등 테이블 및 기타 요소에 대한 제어가 가능합니다.
- GenAI 데이터 기반: 윤리적 우려, 편향 탐지, 책임감 있는 사용 등 훨씬 더 복잡한 거버넌스 요구사항을 가집니다. 모델이 응답을 생성하는 방식, 편향되지 않았는지 여부(특히 소외 계층에 대한 편향), 추적 가능성 등이 중요합니다.
검색 모드 (Retrieval Mode):
- 전통적인 데이터 기반: 주로 정확한 일치(Exact match) 또는 키워드 검색(Lexical)에 기반합니다.
- GenAI 데이터 기반: 의미론적(Semantic) 검색을 사용합니다.
확장 차원 (Scalement Dimensions):
- 전통적인 데이터 기반: 데이터 양이 방대합니다.
- GenAI 데이터 기반: 데이터 양이 방대할 뿐만 아니라 여러 데이터 소스 간의 관계를 유지해야 한다는 점이 더 복잡한 과제입니다. 관계가 유지되지 않으면 여러 소스에 걸쳐 스캔하고 올바른 관계를 제공하기 어렵습니다.

요약하자면, GenAI 데이터 기반은 전통적인 데이터 기반보다 훨씬 더 다양한 데이터 유형(특히 비정형 데이터)을 처리하고, 깊은 컨텍스트 이해를 바탕으로 자연어 쿼리에 실시간으로 응답하며, 벡터 스토리지와 같은 새로운 저장 방식을 사용하고, 데이터 품질, 편향, 책임감 있는 사용 등 복잡한 거버넌스 문제를 해결해야 합니다. 또한, 데이터 소스 간의 관계 유지 및 실시간 업데이트/임베딩 파이프라인 구축이 필수적입니다.

GenAI 전환시 장애물

조직이 생성형 AI(GenAI) 프로젝트를 개념 증명(PoC) 단계에서 생산 단계로 전환하는 데 직면하는 가장 큰 장애물은 여러 가지가 있으며, 발표자는 특히 AI 준비 데이터 기반(AI Ready Data Foundations)이 핵심적인 누락 요소라고 강조합니다.

발표자가 언급한 생산 전환의 주요 장애물은 다음과 같습니다.

AI 준비 데이터 기반 부족 (AI Ready Data Foundations):
- 많은 조직이 파운데이션 모델 자체에만 집중하고 있지만, GenAI에는 AI 준비 데이터 기반이라는 매우 중요한 요소가 필요하며 이에 대한 논의가 부족합니다.
- 데이터 유형: 전통적인 데이터 기반은 주로 정형 데이터에 맞춰져 있지만, GenAI는 비정형 데이터(PDF, Wiki, 이메일, 이미지, 오디오, 비디오 등) 처리에 대한 요구사항이 매우 높습니다. 관련 정보의 대부분이 비정형 데이터 형태로 저장되어 있기 때문입니다.
- 컨텍스트 요구사항: GenAI 모델은 더 나은 응답을 제공하기 위해 컨텍스트에 대한 인식이 있어야 합니다. 특정 정보뿐만 아니라 해당 정보의 과거 버전 존재 여부 등 관련 컨텍스트를 이해해야 합니다.
- 쿼리 패턴: 전통적인 방식이 예측 가능한 쿼리 패턴이라면, GenAI는 자연어로 의도를 이해하는 의미론적(Semantic) 이해가 중요합니다. 문장의 숨겨진 의미나 전체적인 감정을 파악해야 합니다.
- 처리: 전통적인 방식은 배치 또는 스트리밍 처리인 반면, GenAI는 실시간(Real-time), 인터랙티브(Interactive)하며 동적인 컨텍스트가 필요합니다. 매우 낮은 지연 시간(밀리초 단위) 내에 내부 및 외부 정보를 가져와 응답해야 합니다.
- 저장: 전통적인 테이블/객체 저장 외에 벡터 기반 저장소(Vector DB)가 필요합니다. SQL Server도 이제 벡터 저장을 지원합니다.
- 업데이트: GenAI는 지속적인 통합(Continuous Integrations)을 통해 항상 최신 정보를 제공해야 모델의 환각(Hallucination)을 방지할 수 있습니다.
- 스키마 요구사항: 전통적인 고정 스키마와 달리 유연한 스키마가 필요합니다.
- 검색 모드: 전통적인 정확한 일치/키워드 검색(Lexical) 외에 의미론적(Semantic) 검색을 사용합니다.
- 확장 차원: 데이터 양뿐만 아니라 여러 데이터 소스 간의 관계를 유지하는 것이 복잡한 과제입니다. 관계가 유지되지 않으면 스캔 및 관계 제공이 어렵습니다.
- RAG 확장 문제: RAG(Retrieval Augmented Generation)는 모델 환각 방지에 도움을 주지만, 규모 확장 시 매우 비싸지고, 수백만, 수십억 개의 임베딩을 저장하기 위한 확장 가능한 벡터 스토어가 필요하며, 데이터 품질 문제가 임베딩에 영향을 미쳐 잘못된 응답을 유발하고, 지속적인 콘텐츠 새로고침 메커니즘이 필수적이며, 기존 ETL 파이프라인은 임베딩에 맞춰 구축되지 않아 새로운 데이터 파이프라인(데이터 수집, 청킹, 임베딩, 벡터 스토어 저장) 구축이 필요합니다.
- 새로운 데이터 파이프라인: GenAI는 다양한 소스의 데이터를 가져오고, 관계 및 컨텍스트를 보존하며, 메타데이터를 개선하여 환각을 줄이고, 실시간 임베딩 및 증분 데이터 처리를 지원하는 특화된 데이터 파이프라인이 필요합니다.
기술 및 통합 (Technology and Integration):
- 파운데이션 모델을 둘러싼 다양한 애플리케이션을 통합하는 데 어려움이 있습니다.
투자 수익 (Return on Investment - ROI):
- 많은 조직이 PoC 단계 이후 실제 투자가 ROI를 가져올 것인지에 대한 확신이 부족하여 어려움을 겪습니다.
사람, 프로세스 및 기술 (People, Processes, and Skills):
- GenAI 프로젝트를 구현하고 운영하는 데 필요한 올바른 기술과 프로세스가 부족합니다.
- GenAI를 지원하는 조직 문화가 부족할 수 있습니다.
거버넌스 (Governance):
- 전통적인 데이터 기반에 비해 훨씬 더 복잡하고 강력한 거버넌스가 필수적입니다.
- 윤리적 우려, 편향 탐지, 책임감 있는 사용 등 윤리적 AI에 대한 요구사항이 높습니다. 모델 응답 생성 방식, 편향 여부(특히 소외 계층), 추적 가능성 등이 중요합니다.
- 법적 문제: 지적 재산권 침해, 소송 위험에 대한 우려가 있습니다.
- 추적 및 설명 가능성: 모델이 어떻게 특정 응답을 생성했는지 추적하고 설명할 수 있어야 합니다.
- 보안: 악의적인 프롬프트 엔지니어링(프롬프트 인젝션)으로부터 시스템을 보호해야 합니다.
- 데이터 품질: GenAI가 생성하는 데이터 또는 GenAI에 사용되는 데이터의 품질에 대한 문제가 제기됩니다.
- 새로운 저장 시스템 거버넌스: 벡터 스토어 등 새로운 유형의 데이터 저장소에 대한 거버넌스 체계가 필요합니다.
- 메타데이터: 정확하고 윤리적인 결과를 위해 메타데이터 관리가 중요합니다.
- 문서화: 잘못된 문서화로 인해 챗봇이 잘못된 정보를 제공하여 법적 문제로 이어질 수 있습니다.
- 접근 제어: 데이터뿐만 아니라 모델 접근, 입력/출력 제어(가드레일) 등 다층적인 보안 및 접근 제어가 필요합니다.

요약하자면, 조직은 GenAI를 성공적으로 생산 단계로 이끌기 위해 기존의 데이터 관리 방식과 기술, 조직 역량 및 거버넌스 프레임워크를 GenAI의 특성에 맞게 대대적으로 재정비해야 하는 과제에 직면해 있습니다. 특히 다양하고 비정형적인 데이터의 관리 및 관계 유지, 실시간 처리, 새로운 저장 기술 도입, 그리고 복잡한 윤리적/법적/보안적 거버넌스 구축이 핵심적인 장애물로 보입니다.

AI 데이터 기반 구축

GenAI 프로젝트를 개념 증명(PoC)에서 생산 단계로 전환하기 위해 필요한 핵심 요소로 AI 준비 데이터 기반(AI Ready Data Foundations)을 강조하며, 이를 구축하기 위한 프레임워크와 실질적인 시작 단계를 제시합니다.

AI 준비 데이터 프레임워크 (제안)

발표자는 AI 준비 데이터 기반이 갖춰야 할 여러 계층으로 구성된 프레임워크를 제안합니다. 이는 다음과 같습니다.

데이터 수집 파이프라인 (Data Injection Pipeline):
- 다양한 데이터 소스(정형, 비정형, 반정형 데이터, 비디오, 오디오, 이메일, PDF 등)에서 데이터를 가져올 수 있어야 합니다.
- 데이터의 관계 및 컨텍스트를 보존해야 합니다.
- 정보를 추출하고 메타데이터를 개선해야 합니다.
- 실시간 임베딩 및 증분 데이터 처리를 지원해야 합니다. 이는 기존 ETL 파이프라인이 임베딩에 맞춰 구축되지 않았기 때문에 새로운 파이프라인이 필요함을 의미합니다.
문서화 계층 (Documentation Layer):
- 전통적인 문서화와 달리, 인간뿐만 아니라 기계 또는 자동화 시스템도 이해할 수 있는 포괄적인 문서화를 제공해야 합니다.
- 투명성과 재현성을 보장해야 합니다.
- 데이터 관계 저장 및 컨텍스트 보존이 중요합니다.
- 이 계층은 강력한 거버넌스를 포함합니다. 모델, 데이터, 문서에 대한 접근 제어뿐만 아니라, 프롬프트 입력 및 모델 출력에 대한 가드레일(Guardrails) 설정 등 다층적인 제어가 필요합니다. 데이터 품질 및 편향 탐지 기능도 포함됩니다.
데이터 및 메타데이터 계층 (Data and Metadata Layer):
- 기술적 및 비즈니스 메타데이터 외에, 컨텍스트 및 관계를 포함하는 지식 그래프(Knowledge Graphs)와 같은 고급 메타데이터 관리가 필요합니다.
- 키워드 검색뿐만 아니라 의미론적 검색(Semantic Search)을 지원해야 합니다.
스토리지 및 전송 계층 (Storage and Decimation Layer):
- 벡터 기반 저장소(Vector DB)가 필요하며, SQL Server도 이제 벡터 저장을 지원합니다.
- 낮은 지연 시간(Low Latency)의 검색을 지원해야 합니다.
- 다양한 콘텐츠 유형을 처리하고 데이터 이동성(벡터, 임베딩, 그래프, 관계형 데이터 간)을 제공해야 합니다.
- 스토리지 비용 효율성을 위한 압축 및 지능적인 데이터 이동 기능이 필요합니다.
라이선스 및 사용 계층 (Licensing and Usage Layer):
- 데이터 활용에 대한 복잡한 법적 및 윤리적 차원을 다룰 수 있어야 합니다.
- AI 관련 문제(학습, 파인튜닝, 합성 데이터 생성 등)를 처리해야 합니다.
- 데이터뿐만 아니라 모델 접근, 프롬프트 입력 및 출력에 대한 권한 및 가드레일 설정 등 다계층 보안(데이터 보호, 프롬프트 방어, DB 보안, 접근 제어)이 필수적입니다.

AI 준비 데이터 기반 구축 시작 단계

이러한 포괄적인 데이터 기반을 한 번에 구축하기보다는, 발표자는 실질적인 접근 방식을 제안합니다.

“오션을 끓이지 마라”: 즉, 모든 것을 한 번에 하려 하지 말고 점진적으로 접근해야 합니다.
현재 위치 평가: 조직의 현재 데이터 기반 상태를 평가합니다.
특정 유스케이스 데이터 준비도 평가: 특정 GenAI 유스케이스를 해결하는 데 필요한 데이터가 모두 있는지, 데이터 품질이 충분한지 평가합니다.
1-2개 유스케이스 선택: 집중할 1~2개의 유스케이스를 선택하고 시작합니다.
기반 구축: 앞서 설명한 AI 준비 데이터 기반의 구성 요소를 구축하기 시작합니다. 이 과정은 선형적이지 않고 평가 및 아키텍처 재평가를 포함하는 순환적인 피드백 과정입니다.
강력한 거버넌스 개발: GenAI 배포에서 견고한 거버넌스 구축은 필수적(Must have)입니다. 윤리적 고려, 편향 탐지, 책임감 있는 사용 등 복잡한 거버넌스가 요구됩니다.
기술 및 문화 확보: GenAI를 지원하는 데 필요한 기술과 조직 문화를 갖춰야 합니다.

요약하자면, GenAI를 위한 데이터 기반 구축은 단순히 데이터 저장 방식을 바꾸는 것을 넘어, 다양한 비정형 데이터를 처리하고, 실시간으로 컨텍스트를 제공하며, 벡터 스토리지와 같은 새로운 기술을 도입하고, 특히 데이터 소스 간의 관계를 유지하며, 복잡한 거버넌스 문제를 해결하는 새로운 파이프라인과 계층 구조의 구축을 의미합니다. 이는 PoC에서 생산 단계로 나아가는 데 있어 가장 큰 장애물 중 하나로 꼽힙니다.

Stop Thinking, Just Do!