Stop Thinking, Just Do!

Sungsoo Kim's Blog

Learn How to Build Real-Time Warehouses on Lakehouse

tagsTags

14 March 2024


Article Source


Learn How to Build Real-Time Warehouses on Lakehouse

Abstract

Warehouses? Where we are going, we won’t need warehouses! Join Dillon, Franco, and Shannon as they take an industry-standard Data Warehouse integration benchmark, called TPC-DI, which is a typical 80s style data warehouse, and bring it into the future. We will review how to implement standard data warehousing practices on Lakehouse, and show you how to deliver optimal price/performance in the cloud and keep your data so fresh and so clean. We will take an assortment of structured, semi-structured, and unstructured data in the form of CSV, TXT, XML, and Fixed-Width files, and transform them warehouse-style into Lakehouse with a historical load and incremental CDC loads.

웨어하우스? 미래에는 웨어하우스가 필요 없어!

이 세션에서는 Dillon, Franco, Shannon과 함께 산업 표준 데이터 웨어하우스 통합 벤치마크인 TPC-DI (일반적인 80년대 스타일의 데이터 웨어하우스)를 미래지향적으로 개선하는 방법을 알아봅니다.

  • 레이크하우스에서 표준 데이터 웨어하우징 실행 방법
  • 클라우드에서 최적의 가성비 달성
  • 데이터의 지속적인 신선함과 정확성 유지

세션에서는 CSV, TXT, XML, 고정폭 파일 등 다양한 구조화, 반 구조화, 비구조화 데이터를 수집하여 웨어하우스 스타일로 변환하고 과거 데이터 일괄 로딩과 지속적인 변경 데이터 캡처(CDC) 로딩을 통해 레이크하우스에 저장하는 방법을 다루게 됩니다.

핵심 내용:

  • 기존 데이터 웨어하우스 벤치마크(TPC-DI) 개선
  • 레이크하우스를 통한 데이터 통합
  • 클라우드 최적화를 통한 가성비 개선
  • 지속적인 데이터 업데이트 및 정확성 유지

comments powered by Disqus