Article Source
Symphony; Towards Natural Language Query Answering over Multi-modal Data Lakes
- Authors: Zui Chen (Tsinghua University); Zihui Gu (Renmin University); Lei Cao (MIT); Ju Fan (Renmin University of China); Samuel Madden (MIT); Nan Tang (Qatar Computing Research Institute, HBKU)*
- Paper: https://www.cidrdb.org/cidr2023/papers/p51-chen.pdf
- Slide: https://www.cidrdb.org/cidr2023/slides/p51-chen-slides.pdf
Abstract
큰 규모의 다양한 데이터 레이크를 Siri 또는 Alexa를 사용하는 것처럼 쉽게 질의할 수 있다면 얼마나 좋을까요? 그러나 이 문제는 두 가지 관점에서 어렵습니다. 데이터 레이크의 통합은 데이터 정규화/변환, 스키마 매칭 및 개체 해결이 필요하며, 인력 비용이 높아 악명 높게 어렵습니다. 심지어 성공한 경우에도 이러한 통합 노력은 통합된 데이터 집합 상에서 임의의 SQL 질의를 지원하지 않는 경우가 일반적입니다.
본 논문에서는 사전 통합 작업 없이 복잡한 멀티 모달 데이터 레이크를 쉽게 질의할 수 있도록 하는 Symphony라는 혁신적인 시스템을 제안합니다. 사용 편의성을 위해 Symphony는 자연어 (NL) 인터페이스를 채택합니다. 통합 작업을 회피하기 위해 Symphony은 다중 모달 데이터셋에 대한 통합 표현 학습이라는 통합된 표현 방식을 사용합니다. 사용자가 NL 쿼리를 제시하면 Symphony는 학습된 멀티 모달 표현을 기반으로 어떤 테이블 또는 텍스트 데이터를 검색해야 하는지를 알아내며, 복잡한 NL 쿼리를 NL 하위 쿼리로 분해하여 필요할 때마다 각 하위 쿼리를 하나의 데이터 소스에서 평가하고 이러한 하위 쿼리의 결과를 결합합니다. 초기 평가 결과에 따르면, 해당 시스템은 Wikipedia에서 추출한 테이블과 텍스트를 기반으로 효과적으로 질문에 답변할 수 있는 능력을 보여주었습니다.