Article Source
Automating Enterprises With Foundation Models
- Teaching LLMs to Use Tools at Scale
- Speakers: Avanika Narayan & Michael Wornow
Abstract
Automating enterprise workflows could unlock $4 trillion/year in productivity gains. Despite being of interest to the data management community for decades, the ultimate vision of end-to-end workflow automation has remained elusive. Current solutions rely on process mining and robotic process automation (RPA), in which a bot is hard-coded to follow a set of predefined rules for completing a workflow. Through case studies of a hospital and large B2B enterprise, we find that the adoption of RPA has been inhibited by high set-up costs (12-18 months), unreliable execution (60% initial accuracy), and burdensome maintenance (requiring multiple FTEs). Multimodal foundation models (FMs) such as GPT-4 offer a promising new approach for end-to-end workflow automation given their generalized reasoning and planning abilities. To study these capabilities we propose ECLAIR, a system to automate enterprise workflows with minimal human supervision. We conduct initial experiments showing that multimodal FMs can address the limitations of traditional RPA with (1) near-human-level understanding of workflows (93% accuracy on a workflow understanding task) and (2) instant set-up with minimal technical barrier (based solely on a natural language description of a workflow, ECLAIR achieves end-to-end completion rates of 40%). We identify human-AI collaboration, validation, and self-improvement as open challenges, and suggest ways they can be solved with data management techniques.
기업 워크플로 자동화는 연간 4조 달러의 생산성 향상을 가져올 수 있습니다. 수십 년 동안 데이터 관리 분야의 관심사였음에도 불구하고 완전한 엔드투엔드 워크플로 자동화라는 궁극적인 비전은 여전히 어려운 과제입니다. 현재 솔루션은 프로세스 마이닝과 로봇 프로세스 자동화(RPA)에 의존합니다. RPA는 봇이 미리 정의된 일련의 규칙을 따라 워크플로를 완료하도록 하드코딩된 방식입니다. 병원 및 대형 B2B 기업 사례 연구를 통해 RPA 도입은 높은 설정 비용(12-18개월), 불안정한 실행(초기 정확도 60%), 부담스러운 유지 관리(여러 FTE 필요)로 인해 저지되었습니다. GPT-4와 같은 멀티모달 기초 모델(FM)은 일반화된 추론 및 계획 능력 덕분에 엔드투엔드 워크플로 자동화를 위한 유망한 새로운 접근 방식을 제공합니다. 이러한 기능을 연구하기 위해 최소한의 인간 감독으로 기업 워크플로를 자동화하는 시스템인 ECLAIR를 제안합니다. 우리는 멀티모달 FM이 기존 RPA의 한계를 다음과 같이 해결할 수 있다는 초기 실험을 수행했습니다. (1) 사람과 비슷한 수준의 워크플로 이해 (워크플로 이해 태스크에서 93% 정확도) (2) 최소한의 기술적 장벽으로 즉시 설정 (워크플로에 대한 자연어 설명만 기반으로 ECLAIR는 40%의 엔드투엔드 완료율 달성). 우리는 인간-AI 협업, 검증 및 자체 개선을 핵심적인 해결 과제로 식별하고 데이터 관리 기술을 활용하여 이를 해결할 수 있는 방법을 제안합니다.