2025 Trends: Neuro-Symbolic AI w/Amy Hodler & Paco Nathan
Abstract
2025년 인공지능 및 지식 그래프 분야의 예상 트렌드를 논의했습니다. 특히 전문가들은 그래프 구조 활용을 통해 데이터 간의 의존성 이해와 계산 가능성 향상을 강조했습니다. 또한 인과 관계 그래프의 잠재력과 지리공간 데이터와의 융합 가능성을 언급했으며, 법률 및 규제 분야에서의 활용 사례가 증가하고 있음을 지적했습니다. 마지막으로, 데이터 품질 향상과 모델 평가 방법의 중요성, 그리고 인공지능 시스템과 인간 협업의 필요성을 강조했습니다.
지식 그래프와 AI의 실제 적용 분야
지식 그래프와 AI의 결합이 다양한 산업 분야에 미치는 실질적인 영향에 대해 답변드리겠습니다.
지식 그래프는 데이터 간의 관계와 구조를 파악하는 데 강점이 있으며, AI는 패턴 인식, 추론, 예측 등 다양한 작업을 수행할 수 있습니다. 이 두 기술의 결합은 여러 분야에서 새로운 가능성을 열어주고 있습니다.
실질적인 영향 및 응용 분야:
- 원인 및 종속성 분석: 인과 그래프(causal graphs)를 활용하면 그래프의 구조를 이용해 사건 발생의 원인과 그 결과 간의 관계를 이해하고 계산할 수 있습니다. 이는 단순히 데이터를 조회하는 것을 넘어 데이터 위에서 직접 연산을 수행하며 기계 학습 및 추론을 가능하게 합니다. 예를 들어, 사기 탐지 사례에서 공격의 진입점을 파악하거나, 특정 이벤트가 다른 이벤트로 이어지는 ‘이유’를 파악하는 데 도움이 될 수 있습니다.
- 사기 탐지 및 신뢰 구축: 전통적인 금융 사기(신용카드 사기 등)뿐만 아니라, 그래프 분석은 AI 생성 콘텐츠의 신뢰성 확인, 유령 회사나 가짜 인물 탐지, 소매 쿠폰 사기, 보험 사기 등 다양한 복잡한 사기 수법을 파악하는 데 사용될 수 있습니다. 인간이 타인이나 브랜드를 신뢰할 때 맥락을 파악하듯, 그래프는 데이터의 맥락을 이해하여 신뢰 관련 문제를 해결하는 데 기여합니다.
- 의료 및 제약 분야: 희귀 질환 연구에서 그래프를 구축하여 잘 알려진 질병과의 유전적 유사성을 찾거나, 알려지지 않은 정보를 추론하여 데이터의 공백을 채우는 데 활용될 수 있습니다. 이는 의사들이 진단이나 치료법을 찾기 어려워하는 경우에 유망한 분야로 간주됩니다.
- 법률 및 규제 이해: 법률 및 규제 문서를 이해하고 분석하는 데 그래프가 활용됩니다. 방대한 분량의 규제 문서를 검토하거나, 법률 사건에 대한 리서치를 수행할 때, 또는 국회 청문회 회의록과 같은 문서에서 의미를 파악하는 데 지식 그래프와 RAG(Retrieval Augmented Generation)와 같은 AI 기술이 사용됩니다. 이는 인간이 수많은 문서를 일일이 읽을 수 없는 문제를 해결하는 데 도움을 줍니다.
- 표준 및 사양 관리: 항공우주 및 운송 산업과 같은 분야에서 표준 및 사양 문서를 관리하는 데 지식 그래프가 활용됩니다. 스위스(Swiss) 플랫폼과 같이 표준 개발 조직들이 협력하여 제조사가 필요한 표준의 관련 부분을 쉽게 찾고, 부품 간의 인과적 종속성(어떤 부품이 먼저 와야 하는지 등)을 파악하는 데 그래프가 사용됩니다. 또한, 디지털 트윈 애플리케이션과 결합하여 차량이 사양을 충족하는지 모델링하고 확인하는 데도 사용될 수 있습니다.
- 지리공간 및 환경 과학: 지리공간 데이터와 지식 그래프를 결합하는 것은 잠재력이 크다고 언급됩니다. NASA, NOAA(미 해양대기청) 등의 기관에서는 기후 과학 분야에서 지식 그래프를 활용하고 있습니다. 예를 들어, 해양 측정 데이터의 기록을 관리하고, 10년 후 센서 부품 교체 시 데이터의 정렬 문제를 해결하며, 국제 조약이나 보험 문제와 관련된 데이터의 맥락을 이해하는 데 사용됩니다.
- 데이터 품질 향상: AI 모델의 정확성은 데이터 품질에 크게 좌우됩니다. 지식 그래프는 엔티티 해결(entity resolution)과 같은 데이터 정리 및 변환 작업을 돕는 데 사용될 수 있습니다. 동일한 엔티티(예: 사람, 장소, 조직)가 다양한 방식으로 표현되거나, 여러 이메일 주소나 전화번호를 가진 친구와 같은 경우, 또는 다른 언어 간에 이름이 다르게 표기되는 경우 발생하는 문제를 해결하는 데 그래프가 유용합니다.
- AI 출력 개선 및 리스크 감소: 그래프는 RAG와 같은 AI 애플리케이션에서 사용될 때 응답의 정확도를 높이고, 신뢰할 수 있는 데이터를 제공하여 응답의 구체성을 높임으로써 리스크를 줄일 수 있습니다. 단순히 AI 모델의 가드레일을 늘리는 것이 오히려 응답을 모호하게 만들어 리스크를 증가시킬 수 있는 상황에서, 그래프는 더 유연하고 동적인 데이터 접근 방식을 제공합니다.
- 저비용/저관여 그래프 사용 사례: 대규모 그래프 데이터베이스를 구축하거나 유지 관리할 필요 없이, 데이터 레이크 위에 그래프 투영(graph projection)을 수행하거나, 임베딩 가능한 그래프 솔루션을 사용하는 등, 소량의 그래프 기능을 활용하는 ‘가벼운’ 사용 사례들이 나타나고 있습니다. 이는 광범위한 그래프 기술 지식이 없는 사람들도 그래프 분석의 이점(예: 몇 단계 떨어진 노드 간의 상관관계 조사)을 활용할 수 있게 하여 그래프 기술의 대중화에 기여하고 있습니다.
- 의사 결정 지원: AI가 생성한 수많은 정답 같은 응답 속에서 인간 의사결정자가 실제로 행동으로 옮길 만한 결정을 내리는 것은 어렵습니다. 인과 그래프 분석 등을 통해 어떤 항목이 가장 큰 영향력을 가지는지 파악하거나, 다양한 옵션을 비교 평가하고, 여러 이해관계자들이 협력하여 정보를 공유하고 검토하며, 최적의 경로를 결정하는 과정을 지원하는 데 그래프가 사용될 수 있습니다.
요약하자면, 지식 그래프와 AI의 결합은 데이터의 맥락, 관계, 구조를 깊이 이해하는 것을 통해 사기 탐지, 규제 준수, 연구 개발, 운영 효율성 향상 등 다양한 산업 분야에서 더 정확하고 신뢰할 수 있으며 실행 가능한 인사이트를 도출하는 데 중요한 역할을 하고 있습니다. 또한, 데이터 품질 문제를 해결하고 AI 모델의 출력을 개선하며, 복잡한 의사 결정 과정을 지원함으로써 실질적인 가치를 제공합니다.
AI 시대 데이터 관리: 지식 그래프의 역할
데이터 품질 및 관리 문제가 AI와 지식 그래프의 성공적인 활용에 어떻게 작용하며 해결될 수 있는지에 대해 답변드리겠습니다.
AI 모델의 정확성은 데이터 품질에 크게 좌우됩니다. 데이터 품질 및 관리 문제는 AI 및 지식 그래프 활용에 여러 가지 실질적인 영향을 미칩니다.
데이터 품질 및 관리 문제의 영향:
- AI 결과의 오류 및 비실용성: 데이터가 정확하지 않거나 일관성이 없으면 (예: 동일한 개체(entity)가 여러 방식으로 표현되거나, 다른 언어로 표기되거나, 여러 연락처 정보를 가질 때) AI 모델은 잘못된 결과를 생성하게 됩니다. 이는 AI 애플리케이션을 비실용적으로 만들 수 있습니다.
- 정보 누락 및 이해의 어려움: 데이터에 누락된 정보나 “음의 공간(negative space)”이 있을 때, 무엇이 누락되었는지, 그리고 그 누락이 괜찮은 것인지 이해하기 어렵습니다.
- 복잡한 데이터 탐색의 제약: 수십억 개의 노드로 구성된 대규모 그래프 데이터는 그 자체로 의미가 없을 수 있으며, 방대한 양의 규제 문서나 회의록 같은 비정형 데이터를 인간이 일일이 분석하는 것은 매우 어렵습니다.
- 신뢰 및 보안 문제: 공급망에서 부품의 출처를 정확히 파악하지 못하면 빌드된 제품의 신뢰성 및 보안에 문제가 발생할 수 있습니다.
- 위험 증가: AI 모델의 응답에 너무 많은 “가드레일”을 설정하여 모호하게 만들면, 오히려 해석의 여지가 많아져 실질적인 위험이 증가할 수 있습니다.
- 기본 원칙의 중요성 간과: 데이터 정리, 품질 관리, 업데이트, 데이터 출처(lineage) 파악과 같은 기본적이지만 필수적인 데이터 관리 측면을 간과하면 결국 AI 활용에서 좋은 결과를 얻을 수 없습니다.
지식 그래프 및 AI 결합을 통한 해결 방법:
지식 그래프는 데이터 간의 관계, 맥락, 구조를 깊이 이해하는 데 강점을 가집니다. 이를 AI와 결합하여 다음과 같은 방식으로 데이터 품질 및 관리 문제를 해결하고 활용도를 높일 수 있습니다.
- 개체 해소(Entity Resolution) 및 데이터 정리: 지식 그래프는 다양한 방식으로 표현된 동일한 개체를 식별하고 연결하는 개체 해소 작업을 돕습니다. 이는 데이터 정리 및 변환에 매우 중요하며, AI가 정확한 개체를 식별하도록 돕습니다.
- 패턴 매칭 및 해소: 그래프를 사용하면 데이터 내에서 반복되는 패턴을 식별하고 해소하여 일관성을 높일 수 있습니다.
- 관계 및 종속성 이해: 그래프 구조를 활용하여 데이터 간의 관계, 특히 사건 발생의 원인과 결과 간의 인과적 종속성(causal dependency)을 이해하고 분석할 수 있습니다. 이는 사기 탐지 및 표준/사양 관리 등 복잡한 문제 해결에 필수적입니다.
- 잠재 지식 추론 및 데이터 공백 채우기: 지식 그래프는 기존 데이터를 기반으로 알려지지 않은 정보를 추론하거나 데이터의 공백을 채우는 데 사용될 수 있습니다. 희귀 질환 연구에서 유전적 유사성을 통해 정보의 공백을 메우거나, 데이터 구조를 통해 잠재된 정보나 계층을 추론하는 것이 가능합니다.
- 데이터의 계층 및 추상화 관리: 복잡하고 대규모인 데이터를 그래프를 통해 의미 있는 계층으로 추상화하고 관리할 수 있습니다. 이를 통해 수십억 개의 노드 대신 수백 개의 응집된 노드만으로도 핵심 구조를 파악할 수 있으며, 표준 및 사양 문서 관리나 지리공간 데이터 분석 등에서 복잡성을 관리하는 데 도움을 줍니다.
- 표준 및 사양 문서 관리: 항공우주 및 운송 산업처럼 방대한 표준 및 사양 문서를 그래프로 모델링하여 관리하면, 특정 부품에 필요한 표준을 쉽게 찾고 부품 간의 인과적 종속성을 파악하여 사양 준수를 보장할 수 있습니다.
- 오래된 데이터의 일관성 관리: NOAA(미 해양대기청)의 사례처럼, 200년 이상 축적된 해양 측정 데이터처럼 시간이 지나면서 센서나 벤더가 달라져도 그래프를 통해 데이터 출처를 관리하고 데이터 정렬 문제를 해결하여 일관성을 유지할 수 있습니다.
- AI 출력 개선 (RAG 활용 등): 그래프는 RAG(Retrieval Augmented Generation)와 같은 AI 애플리케이션에서 신뢰할 수 있는 데이터를 제공하여 응답의 정확도와 구체성을 높입니다. 이는 모호한 AI 응답으로 인한 리스크를 줄이고 실용성을 높이는 데 기여합니다.
- 저비용/저관여 그래프 활용: 데이터 레이크 위에 그래프 투영(graph projection)을 하거나 임베딩 가능한 솔루션을 사용하는 등, 대규모 그래프 데이터베이스 구축 없이도 소량의 그래프 기능을 활용하는 접근 방식이 등장하고 있습니다. 이를 통해 광범위한 기술 지식 없이도 엔티티 해소, 상관관계 조사 등 데이터 정리 및 탐색에 그래프의 이점을 활용할 수 있게 됩니다.
- 의사 결정 지원: 그래프 분석(특히 인과 그래프)은 AI가 생성한 여러 잠재적 “정답” 중에서 어떤 요소가 가장 큰 영향력을 가지는지 파악하고, 다양한 옵션을 비교하며, 여러 이해관계자가 협력하여 최적의 경로를 결정하는 등 인간의 복잡한 의사 결정 과정을 지원합니다.
- 데이터 상호 운용성 개선: 그래프 데이터와 비(非)그래프 데이터 간의 상호 운용성을 개선하려는 시도(Graph BI 등)는 기존 BI 도구 내에서 그래프 분석 결과를 활용하게 하여 데이터 관리 및 분석의 효율성을 높일 잠재력이 있습니다.
요약하자면, 데이터 품질 및 관리 문제는 AI 활용의 근본적인 제약 요소이지만, 지식 그래프는 데이터의 구조, 관계, 맥락을 모델링하고 분석하는 능력을 통해 개체 해소, 패턴 매칭, 누락 정보 추론, 복잡한 데이터 탐색 및 관리, AI 출력 개선, 의사 결정 지원 등 다양한 측면에서 이러한 문제를 해결하고 AI의 성공적인 활용을 위한 기반을 마련하고 있습니다.
지식 그래프 접근성 변화와 영향
지식 그래프의 접근성이 높아짐에 따라 일반 사용자의 데이터 탐색 및 분석 방식에는 여러 변화가 예상됩니다. 소스에 따르면 이러한 변화는 주로 다음 측면에서 나타날 수 있습니다.
-
‘가벼운(Light Touch)’ 그래프 사용 사례 증가: 이제는 대규모 그래프 데이터베이스를 구축하거나 유지 관리할 필요 없이, 소량의 그래프 기능만 활용하는 방식이 가능해지고 있습니다. 이는 데이터 레이크 위에 그래프 투영(graph projection)을 수행하거나, 임베딩 가능한(embeddable) 그래프 솔루션을 사용하는 형태를 포함합니다. 즉, 그래프 기술에 대한 깊은 전문 지식이 없는 사용자도 데이터에 ‘그래프 스프링클을 약간만 뿌리는’ 방식으로 그래프의 이점을 활용할 수 있게 됩니다.
-
복잡한 전체 그래프 대신 필요한 부분 탐색: 사용자는 더 이상 전체 그래프의 복잡성에 압도되지 않고, 업무에 필요한 작은 부분(예: 10-20개의 노드로 구성된 서브그래프)에 집중하여 탐색하고 분석할 수 있게 됩니다. 이를 통해 실제 작업자들이 복잡한 데이터를 더 효과적으로 다룰 수 있습니다.
-
경량 그래프 알고리즘의 활용 확산: 복잡한 그래프 쿼리 언어를 숙지하는 대신, 경량 그래프 알고리즘(lightweight graph algorithms)을 적용하여 필요한 패턴을 찾고 조치를 취하는 방식이 일반화될 수 있습니다. 예를 들어, 몇 단계 떨어진 노드 간의 상관관계를 조사하거나, 페이지랭크(PageRank)와 같은 알고리즘을 사용하거나, 데이터에서 패턴을 찾고 해결하는 작업(예: 엔티티 해소)을 더 쉽게 수행할 수 있습니다.
-
데이터 품질 개선 작업의 대중화: 동일한 엔티티(사람, 장소, 조직 등)가 다양하게 표현되거나 다른 언어 간에 이름이 다르게 표기되는 등의 데이터 품질 문제는 과거부터 존재했지만, 이제는 그래프 기술을 활용한 해결 방안이 더 많은 사람의 손에 주어지고 있습니다. 사용자는 그래프를 사용하여 이러한 데이터 정제 및 변환 작업을 더 효과적으로 수행할 수 있습니다.
-
비전문가의 ‘그래프 같은(Graphy like)’ 작업 수행: 사용자는 자신이 그래프를 사용하고 있다는 사실조차 인지하지 못한 채, ‘그래프 같은 작업’을 수행하게 될 수 있습니다. 이는 구글 지도와 같은 도구를 활용하여 데이터 탐색 및 분석을 수행하는 ‘데이터 탐정(data sleuths)’에 비유될 수 있으며, 금융 사기 탐지, 조사 등 다양한 분야에서 활용될 가능성이 있습니다.
이러한 변화는 데이터의 관계와 맥락에 대한 통찰력(‘네트워킹 인사이트’)을 얻는 것을 더 많은 사람에게 가능하게 하며, 데이터 탐색 및 분석에 대한 창의성을 높이고 이전에 발견하기 어려웠던 가치 있는 문제들을 해결하는 데 기여할 수 있습니다. 다만, 그래프 기술에 대한 광범위한 지식이 없는 ‘시민 과학자(citizen scientists)’들이 그래프 작업을 수행하면서 실수할 가능성에 대한 우려도 제기됩니다.