by김현아 기자
2024.06.10 09:48:27
오픈 레이크하우스 비전 실현을 위한 전략적 협력
[이데일리 김현아 기자] 데이터 및 AI 분야의 기업 데이터브릭스(Databricks)가 데이터 관리 전문 기업 타뷸러(Tabular) 인수에 합의했다고 10일 발표했다.
타뷸러는 아파치 아이스버그(Apache Iceberg)의 창시자인 라이언 블루(Ryan Blue), 다니엘 윅스(Daniel Weeks), 제이슨 리드(Jason Reid)에 의해 설립된 회사다.
이번 인수를 통해 데이터브릭스는 오픈소스 레이크하우스 형식 간의 시너지를 극대화하고 데이터 호환성을 선도해 조직들이 데이터 형식에 제약받지 않도록 지원할 계획이다.
데이터브릭스는 이번 인수로 델타 레이크와 아이스버그 커뮤니티 간의 긴밀한 협력을 통해 형식 호환성을 제공할 예정이다.
이 협력은 초기에는 델타 레이크 유니폼(UniForm) 내에서 이루어지며, 장기적으로는 개방적이고 통일된 상호운용성 표준으로 발전할 전망이다.
2020년 데이터브릭스가 도입한 레이크하우스 아키텍처는 기존 데이터 웨어하우징 워크로드와 AI 워크로드를 통합해 관리가 가능한 단일 데이터 사본으로 제공한다. 이를 통해 다양한 워크로드와 애플리케이션이 동일한 데이터에 접근할 수 있도록 개방형 형식을 유지한다. 레이크하우스 아키텍처는 데이터 접근을 보편화하여 기업의 생산성을 극대화하는 반면, 독점 데이터 웨어하우스는 특정 SQL 엔진만이 데이터를 사용할 수 있어 제한적이다.
현재 전 세계 기업의 약 74%가 레이크하우스 아키텍처를 구축하고 있으며, 이는 오브젝트 스토리지에 저장된 데이터의 ACID 트랜잭션을 지원하는 오픈소스 데이터 형식에 기반하고 있다.
데이터브릭스는 리눅스 재단과 협력해 델타 레이크 프로젝트를 출범시켰으며, 500명 이상의 코드 기여자와 함께 전 세계 1만개 이상의 기업이 매일 평균 4엑사바이트 이상의 데이터를 처리하고 있다.
델타 레이크가 탄생할 당시, 라이언 블루와 다니엘 윅스는 넷플릭스에서 아이스버그 프로젝트를 개발해 아파치 소프트웨어 재단에 기부했다. 이후 델타 레이크와 아이스버그는 레이크하우스 형식의 주요 오픈소스 표준으로 부상했다. 그러나 두 표준이 독립적으로 개발되면서 데이터 호환성 문제를 일으켜 기업 데이터가 파편화되는 문제가 발생했다.
데이터브릭스는 이러한 문제를 해결하기 위해 델타 레이크 유니폼(UniForm)을 발표했다. 유니폼은 델타 레이크, 아이스버그, 후디(Hudi) 간의 상호 운용성을 제공하며, 기업이 모든 데이터에서 익숙한 분석 엔진과 도구를 사용할 수 있도록 돕는다. 이번 타뷸러 인수를 통해 데이터브릭스는 유니폼을 더욱 확장할 계획이다.
데이터브릭스와 타뷸러는 오픈소스 형식을 옹호하는 공통점을 공유하며, 이번 인수는 클라우드에서 개방형 포맷과 오픈소스 데이터를 위한 데이터브릭스의 지속적인 노력을 보여준다. 이는 기업들이 데이터를 제어하고 독점 공급업체 형식의 종속성에서 벗어날 수 있도록 지원한다.
라이언 블루 타뷸러 공동창업자 겸 CEO는 “아파치 아이스버그를 개발한 이유는 정확성, 성능, 확장성과 관련된 중요한 데이터 문제를 해결하기 위해서였다. 타뷸러가 데이터브릭스에 합류하여 개방형 레이크하우스 형식을 기반으로 최고의 데이터 관리 플랫폼을 구축할 계획”이라고 밝혔다.
데이터브릭스의 타뷸러 인수에 대한 자세한 정보는 6월 10일부터 13일(현지 시간)까지 열리는 데이터브릭스 데이터 + AI 서밋(Data + AI Summit)에서 확인할 수 있다.
이번 인수는 관례적인 마감 조건에 따라 달라질 수 있으며, 데이터브릭스 회계연도 2분기 내에 완료될 예정이다.