12月16日,AI時代數據存儲管理新挑戰分論壇在無錫成功召開,會上來自螞蟻集團、SphereEx、平凱星辰、九章雲極DataCanvas、StreamNative、騰訊雲和華為的技術專家,共同分享了AI時代下數據庫技術最新發展與實踐。
螞蟻集團開發工程師、HoraeDB 核心開發者 曹瑞秋
曹瑞秋在《時序數據庫HoraeDB 技術揭秘》的主題分享中表示,近期已將CeresDB內核捐獻到Apache基金會,捐獻的內核即為HoraeDB(CeresDB現已更名為HoraeDB)。目前主流的InfluxDB、Prometheus、VictoriaMetrics等時序數據庫仍存在時間線高基數問題和社區分佈式方案不夠完備等問題。而HoraeDB採用倒排索引支持多維查詢,時間線少,適配度高的場景,倒排索引能直接全量存放在內存中。HoraeDB的高基數解決方案的核心是摒棄時間線概念,去除對倒排索引的強依賴,針對不同tag靈活選擇索引。此外,曹瑞秋還詳細介紹了HoraeDB分佈式查詢優化、Memtable/SST read等優化設計思路。
SphereEx創始人 張亮
張亮發表了《數據庫增強計算引擎:數據庫架構革新新思路》主題演講。他認為在海量數據急速擴張,OLTP、OLAP、HTAP等多種數據應用場景,數據庫技術棧碎片化等情勢下,數據系統應對上應用層零入侵,數據庫本身工具化,因此中間加速引擎則具有創新性、可插拔、平臺化。SphereEx公司是由Apache頂級開源項目ShardingSphere核心團隊創立,致力於為企業提供面向新一代數據架構的數據庫增強引擎(DBPlusEngine),提供企業級、雲原生的輕量級分佈式數據庫解決方案、數據安全合規及信創平滑替換産品和服務,解決了企業海量數據的存儲與計算、數據安全合規等問題,幫助企業實現數據架構的轉型升級。
平凱星辰TiDB Serverless生態負責人 張翔
張翔發表了《TiDB Serverless:構建一個雲原生的Serverless數據庫》主題演講。他首先介紹了TiDB 是開源、兼容MySQL、具有分佈式,可保障業務連續性的真正的內核級HTAP分佈式混合負載數據處理平臺,在此之後的TiDB Serverless是在去年由PingCAP推出的一款雲原生的Serverless數據服務演進而來,已經由經典分佈式HTAP改造為下一代Cloud Native架構。因此可以實現如支持多租戶的統一接入網關、TiFlash計算存儲分離、計算資源池化、TiKV Keyspace,以及Scale to Zero、實時喚醒、自動擴縮容等按需分配,可以利用雲上的海量資源、高達11個9的持久性、微服務化,更高效地使用雲上資源,降低爆炸半徑等真正的原生性能,以此實現全量數據的彈性,以及簡單易用,降低AI時代的數據成本。
九章雲極DataCanvas資深架構師 孟聖智
孟聖智發表了《DingoDB:融合SQL與向量,構建功能完整的RAG數據庫底座》主題演講,他表示AI時代數據需要從更多存儲變為更易檢索,九章雲極DataCanvas作為AI基礎軟體供應商,自主研發的DingoDB多模向量數據庫,實現結構化與非結構化的聯合存儲、分析和查詢。DingoDB既是關系數據庫,支持SQL、支持事務,符合用戶使用關係型數據庫的習慣。同時,DingoDB也是向量數據庫,支持Python和Java SDK,可以像使用大多數純向量數據庫一樣,無縫對接LLM App,可以實現企業知識庫、大模型記憶體、實時決策指標計算能力、非結構化數據的檢索、Vector Ocean數據支撐平臺、結構化與非結構化的融合分析等多種知識檢索應用場景。
StreamNative聯合創始人、Apache Pulsar PMC Member 翟佳
翟佳發表了《雲原生批流融合數據平臺助力AI/LLM的實時數據處理》主題演講,他表示Pulsar從捐贈給Apache軟體基金會後的幾年裏一直在高速增長。Pulsar採用存算分離雲原生架構、支持多種語言,批和流統一視圖,可以與Flink、Spark等批流一體計算引擎有效地結合,方便管理實時和歷史數據,確保數據新鮮度,將批流一體的數據與向量數據庫結合,確保大模型的數據顯現度和準確性,以提高模型準確性,降低模型幻覺。
騰訊開源專家 耿航
耿航發表了《騰訊雲TDSQL平滑去O的機遇挑戰與開源實踐》主題演講,他表示核心數據庫平滑替換,需要從內核、性能、使用習慣三個層面全面兼容,並且是一個完整的系統工程。騰訊雲分佈式數據庫TDSQL PG開源社區版OpenTenBase是完整去O和兼容O的數據庫內核,以內核兼容為基礎,打造從驅動、工具、內核三個層面的甲骨文兼容能力,填補基於Postgres的開源分佈式HTAP系統的空白。OpenTenBase已吸引超過10個國家和地區的開發者關注,希望通過騰訊及上下游夥伴的技術投入,打造立足中國,面向全球的開放數字基礎設施數據底座。
華為openGauss內核技術專家 胡正超
胡正超發表了《openGauss內核架構雙引擎,驅動大規模數據處理》主題演講,並分享了openGauss 5.1版本持續在高性能、高可用、高安全、高智慧內核上增強能力,同時在DataPod和DataKit持續創新,目標是實現更高效的大規模數據處理,更豐富的場景支持,更便捷的使用體驗。其中DataPod在5.1版本實現了一些新功能,提升了系統的易用性、可用性和性能。DataKit為openGauss的數據全生命週期生産力工具,當前持續在平臺架構和功能插件上構建新功能,如增加告警中心、數據遷移、開發、運維等插件。
近幾年數據庫百花齊放,快速發展。生成式AI爆發之後,AI大模型加速普及應用,模型訓練推理的準確性,對系統數據與信息的存儲、檢索、計算提出了新挑戰。從本次分論壇嘉賓分享的幹貨內容,我們可以看到,針對AI的數據系統可能正在走向殊途同歸的技術路徑,那就是分佈式原生、實時、向量化(時序也可看作一種向量),另外存算分離、並行架構,以滿足AI對數據的性能、成本等要求。