《失控》作者K·K认为:未来的商业乃数据之商业,处理数据和处理客户一样重要。

的确,数据是所有企业在数字化时代的生命之源。随着AI大模型和生成式AI的崛起,让企业生产力范式迎来巨大变革,数据要素+人工智能技术已彻底重塑企业的流程、管理和服务等,成为企业在市场中形成差异化竞争优势的关键。

这其中,如何让Data+AI更好地融合正在成为当前产业界所面临的首要挑战。Data+AI融合不仅是企业实现数据价值持续释放的关键,也是大规模应用AI技术的基础前提,更直接决定着未来生产力范式的全面转变。

近年来,无论是国外的AWS、Databricks、SAS等公司,还是国内的云大厂、StarRocks等初创公司,均将目标瞄准Data+AI ,旨在从产品上化繁为简,推动Data+AI的全面融合,以满足越来越多复杂的应用需求,帮助企业在AI时代打造新质生产力。

史上最大融资,Data+AI的胜利

几年前机器学习流行之际,Data+AI融合的苗头已开始显现,像Cloudera、Databricks等大数据公司纷纷致力于集成TensorFlow等流行AI框架,支持机器学习工具的开发等;2023年初,AI大模型和生成式AI应用的爆发,则犹如一股强劲的催化剂,极大地推动了Data+AI走向融合。

例如,刚刚完成100亿美元史上最大融资的独角兽Databricks就动作频频,不仅打造出开源大模型Dolly,还收购大模型公司 MosaicML,并致力于构建数据分析与人工智能的统一平台。

Data+AI融合趋势之所以被产业界广泛认可,实乃数据分析+人工智能平台已经成长为企业数智转型升级的核心底座,牵引着企业生产力范式的转变和未来转型升级。

一方面,在Scaling Law法则驱动下,形成通用大模型和垂直大模型并存发展的局面,AI大模型快速迭代与发展带来极为复杂的数据处理需求,对于数据处理带来一系列全新的挑战。众所周知,大模型的效果好坏与数据质量息息相关,而数据质量很大程度又依赖对海量数据的数据治理、处理和管理。例如,检索增强生成(RAG)是生成式AI应用的关键技术,需要结合向量数据库与传统数据库技术,提升数据检索和生成的能力,对于数据处理带来诸多挑战。


另一方面,AI大模型和生成式AI也在推动数据处理与分析走向更加智能和便捷,有望持续降低数据消费和使用的门槛。例如,在查询和检索、数据清洗和准备、分析和可视化等诸多环节融入生成式AI能力,有效提高数据处理效率,彻底改变数据分析、数据使用与交互的方式,让数据处理与分析走向简单与便捷。

因此,面对日益复杂的数据环境,Data+AI融合势在必行,构建灵活、高效和智能的数据分析与人工智能统一平台成为大势所趋。“大模型时代,企业的IT架构正在变成以数据为核心,大数据和大模型的融合,是形成新质IT生产力的关键。”腾讯云副总裁黄世飞在12月一场媒体沟通会上如是说。

那么,Data+AI在产品层面是如何实现的?什么样的数据分析与人工智能平台代表着未来Data+AI的融合趋势?

Data+AI如何走向融合

Data+AI在产品层面上的融合,本质上是为了简化数据处理和提升人工智能开发应用效率。

在目前市场中,国内外众多巨头、独角兽均瞄准了Data+AI的融合。Databricks是推动Data+AI融合的代表。作为数据分析与人工智能领域的独角兽,Databricks虽然有花费巨资收购大模型初创公司MosaicML这样的大手笔,但始终坚持统一架构的产品模式,致力于将数据湖仓、数据工具和AI工具集成为统一的数据分析与人工智能平台,近年来基于统一架构下更是开发出Lakehouse IQ、LakehouseAI、AI Gateway、Unity Catalog等一系列新功能。

同样,AWS($亚马逊(NASDAQ|AMZN)$)也在致力于简化数据处理与人工智能的技术堆栈。在今年12月的re:Invent大会上,AWS直言数据、分析和AI结合在全新的平台是重要的趋势。为此,AWS正在整合SQL Analytics、Data Processing、Machine learning、生成式AI开发、BI等诸多功能,并且通过一站式的平台提供给用户使用。


无独有偶,腾讯云($腾讯控股(HK|00700)$)也是推动Data+AI融合的突出代表,其最新一代数据智能平台TChouse-X采用一体化的架构设计,一份数据即可支持在线分析、离线处理、数据湖探索和机器学习等多种业务负载,实现AI、BI和Data在一个平台上开发和共建。

如果仔细分析上述三家公司在Data+AI融合方面的动作,会发现一体化、智能化、高性能和云原生是Data+AI在产品层面最为关键的四个趋势。

首先是一体化。一体化的架构与产品无疑是简化技术栈、推动各种产品功能融合和提升AI应用开发效率的关键方式。事实上,像Databricks、腾讯云等公司是一体化产品策略的坚定支持者。腾讯云大数据基础产品中心总经理程彬直言,AI大模型时代,数据分析与人工智能平台需要在产品体验和运营层面减少复杂性,回归到减法模式,太多的选择意味着效率会降低。

其次是智能化。众所周知,当前所有产品都迎来一次重要的重塑,AI大模型和生成式AI正在深刻改变各种软件产品的设计、开发和体验,数据分析与人工智能平台产品也不例外,甚至需要走在智能化的最前面,在数据治理、数据管理、模型训练、应用开发等方面更加智能化,降低数据分析与AI开发的门槛,推动AI应用的普及。

第三是高性能。当前,企业面临的数据栈环境复杂程度远胜以往,数据分析与人工智能平台从过去单一的数据仓库迅速走向囊括指标平台、交互式分析、实时分析、流计算、机器学习等在内的综合平台,对于各项工作负载的性能要求也是水涨船高,“Data+AI融合的趋势下,追求高性能将成本平台产品的基本诉求。计算范式延伸到二维表+分布式ML计算+AI搜索,需要面向多种工作负载的高性能计算引擎来支撑。”程彬如是说。

最后则是云原生。事实上,无论AWS、腾讯云这些云服务商,还是Databricks、Snowflake($Snowflake Inc-A(NYSE|SNOW)$)、StarRocks等,他们的数据平台类产品无一例外从诞生伊始与云强相关,生于云、长于云,充分利用云原生的特性,实现资源的弹性伸缩,以适应不同的工作负载需求。

“在AI大模型时代,数据平台不仅仅需要云原生,还需要AI原生,让整个数据分析与人工智能平台自身更加聪明、更加自治。”程彬补充道。

中国Data+AI浪潮来袭,谁有备而来?

无疑,中国市场正迎来Data+AI融合浪潮的全面来袭。

随着中国千行百业数字化转型的深入,中国正成为当之无愧的数据大国。IDC预测,中国在2024年预计生成38.6ZB数据,未来五年,中国的数据量年复合增长率(CAGR)将达到25.7%,中国有望成为全球最大数据圈,为生成式AI应用带来丰富的数据资源。

另一方面,中国AI大模型领域发展迅速,AI大模型正加速进入到各大垂直行业之中。同时,中国行业丰富、产业布局完整,有着极为丰富多样的行业应用场景,是生成式AI等技术天然优良的“试验土壤”和“培育基地”。沙利文头豹《2024年中国行业大模型市场报告》显示,中国行业大模型市场2024年有望达165亿元,同比增长57%,行业智能化转型需求是市场爆发性增长的主要驱动力。

显然,在“数据要素X”三年行动计划”、“人工智能+”等政策的驱动下,数据分析与人工智能平台将成为企业未来转型升级的核心抓手。IDC《数据智能市场趋势分析,2024》报告认为,在生成式AI的驱动下,未来5年中国企业在数据管理和数据分析基础设施建设的投资将持续高增长。

事实上,巨大的市场潜力也吸引到众多市场参与者,并且涌现出一批数据分析、人工智能相关的产品。这其中,腾讯云可谓是有备而来,其最新的TCHouse-X采用一体化的架构设计,彻底打破传统数据平台在离线计算、在线计算和AI开发之间的壁垒,成为数据分析与人工智能一站式平台的代表。

除了采用一体化的架构设计之外,腾讯云TCHouse-X在优化器、计算引擎、存储引擎等核心引擎是全部自研,能够为用户提供全链路极致性能;同时,腾讯云TCHouse-X实现系统交互、资源管理和运维管理的智能化,并能够实时感知负载并智能规划资源;此外,TCHouse-X支持多种弹性策略,擅长支撑突发流量高峰、大规模查询等场景。


腾讯云副总裁黄世飞直言:“从架构层面来看,腾讯云TCHouse-X从一开始就是围绕AI相关来考虑的,这有别于之前一些较早的数据分析与人工智能平台。另外,腾讯云拥有强大的基础设施,从端到端的的维度来确保TCHouse-X在性能上更加出色。”

综合来看,腾讯云TCHouse-X作为数据分析与人工智能一体化平台产品,已经展现出极强的产品力。例如,在在线查询方面,腾讯云TCHouse-X性能优于Snowflake 50%,离线批处理综合性价比优于Snowflake 10倍以上。

据悉,针对TCHouse-X,腾讯云目前推出了公有云版本。“腾讯云的产品策略是公有云与私有云并重。TCHouse-X会最先在公有云上为用户提供服务,后续会逐渐进入到私有云,去适配私有云环境中的各种IT环境。”黄世飞最后表示道。

作者声明:个人观点,仅供参考
追加内容

本文作者可以追加内容哦 !