近几日,科技圈最具焦点的事件无疑是OpenAI发布了全新大模型GPT-4o。GPT-4o最大的特点就是,其拥有多模态的能力,能够灵活处理文本、图像和音频等多种类的数据。自此,人与机器之间的交流也变得更加亲近与自然。

这也透露出一个重要的信号:支持端到端实时多模态将成为当下大模型发展的新趋势,实时文本、音视频传输能力,将成为实时大模型的标配。GPT-4o能够直接将语音实时输入给大模型,并最终实现像真人聊天一样自然流畅的体验,离不开大模型的进化,以及RTC能力的支持。

北京时间5月23日,声网母公司 Agora, Inc.(NASDAQ: API) 发布了2024年第一季度财报。财报显示,第一季度 Agora, Inc. 实现营收3302万美元,其中,业务聚焦中国市场的声网实现营收1.23亿人民币,聚焦非中国市场的 Agora 实现营收1580万美元。客户规模方面,截至2024年3月31日,Agora, Inc. 活跃客户数量达5553个,同比增长3%。其中,声网活跃客户数量3833个,Agora活跃客户数量1720个。

Agora, Inc. 创始人兼CEO赵斌表示,“尽管面临充满挑战的市场环境,我们持续专注于提升产品的核心性能。我们发布了全新的视频质量优化整体方案,并将我们的 SDK 稳定性提升至历史最佳水平。我坚信这些改进不仅为现有客户创造了价值,也为未来更加多元的应用场景创新奠定了坚实基础。此前我们曾预测,生成式人工智能模型将能够与用户直接进行音视频对话,而这一预测正在迅速成为现实。大模型与人的音视频交互将极大地受益于我们的技术积累,有望发展成为实时互动技术重要的应用场景。”

不得不承认,从GPT所代表的大模型进化路线来看,RTC逐渐成为实现人与AI进行实时语音对话的关键技术之一。

为了更好在大模型技术的进化中充分发挥出自身优势,近日,声网进一步丰富 AIGC 一站式解决方案。针对大模型的交互能力,声网目前已可以提供基于大模型的全链路实时音视频方案,可以帮助大模型厂商构建实时音视频互动的能力,用户可通过麦克风与 AI 进行语音、视频形式的实时互动,并且做到行业内领先的低延时对话体验。

声网的 AIGC 一站式音视频解决方案也可以实现像 GPT-4o 的音频对话能力。声网提供封装完整的 SDK,并支持模块化能力的灵活拼装,包含 RTC 实时音视频、实时消息等多种能力,并支持 API 快速调用,提供开箱即用的场景化 Demo,最快 3h 即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言,可以节省很多开发时间。

除了在AIGC方面的进化之外,从声网母公司发布的2024年Q1财报中可以看到,本季度,声网持续聚焦于多元应用场景创新和行业拓展,发布了两款重磅解决方案,分别为声网赛事直播方案和 RTC+AI 教育超级双擎解决方案。声网赛事直播方案,助力直播平台以更低的成本,获得更高质量的赛事直播效果与用户体验。RTC+AI 教育超级双擎解决方案,则助力了在线课堂教学体验的升级以及教学场景的创新。

在出海领域,声网也持续深耕 1v1 社交场景,助力客户在网络环境复杂多变的地区,也能拥有流畅稳定的音视频互动体验,跑赢出海大盘。据数据显示,声网 1v1 社交客户在全球各区域的1v1 App 市场渗透率>70%,其中在中东地区 1v1 社交 App 收入 TOP20中,使用声网 SDK 的 App 就达到了14个,渗透率排名第一。

随着大模型技术的不断进化、出海领域的需求不断生长、以及各种各样对RTE技术有需求的场景不断衍生,我们有理由相信,声网将创造更多基于RTE领域的场景和解决方案。

追加内容

本文作者可以追加内容哦 !