陈朝晖博士,江苏省双创人才、满帮集团首席科学家 ,负责满帮大数据平台和数据创新业务。加入满帮前,为阿里云大数据人工智能研究员,负责城市大脑数据资源平台和算法的研发和交付。加入阿里云之前是硅谷创业公司Celential.ai的联合创始人。陈朝晖毕业于西安交通大学,在美国哈佛大学工程和应用科学学院获得PhD,曾长期在硅谷Oracle,Yahoo,eBay等知名互联网企业担任技术研发和技术管理工作。




前言:

人工智能技术的发展与成功应用已经成为21世纪科技领域最大的新现象。从目前的进展来看,科学地理解人工智能原理已经超出了现有科学体系的范畴。显然,人工智能是人类科学技术发展的产物,人工智能科学也将是人类科学进步与发展必然实现的目标。

大型语言模型是包含了数百亿以上模型参数的深度神经元网络,它使用自回归学习方法通过大量无标注文本、图像进行训练。自2018年以来,Google、OpenAI、Meta、百度、华为等公司和研究机构都相继发布了包括BERT,ChatGPT等在内多种模型,并在几乎所有自然语言处理任务中都表现出色。2019年大模型呈现爆发式的增长,2022年11月ChatGPT 3.5发布,用户可以使用自然语言与系统交互,从而实现包括问答、分类、摘要、翻译、聊天等各种任务。

随着ChatGPT火爆出圈,AI领域又迎来了新的一轮投资热潮。大模型展现出了强大的对人类自然语言以及世界知识的掌握和理解能力,通过多模态数据的增强,它同时还具备了对图形、图像、音频数据的理解和推理能力,这引发了人们对于大模型技术和应用的广泛关注。创投集团邀请到了满帮集团首席科学家陈朝晖博士,和我们一同解读预训练大模型在各行业中的影响。




预训练大模型持续火爆,在AI领域为什么会形成这样的热点?


基于信息检索的知识问答系统很早就有尝试,与谷歌同期在硅谷有一家创业公司PowerSet,直接从各类网页内容中总结出答案反馈给用户。谷歌也基于相似的理念推出了自己的知识搜索服务(Knowledge Search)集成在自己的网页搜索结果页面中。本世纪初算力与存储的爆发式增长促进了机器学习中神经元网络规模的大幅提升,各类基于深度学习的模型取得了重要的突出。OpenAI经过了一个相当长的研发历程,从ChatGPT 1.0一直持续投入,堆积了在过去看来天量的计算资源,直到最近推出目前最新的ChatGPT 4.0 Turbo。最新的大模型展现出了对人类对话深度的理解能力,除了知识整合之外,还具备了很高的推理逻辑性。在特定领域,通过海量数据的学习,模型已然形成了超出普通人类的理解和推理能力。OpenAI团队自己也表示对ChatGPT所涌现出的“智力”无法完全理解。可以比较确定地说,大部分行业都将面临大模型的重塑和改造。


大模型相较于传统机器学习有哪些异同点?


机器学习早期研究的主要工作大量聚集在特征维度的提取和选择上,这些维度包括自然属性特征、统计特征和各类人类根据业务场景主观设计的特征或者说标签。深度学习实现了特征自动化抽取,但仍然依赖一个复杂的优化过程,特别是训练数据集合的选择。而预训练大模型通过大量地“投喂”通用数据,捕捉到了语料中存在的统计意义上的规律。传统的机器学习方法,遇到新问题通常需要重新构建完整的训练数据集,与此不同的是,预训练大模型由于有事前巨量预训练的支撑,对于各个垂类领域通常只需要相对少量数据和提示词(prompting)训练,就可以有不错表现。深度学习为大模型的研究带来了巨大的推动力,大模型当前所展现的能力主要受益于以下几个关键因素的推动:1)大规模、多模态训练数据集合;2)近乎无限的超强计算能力(成本不低);3)使用更为先进学习框架,例如Transformer架构就比之前的CNN卷积神经元网络更容易提取上下文注意力(Attention)。


基于大模型的盈利模式有哪些?


大模型的商业变现非常重要,与巨大的投入成本相比,当前的收入能否覆盖各项成本支出仍未可知。目前,我们可知的主要商业落地的方法如下:1)基于通用大模型的基础服务:算法服务调用可以作为标准化的产品进行售卖,形成类似于云计算资源的服务提供商。这一部分各个大模型会在厂商服务的比较中表现出优势,国外如OpenAI、国内如智谱AI等都表现的不错。2)部分领域也会出现垂类大模型应用,通过对行业/产业知识、问题的适配,提供特定领域的专项服务。例如Stability AI推出的文生图和图生图,公司在对输出图片结果质量上的控制占据了明显的技术优势,因此吸引了一批用户。3)各个细分行业企业内部也会基于各类开源预训练大模型,构建各自赛道上的大模型应用,帮助行业消减人力成本和沟通成本。大模型的价值目前主要还体现在“降本”这一侧,能否因为大模型的推动产生新的业务需求,这也是一个非常值得关注的领域。目前看这方面的进展还比较有限。


结合您所从事的行业,请介绍在大模型如何得到运用?


满帮集团是国内最大的公路货运车货匹配信息平台,积累了大量运输场景的数据包括货、车、路、人、场五个方面。不同于滴滴等客运平台的直接派单机制,货运订单的达成存在更长时间的沟通过程。目前公路货运下单平均单价约2000元,在交易过程中,货主和车主的决策流程更重,因此交易的摩擦成本相应的也更高。据满帮内部统计,车主方面为每单货运信息大约要支付200元的发现成本,货主为每单货运也要承担约40元的调度成本,其中还有不菲的时间支出。因此满帮从提升沟通效率、降低行业交易成本出发,正在研发基于大语言模型的司机智能助理和货主智能助理,帮助双方进行交易前期的信息匹配和交互,提升撮合效率,如果按公路客运每年20亿单量预估,仅这一项将有望为行业降低千亿成本。


您对大模型的未来发展趋势有什么展望?


从技术能力角度,大模型和算力互相促进发展的循环已经得到初步验证,未来随着更多高质量、结构化数据的投入,大模型可能会迎来超出人类预期的能力跃升。在模型层方面,到今年年底,国内有几家成熟的头部通用大模型厂商的能力可以达到 ChatGPT 3.5的水平。预计明年,应该会出现进入到大规模商用的阶段的大模型。从应用角度,目前来看这一轮预训练大模型的发展,至少国内厂商的产品,还没有来到属于它的“iPhone”时刻。目前看,除了降本增效,提供一部分沟通能力之外,预训练大模型引发的新需求空间也非常值得期待。总之,我们应当为大模型能力的爆发式增长做好心理建设、能力管控等各方面的准备工作。我个人对大模型的未来的能力以及它所能引发的产业革命的前景是非常乐观的。但与此同时,大模型的伦理、法理、安全性规范也是非常值得关注的领域。



感谢陈朝晖博士的分享。我们相信,通过用户反馈和实践创新反哺大模型,将进一步夯实基础大模型技术,推动大模型的场景化落地。


追加内容

本文作者可以追加内容哦 !