比尔盖茨(微软前CEO)说:“这种AI技术出现的重大历史意义,不亚于互联网和个人电脑的诞生。”

马斯克(特斯拉CEO)说:“ChatGPT好吓人,我们离强大到危险的AI不远了。”

黄仁勋(英伟达CEO)说:“ChatGPT类似AI界的iPhone。”


火出圈的ChatGPT,仅仅是GPT的子功能之一,上线2个月MAU即突破1亿人,创下人类历史最快的记录,今天我们就从其最基础的逻辑展开,对其进行初探。

文章包含(1)NLP;(2)Transformer;(3)BERT、GPT两者对比;三个部分,没有复杂的公式、图表,仅探索逻辑,欢迎留言共同探讨。


NLP(Natural Language Processing,自然语言处理)

自然语言处理(NLP)是研究人与计算机交互的语言问题的一门学科。NLP任务(自然语言处理,AI的一个技术领域,即文本类的AI任务)的核心逻辑是一个“猜概率”的游戏。

比如说,“我今天被我老板___”,经过大量的数据训练后,AI预测空格处会出现的最高概率的词是“PUA了”,那么PUA就会被填到这个空格中,从而答案产生——“我今天被我老板PUA了”。

虽然非常不可思议,但事实就是这样,现阶段所有的NLP任务,都不意味着机器真正理解这个世界,他只是在玩文字游戏,进行一次又一次的概率解谜,本质上和我们玩报纸上的填字游戏是一个逻辑。只是我们靠知识和智慧,AI靠概率计算。

NLP问答分为2个层次:(1)语句通顺;(2)符合知识;比如人工智能回复:中国的首都是上海,就实现了语句通顺,但是不符合知识。

而在目前的“猜概率”游戏环境下,基于大型语言模型(LLM,Large Language Model)演进出了最主流的两个方向,即BERT(Bidirectional Encoder Representations from Transformers)和GPT(Generative Pre-trainning Transformers),可以看到这两个方向最后一个单词都是Transformers,因此我们先讲讲这个词背后的意思,再讲具体的BERT、GPT。


Transformer

2017年,谷歌提出用于序列翻译的Transformer模型,在该模型中创造性的使用完全的注意力模块替代循环神经网络(RNN)结构以实现注意力机制,Transformer一诞生就在自然语言处理(NLP)领域中取得了碾压性的好成绩。

注意力机制最大的特点,就是使得AI工作时会注重重点,它把每一个输出的语言以及预测的语言在进行翻译时,要提前对预测的语言说出前,要重新检验原来所有的词,而所有的词有的词是重视的,有的是不重视的,这就是注意力模型做出来的,而哪个重要不是人指定的,是自动学习的,引发了长句翻译等等的重大进展。

Transformer算是开了个好头,如果将Transformer也做预训练模型的基础架构,会不会“好上加好”?OpenAI和谷歌在2018年分别提出了GPT(Generative Pre-Training)模型和BERT(Bidirectional Encoder Representations from Transformers)模型,这两种模型都是基于Transformer预训练模型的典型代表,也是今天的主角。


BERT、GPT两者对比

通过BERT、GPT两者基础逻辑对比,其实非常好理解两者的差异。

在GPT3“出圈”之前,BERT是之前最流行的方向,几乎统治了所有NLP领域,并在自然语言理解类任务中发挥出色(例如文本分类,情感倾向判断等)。

而GPT方向则较为薄弱,最知名的玩家就是OpenAI了,事实上在GPT3.0发布前,GPT方向一直是弱于BERT的(GPT3.0是ChatGPT背后模型GPT3.5的前身)。

接下来看看BERT和GPT两者之间的差别:

BERT:双向 预训练语言模型+fine-tuning(微调)

GPT:自回归 预训练语言模型+Prompting(指示/提示)

BERT和GPT两者都是基于大语言模型的,他们在这一点上是相同的。他们的不同在于双向/自回归,fine-tuning/Prompting这两个维度,我们接下来会重点弄明白这四个术语。

BERT:双向。双向是指这个模型在“猜概率的时候”,他是两个方向的信息利用起来同时猜测。例如“我在__汉堡”,他在预测的时候,是同时利用“我在”+“汉堡”两端的信息来预测空格中的词可能为“吃”。有点像我们做英文的完形填空,通常都是结合空格两端的信息来猜测空格内应该是哪个单词。

GPT:自回归。自回归就是猜概率的时候从左往右做预测,不会利用文本中右侧的内容,和BERT相反。这就有点像我们写作文的时候,我们肯定是一边写一边想。

两者基本理念的区别导致BERT在之前更擅长自然语言理解类任务,而GPT更擅长自然语言生成类任务(例如聊天、写作文),但这些问题已经在GPT时代有所改变


BERT的fine-tuning模式有两个痛点:

1. 我需要准备某个专业领域的标注数据,这个数据还不能少,如果太少,AI模型训练后就会形成过拟合(就是AI直接背下了整本习题册,册里的问题100%正确回答,但是稍微变换题型就GG)。

2. 我需要部署大语言模型,才能对他进行进行微调,那么部署大语言模型的成本,甚至进一步对他进行微调的能力,并不是所有公司都具备的。这注定是一个只有少数玩家能参与的游戏。

而Prompt模式恰恰相反,不需要太多的数据量,不需要对模型参数进行改动(也就意味着可以不部署模型,而是接入公开的大语言模型服务)。那么他的调试就会呈现百花齐放的姿态,玩家越多,创造力涌现就越猛烈。

从落地项目来看,BERT最有名的落地项目就是谷歌的AlphaGo了其可谓已经称霸了围棋界,而从去年底就火出圈的ChatGPT则是GPT的最有名的项目。

很明显前者AlphaGo的任务更加明确即下围棋,使用了8块英伟达A100芯片作为内核的“基建”超算平台,而后者GPT的任务则更加的“通用”即回答人类各种各样的问题,使用了高达10000块英伟达作为内核的“基建”超算平台,为什么GPT相较于BERT是具有颠覆性、突破性的呢?以至于

比尔盖茨(微软前CEO)说:“这种AI技术出现的重大历史意义,不亚于互联网和个人电脑的诞生。”

马斯克(特斯拉CEO)说:“ChatGPT好吓人,我们离强大到危险的AI不远了。”

黄仁勋(英伟达CEO)说:“ChatGPT类似AI界的iPhone。”

这两者更进一步的分析,将在下一篇文章展开探索,欢迎关注我们。


参考文献:《万字长文:AI产品经理视角的ChatGPT全解析》


止于至善投资总经理、基金经理:何 理

2023年2月22日
 

只以合理价格,投资卓越公司。

——止于至善投资理念


风险提示及版权声明

本文全部内容,仅出于传播信息的需要,市场有风险,投资需谨慎。所述内容和意见仅供参考,并不构成对交易做出保证。投资者不应将以上观点作为投资决策的唯一参考因素,亦不应以本意见取代自己的判断。在任何情况下,不对任何人因阅读以上内容所引致的任何损失负任何责任。

本文内容是作者对公开信息数据的整理与分析,不保证文中观点或陈述不会发生任何变更,本文对这些信息的准确性及完整性不作任何保证。如需转载,请注明来源与作者,保证文章内容完整性,并自负相关责任。

追加内容

本文作者可以追加内容哦 !