BERT与GPT基础（无图无公式逻辑版）_财富号

比尔盖茨（微软前CEO）说：“这种AI技术出现的重大历史意义，不亚于互联网和个人电脑的诞生。”

马斯克（特斯拉CEO）说：“ChatGPT好吓人，我们离强大到危险的AI不远了。”

黄仁勋（英伟达CEO）说：“ChatGPT类似AI界的iPhone。”

火出圈的ChatGPT，仅仅是GPT的子功能之一，上线2个月MAU即突破1亿人，创下人类历史最快的记录，今天我们就从其最基础的逻辑展开，对其进行初探。

文章包含（1）NLP；（2）Transformer；（3）BERT、GPT两者对比；三个部分，没有复杂的公式、图表，仅探索逻辑，欢迎留言共同探讨。

NLP（Natural Language Processing,自然语言处理）

自然语言处理（NLP）是研究人与计算机交互的语言问题的一门学科。NLP任务（自然语言处理，AI的一个技术领域，即文本类的AI任务）的核心逻辑是一个“猜概率”的游戏。

比如说，“我今天被我老板___”，经过大量的数据训练后，AI预测空格处会出现的最高概率的词是“PUA了”，那么PUA就会被填到这个空格中，从而答案产生——“我今天被我老板PUA了”。

虽然非常不可思议，但事实就是这样，现阶段所有的NLP任务，都不意味着机器真正理解这个世界，他只是在玩文字游戏，进行一次又一次的概率解谜，本质上和我们玩报纸上的填字游戏是一个逻辑。只是我们靠知识和智慧，AI靠概率计算。

NLP问答分为2个层次：（1）语句通顺；（2）符合知识；比如人工智能回复：中国的首都是上海，就实现了语句通顺，但是不符合知识。

而在目前的“猜概率”游戏环境下，基于大型语言模型（LLM，Large Language Model）演进出了最主流的两个方向，即BERT（Bidirectional Encoder Representations from Transformers）和GPT（Generative Pre-trainning Transformers），可以看到这两个方向最后一个单词都是Transformers，因此我们先讲讲这个词背后的意思，再讲具体的BERT、GPT。

Transformer

2017年，谷歌提出用于序列翻译的Transformer模型，在该模型中创造性的使用完全的注意力模块替代循环神经网络（RNN）结构以实现注意力机制，Transformer一诞生就在自然语言处理（NLP）领域中取得了碾压性的好成绩。

注意力机制最大的特点，就是使得AI工作时会注重重点，它把每一个输出的语言以及预测的语言在进行翻译时，要提前对预测的语言说出前，要重新检验原来所有的词，而所有的词有的词是重视的，有的是不重视的，这就是注意力模型做出来的，而哪个重要不是人指定的，是自动学习的，引发了长句翻译等等的重大进展。

Transformer算是开了个好头，如果将Transformer也做预训练模型的基础架构，会不会“好上加好”？OpenAI和谷歌在2018年分别提出了GPT（Generative Pre-Training）模型和BERT（Bidirectional Encoder Representations from Transformers）模型，这两种模型都是基于Transformer预训练模型的典型代表，也是今天的主角。

BERT、GPT两者对比

通过BERT、GPT两者基础逻辑对比，其实非常好理解两者的差异。

在GPT3“出圈”之前，BERT是之前最流行的方向，几乎统治了所有NLP领域，并在自然语言理解类任务中发挥出色（例如文本分类，情感倾向判断等）。

而GPT方向则较为薄弱，最知名的玩家就是OpenAI了，事实上在GPT3.0发布前，GPT方向一直是弱于BERT的（GPT3.0是ChatGPT背后模型GPT3.5的前身）。

接下来看看BERT和GPT两者之间的差别：

BERT：双向预训练语言模型+fine-tuning（微调）

GPT：自回归预训练语言模型+Prompting（指示/提示）

BERT和GPT两者都是基于大语言模型的，他们在这一点上是相同的。他们的不同在于双向/自回归，fine-tuning/Prompting这两个维度，我们接下来会重点弄明白这四个术语。

BERT：双向。双向是指这个模型在“猜概率的时候”，他是两个方向的信息利用起来同时猜测。例如“我在__汉堡”，他在预测的时候，是同时利用“我在”+“汉堡”两端的信息来预测空格中的词可能为“吃”。有点像我们做英文的完形填空，通常都是结合空格两端的信息来猜测空格内应该是哪个单词。

GPT：自回归。自回归就是猜概率的时候从左往右做预测，不会利用文本中右侧的内容，和BERT相反。这就有点像我们写作文的时候，我们肯定是一边写一边想。

两者基本理念的区别导致BERT在之前更擅长自然语言理解类任务，而GPT更擅长自然语言生成类任务（例如聊天、写作文），但这些问题已经在GPT时代有所改变。

BERT的fine-tuning模式有两个痛点:

1. 我需要准备某个专业领域的标注数据，这个数据还不能少，如果太少，AI模型训练后就会形成过拟合（就是AI直接背下了整本习题册，册里的问题100%正确回答，但是稍微变换题型就GG）。

2. 我需要部署大语言模型，才能对他进行进行微调，那么部署大语言模型的成本，甚至进一步对他进行微调的能力，并不是所有公司都具备的。这注定是一个只有少数玩家能参与的游戏。

而Prompt模式恰恰相反，不需要太多的数据量，不需要对模型参数进行改动（也就意味着可以不部署模型，而是接入公开的大语言模型服务）。那么他的调试就会呈现百花齐放的姿态，玩家越多，创造力涌现就越猛烈。

从落地项目来看，BERT最有名的落地项目就是谷歌的AlphaGo了其可谓已经称霸了围棋界，而从去年底就火出圈的ChatGPT则是GPT的最有名的项目。

很明显前者AlphaGo的任务更加明确即下围棋，使用了8块英伟达A100芯片作为内核的“基建”超算平台，而后者GPT的任务则更加的“通用”即回答人类各种各样的问题，使用了高达10000块英伟达作为内核的“基建”超算平台，为什么GPT相较于BERT是具有颠覆性、突破性的呢？以至于

比尔盖茨（微软前CEO）说：“这种AI技术出现的重大历史意义，不亚于互联网和个人电脑的诞生。”

马斯克（特斯拉CEO）说：“ChatGPT好吓人，我们离强大到危险的AI不远了。”

黄仁勋（英伟达CEO）说：“ChatGPT类似AI界的iPhone。”

这两者更进一步的分析，将在下一篇文章展开探索，欢迎关注我们。

参考文献：《万字长文：AI产品经理视角的ChatGPT全解析》

止于至善投资总经理、基金经理：何理

2023年2月22日

只以合理价格，投资卓越公司。

——止于至善投资理念

本文全部内容，仅出于传播信息的需要，市场有风险，投资需谨慎。所述内容和意见仅供参考，并不构成对交易做出保证。投资者不应将以上观点作为投资决策的唯一参考因素，亦不应以本意见取代自己的判断。在任何情况下，不对任何人因阅读以上内容所引致的任何损失负任何责任。

本文内容是作者对公开信息数据的整理与分析，不保证文中观点或陈述不会发生任何变更，本文对这些信息的准确性及完整性不作任何保证。如需转载，请注明来源与作者，保证文章内容完整性，并自负相关责任。

追加内容

本文作者可以追加内容哦 !

总收益	20日收益	日收益
--	--	--

代码	名称	最新价	涨跌幅
查看更多

最新操作
-	-	-