大模型训练的下一站:多模态数据
事件:1. openai融资成功(估值接近300亿美元),微软算力重新整合,逐渐摆脱英伟达CUDA桎梏。
2.openai、微软解决算力后重启gpt5训练,根据已有信息披露,gpt5训练所用数据是多模态数据比如图片(openai的Image Intelligence,微软的project Adam,stable diffusion效果惊艳原因)视频等; 向量数据库公司融资火爆也可佐证。
3.受监管谈话后,openai声明不再使用用户数据进行训练(文本数据已达到足够智能程度)。
国内大模型使用数据依然是文本数据。因为训练度不够,各家大模型仍然没体现足够的差异化。因此短期内语料优质公司(如传统的出版公司,互联网等拥有优质数据的平台公司)依然有足够向上的动力。
中期映射路径。国内大模型文本训练到接近GPT4的时候会转向多模态数据训练。推荐拥有海量图片视频的平台公司和有能力拿到政府数据的公司。视觉中国(图片)、捷成股份(视频)、广电系(华数传媒 余智护杭项目、未来社区在线项目等)
追加内容

本文作者可以追加内容哦 !