作为关注了AI和SaaS很多年的一级市场投资人,在科大讯飞的星火大模型推出之后,我花了大量的时间关注星火大模型,做了很多测评比较,也和从业者进行了不少深入交流。有几个事实性信息,可能市场上大多数朋友还没有概念,所以做一个同步:
1、之前国内大模型玩家,性能最好的其实不是这些上市公司大厂,而是一级市场的两家公司:智谱科技(北京智源人工智能研究院旗下的)和Minimax(腾讯、米哈游、小米/金山办公扶持的大模型公司)。在讯飞的星火大模型出来后我比较了这几个大模型,也分别和他们的投资人做了交流,能确认的事实是目前讯飞的星火大模型就是国内能力最强,不但超越了其他大厂,也优于一级市场最头部的几家大模型公司;
2、可能是因为性能太突出,之前有很多人质疑讯飞的大模型套壳。我和相关人员确认过,科大讯飞的大模型不是套壳,确实是基于llama开源框架,但属于从0开始做模型参数训练,开发门槛并不低。讯飞其实在GPT1/2的时代就做了些研发,也有些成果,但因为那时候主流方向还是小模型,所以没有投入很多。去年12月讯飞才抽调团队重点投入,公司本身一直有transformer架构的业务技术积累。
3、讯飞在很短的时间就拉出了100人团队做大模型研发,效率很高,这其实是很难的事情,例如王慧文大佬出来创业至今都还没有组建好团队。
4、为什么讯飞的大模型性能这么好,超越了百度这些巨头?很核心的原因是数据集的质量更高。大家可能有一个误区,觉得互联网大厂手上的文本量更大,在数据侧更占优势,实际上大模型的训练要求的是有逻辑有条理的文本数据,如果大量没有逻辑、质量很低的数据投入其中训练,对大模型没有帮助反而有害,对数据处理、清洗的要求其实是非常高的。讯飞在中文语音市场有60-70%的市占率,并且在很多垂直领域都有大量数据积累。之前有一个行业专家提到过:“在国内,大部分高质量中文语料都在行业内,而不在公域的互联网内,即便是大厂也很难拿到细分行业的关键数据。”这也侧面证明了讯飞积累的高质量数据集的优势
5、最让人惊喜的一点是,讯飞星火大模型的训练,算力是和华为合作的。公司也有一些英伟达的A100,但推理更多是用华为昇腾,效果有折扣但实际上整体也满足训练要求(芯片做了很多针对性的设计),实际用起来差异没那么大。这也意味着,大家都很担心国内公司因为算力不足被卡脖子长期会落后于海外大模型公司,但其实从目前华为的技术储备,以及通过讯飞合作展示出的效果看,芯片上的差距虽然持续存在,但可能这个问题没有大家想象的那么可怕。
本文作者可以追加内容哦 !