有了专门的数据清洗工具链,这个综合优势就更明显。

     我也会选讯飞的。

     讯飞联合华为搭建了中国首个万卡的国产算力集群,我们熟悉各种算力,可以搭建最好的算力平台。有了算力,我们要整理数据。能否更高效、高质地整理数据,整理完数据能够训练模型?能否建立各种尺寸的模型满足企业的应用,落地到真正看得见、摸得着的场景?

      同时,企业大模型是否能够政治安全、应用安全,通过网信办备案以及各部委的基本审查,最后能够真的在运营中产生可以用统计数据证明的应用成效?

      在此想说,为什么我们中标数量第一,而且中标比例越来越高?因为很多企业只能做到第三步——训练模型,后面的几步与我们差距很大。即使能做到,他们实际上整理数据和训练模型的能力,与我们差距也很大。

      给大家看几个具体数据。整理数据和训练模型是关键应用的第一步,

      我们有了专门的数据清洗工具链,这是基于大模型底层能力学习出来的。大家可以看到,我们自动清洗的数据合格率是96.2%,这是什么概念?最近有几家企业告诉我们,他们用了其他家的大模型,合格率只有30%~40%。

      用了这个工具数据清洗的效率提升24倍,再训练大模型。我们建立了SFT数据工具链,问答对自动构建合格率到82%。自动构建后,人工再审查,人机协同可以把效率提升到90%。

追加内容

本文作者可以追加内容哦 !