为什么我们能够成为行业第一?因为我们让大模型真正落地场景,整体数据和训练模型效率成倍提升,实用性大幅提高。

给大家看几个具体数据。整理数据和训练模型是关键应用的第一步,我们有了专门的数据清洗工具链,这是基于大模型底层能力学习出来的。

大家可以看到,我们自动清洗的数据合格率是96.2%,这是什么概念?最近有几家企业告诉我们,他们用了其他家的大模型,合格率只有30%~40%。用了这个工具数据清洗的效率提升24倍,再训练大模型。我们建立了SFT数据工具链,问答对自动构建合格率到82%。自动构建后,人工再审查,人机协同可以把效率提升到90%。

央国企客户数据显示,原先至少需要1—2个月时间来构建50万条高质量数据,现在两周能完成。我们建立了场景优化工具链,5大类13种场景可实现自适应模板匹配训练,平均效果提升30%;我们还有多模态知识零采编系统,企业应用中的40%是与自己外挂的知识库有关,例如企业科研的各种数据,工业的各种维修数据都不是大模型的底层数据,需要随时随地通过外挂知识库学习。

这一种知识的采编原先非常复杂,很多企业因此被挡在了知识应用之外,在企业级应用中占比40%,而现在,我们自动采编工具达到了专家水平,可以做到93%的合格率,远超同行。知识学习过程中,知识采编效率提升5倍。


追加内容

本文作者可以追加内容哦 !