作者 刘轩山 杨春宇


导读

  数据是研发大规模语言模型的核心资源要素之一,优秀的数据采集能力则是积累高质量数据资产,有效支撑大模型训练的重要保障。本文将从获取和利用高质量互联网数据资源面临的挑战、优秀数据采集技术所应具备能力等角度,介绍开普云在大规模高质量数据采集技术方面的一些经验和思考。

  01

  数据采集技术面临的挑战

  大规模语言模型(以下简称“大模型”)已经成为新一代人工智能产业的基础,而在研发大模型所需的算法、算力、数据三要素中,数据是最核心的资源要素,决定了模型能力的上下限。在大模型时代,单纯用行业数据训练模型将无法借鉴通用领域知识,无法充分发挥大模型的涌现能力,因此通过互联网进行广泛的数据采集就成为训练大模型的必要基础工作。同时,由于大模型训练周期长,不能实时更新,已经训练好的大模型本身无法及时获取最新信息,大模型的行业落地应用需要利用行业知识库、语义检索等外置模块对大模型进行增强,这也要求大模型应用整体架构中包含实时互联网数据采集能力。然而获取和利用高质量互联网数据资源面临诸多挑战:

  数据采集体量大:随着网络应用的日益普及和深入,互联网产生的数据量持续增长,采集和处理这些数据需要大量的网络、计算和存储资源。

  原始数据质量低:互联网采集得到的数据来源广泛,构成复杂,质量参差不齐,可能包含色情、暴力等不良信息,需要通过可靠的内容安全技术进行数据清洗过滤。

  数据更新速度快:互联网上发布的数据更新频繁,而涉及时效性强的具体事项信息更新对于行业应用尤为重要,需要采用实时采集和处理技术来保证数据引用的及时性。

  数据类型多样化:互联网数据有文本、图片、音视频等多种类型和各种文件格式,需要采用不同的采集技术和处理方法以有效应对不同数据类型。

  02

  大规模高速度多形态数据采集技术优势

  传统的网页爬虫数据采集方式已无法全面应对这些挑战,为此,开普云研发了大规模高速度多形态数据采集技术,有效解决了上述问题。大规模高速度多形态数据采集技术旨在优化数据采集和处理,提高效率和精度,为大数据分析和应用提供更可靠的数据支持。该技术具备以下优势:

  高速度

  采用多线程并发抓取技术,能够快速地抓取大量数据。同时,数据压缩和传输能力高效,可在保证数据完整性的前提下显著提升数据传输速度。

  高效率

  采用自动化数据处理技术,可以自动化地完成数据抓取、清洗、存储和分析等工作,大大提高了数据处理的效率。此外,数据采集技术还具备高度的可配置性,可以根据不同的业务需求进行灵活配置。

  高质量

  采用多种数据校验和数据过滤技术,可以在数据采集的过程中对数据进行实时监测和筛选,保证数据的准确性和完整性。同时,数据采集技术还支持多种数据格式和数据源,可以满足不同业务场景的数据采集需求。

  高可控性

  数据采集技术具备高度的可控性,可以实现对数据采集的全过程进行实时监控和控制。同时,数据采集技术还支持数据采集的定时任务和预警机制,可以在数据采集出现异常时及时发出预警,保障数据采集的稳定性和可靠性。

  03

  通过数据采集技术积累数据资产

  通过采用大规模高速度多形态数据采集技术,公司已积累了庞大的数据资产,规模达1.3PB。这些数据均来自于各个行业在互联网上可公开访问的数据,包括政府、媒体、工商、税务、司法、能源、金融、海关等领域。数据来源广泛覆盖了网站、微信、微博、头条、抖音、快手等主流信息发布与传播渠道,数据类型包括文字、图片、音视频等多种模态。

  开普云对数据进行了严格的筛选和清洗,确保数据的准确性和可靠性。其中核心的文本数据以长文章为主,这些文章内容丰富完整,蕴含了各个行业的大量领域知识。这种数据形式能够提供更全面和详细的信息,使得我们能够为客户提供更准确、深入的分析和洞察。

  这些数据资产有效支撑了开普云中文基座大模型“开悟”的训练。目前,团队已经从中采样了3000万篇各领域文章向开悟“投喂”,基于自建的服务器完成了基于71亿参数Bloom模型的继续预训练,并利用10万组政务问答、内容创作领域数据进行了监督微调,开悟已应用于数字人政务智能问答与内容创作等场景,效果显著优于当前开源社区中同参数量级模型。

  近期,开普云将从数据资产中采样更多的内容,启用更大规模训练集群,以万亿级词元训练百亿级参数基座模型,并丰富监督微调数据覆盖更多任务类型,实现模型的多任务指令跟随能力。开普云将根据模型上线应用情况,启动人类反馈强化学习环节训练,强化模型的应用安全。


追加内容

本文作者可以追加内容哦 !