中文在线已经开始向全球AI大模型厂商卖文学数据了,数据要素将是AI大模型最新的投资方向。数据要素市场可以分成了“10+3”体系,有十大主力板块和三大拓展板块。

从数据性质来讲,分为c端和b端数据,场景可能散落在政府端、互联网端或者企业手上。互联网和企业数据一般具有更细的颗粒度,尤其是交易或者消费数据,因而更具有价值。政府端的数据比较有用的就是税务、医疗、公积金社保、不动产这些,这些变现场景主要在信贷和保险这些领域。但从实际使用角度,在信贷保险领域,可以分主动和被动场景。

数据要素概念股

文学数据龙头:中文在线

中文在线董秘:尊敬的投资者,您好:数据作为数字经济中核心的要素,安全和正确的价值观均有重大意义。2022年12月中共中央、国务院近日印发《关于构建数据基础制度更好发挥数据要素作用的意见》,《意见》指出数据基础制度建设事关国家发展和安全大局。公司深耕文化数字产业20余年,自成立之初一直秉承“先授权、后传播”的原则,高度重视知识产权保护工作,已积累了海量的正版数字内容资源

中文在线方面称,公司深耕文化数字产业20余年,拥有海量的正版中文数据资源,公司在数据的优势有4个:第1个是海量,公司拥有的中文文字字数超万亿字,内容品类包含小说类、科普类、社会类、经管类、法律类,教育教材类等等;第2个是高质量,公司拥有的数字内容经过市场长期校验,已形成高质量的数据内容库,而高质量的数据可大幅提升模型训练效果,缩短学习时间和提升学习质量,让AI模型产出内容稳定;第3个是正版版权,公司自成立之初一直秉承“先授权、后传播”的原则,高度重视知识产权保护工作,拥有旗下数字内容从数字版权到全部版权的权利,可为AI模型公司提供拥有版权的数据集用于训练;第4个是完整的各类型商业生态链,如公司拥有网络原创驻站作者440余万名,可实时反馈最新数据,提供最贴近市场和用户的最新数据,让AI模型持续更新学习。未来,公司也将充分发挥公司的数据优势,持续为行业赋能。


有投资者在投资者互动平台提问:尊敬的董秘 中文在线的语料库是已知世界最大的语料库吗?采购方有哪些大模型公司,价格贵吗?

中文在线(300364.SZ)在投资者互动平台表示,国内生成式大模型的发展不仅需要大量数据,更需要高质量、有版权的数据。国内外大模型相关的版权和数据纠纷案频出,相关监管法律趋于完善,数据合规性得到更高重视。中文在线拥有超过60TB的正版数据,含文字/音频/视频多种类型,覆盖小说、科普、社会等多个品类,通过文学网站和驻站作者持续更新数据,通过完备的数据保护和版权保护体系放大数据资产价值。目前,公司已跟多家模型公司签署数据内容合作合同。同时,数据资源可以作为资产,计入财务报表,从而实现了对数据资源的经济价值体现。


2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会在京举办。大会以“数据驱动,智绘未来”为主题,在会上由北京国际大数据交易所、北京人工智能产业联盟组织发布人工智能大模型语料库,中文在线数据集入选首批100个高质量训练数据集。




中文在线:未来平台将推出版权电子数据要素的转让交易、版权许可使用、版权二创改编等功能

追加内容

本文作者可以追加内容哦 !