炒股第一步,先开个股票账户

周末突然出了个AI语料的话题和名词,咋回事?主要来自一个事情:3月20日法国竞争管理局对谷歌处以2.5亿欧元的罚款,仅因谷歌未经同意使用法国出版商和新闻机构的内容训练其聊天机器人“巴德”(后改名为“双子座”)。

看似很小的处罚其实主要关乎到数据要素的产权问题,这也凸显了AI大模型时代底层数据要素的重要性,我们国家其实早在去年8月施行的《生成式人工智能服务管理暂行办法》中规定了这一点了,所有AI大模型所使用的训练数据必须拥有合法的数据来源和基础模型,不得侵犯他人知识产权。

是不是感觉现在真实处在一个产权保护年代,抄作业都难了?

那AI语料又是啥?根据kimi给我们的解答:AI语料指的是用于训练和评估人工智能模型,特别是自然语言处理(NLP)模型的数据集。这些数据集包含了大量的文本、语音或其他语言相关的信息,它们可以是人类编写的文本、自动收集的网络数据、经过人工标注的数据等。

是不是很熟悉?其实就是AI底层要素之一---数据,按照我大A风格,换壳炒作是非常正常的事情,但这也确实凸显了AI底层要素的重要性,除了近期市场热门的kimi大模型外(据说百度、阿里的自家模型也要支持支撑长文本了,还比kimi容量更大,跟进速度可真快!!!),底层要素同样值得关注。

关于大模型的底层数据,我这里特别想强调的是特定行业的数据库,这块才是最有价值的,为什么这么说:

在国内许多行业的特定数据是难以获取的,我们目前所触达的大模型数据源均为通用大模型,这些数据源参差不齐,特定行业数据往往价值更高,以餐饮行业为例,其中涉及的“进店、客流、转化率、客单”之类的特定数据无法通过通过模型获取,就像我之前文章举的例子:

“咱们在大学学习的时候啥都学了,但是最后毕业大家做的工作不同,需要的特定专业知识也不一样”。所以在通用模型的基础上,接入专用行业模型,才能达到更高的模型结果准确度。

除此之外,还有一种模式,就是搞个数据中心库,但我觉得不现实在国内,因为各行业数据库并不互通,里面涉及较多利益纠纷问题。

所以综合来看,我觉得除了现行的通用语料数据库之外,特定行业的数据价值往往更重要,这时候也需要全面布局各行业底层数据的资产,比如 $富国中证大数据产业ETF发起式联接A(OTCFUND|018134)$ 这个综合性数据产品,多方位布局AI数据要素,兼顾了稳定性与成长性,目前价值也偏低估,是比较好的布局时点。

$新华传媒(SH600825)$ $科创50(SH000688)$

股市如棋局,开户先布局,随时把握投资机遇!

追加内容

本文作者可以追加内容哦 !