在上一篇文章《大数据——智能投研的核心驱动力》中,我们说大数据是智能投研的核心驱动力,而面对大数据,必然要依靠人工智能技术帮助基金经理和研究员,提升效率,减少信息阅读和搜集的时间成本,让人脑集中在更小众、更有用的地方。

投资对数据非常敏感,尤其在二级市场,投资者对信息披露的要求格外高,金融公开信息自2000 年发展至今,也已经日趋完善。

国内外借着互联网信息化的东风,涌现出了不少顶尖的数据服务公司,例如国外的Bloomberg、汤生路透,国内的万得、恒生聚源等。

这些头部公司对传统金融中的结构化数值数据的建设,已经相当成熟和完善(例如宏观经济数据、上市公司经营数据和财务报表等)。

然而对于非结构化数据的内容整理(例如新闻、公告、研究报告等),目前还处于较为浅层次的人工采摘整理阶段。

近十年,随着机器学习与自然语言处理技术的迅猛发展,人类分析师面对这些海量非结构化文本数据而束手无策的局面,也在悄悄改变。

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,旨在研究能实现人与计算机之间,用自然语言进行有效通信的各种理论和方法。

用自然语言与计算机进行通信,有十分重要的应用意义,也被视为解决人工智能完备程度的核心问题之一。

在互联网领域,自然语言处理技术经过最近10 年的发展,已经较为成熟。例如,业界对话语义识别在2016 年的Switchboard 对话语音识别任务中达到了人类水平;问答机器人在2017 年的斯坦福问答数据集SQuAD上达到人类水平;机器翻译系统在2018 年通用新闻的汉译英上达到了人类专业水平。

Q

那么,这些先进的人工智能技术,对智能投研中的文本信息处理,会带来哪些革命性的改变呢?

在如此信息膨胀增长的年代,人类研究员往往需要花费大量的时间在消化这些信息上。通过采样调研发现,平均每个行业研究员每天需要花费6-8 小时在阅读、消化、整理这些非结构化文本资讯信息上。

即便如此,平均每人能够覆盖研究的上市公司数量也只能达到30 家。因此如何借助人工智能技术来帮助我们去粗取精,提升人类处理信息的效率,也是一个非常具备挑战性的问题。

近年来,人工智能技术在自然语言的语义分析层面已经取得了不少突破性的进展。

从2016 年开始,谷歌开始逐渐用神经机器翻译模型取代传统基于短语的整句机器翻译模型,借助海量数据的优势,目前500 行神经网络模型代码的效果,已经可以取代之前50 万行代码的基于短语的机器翻译模型;从2015 年开始,各种形式的注意力机制被融入到自然语言处理模型中,目前已经被广泛应用于句法分析、阅读理解、单样本学习等任务中。

虽然要让机器真正达到对语言语义完全理解的水平还需要时间,但是这些语义分析技术在当下已经可以帮助我们实现不少微观层面的辅助分析功能。

图1:一家上市公司2年年报内容的文本近似分析对齐后的效果

图1 是我们摘取的一家上市公司的年报片段,基于深度学习技术在海量数据上训练的语义近似度模型,我们已经可以较为精准地度量出章节、段落、句子、短语之间的近似度。

图1 展现了前后2年年报内容的文本,近似分析对齐后的效果,其中灰色行代表了前后2 年内容完全一致的部分;蓝色代表了前后两年语义近似,但是内容存在细微差异的部分;红色代表了前后两年新增或者删除的内容。

如此一来,研究员们只需要根据不同的色块,便能够快速定位出公司在不同年份发展状况的细微差异了,相较于人工逐字逐句阅读,分析的效率得到了显著性提升。

这仅仅是AI在智能投研上的一个细分应用,除了自然语言文本,下一篇,LUCY将和大家介绍人工智能技术在图像数据处理上的实践,敬请期待吧!

风险提示:

浙商基金管理有限公司(“本公司”)尽力为投资者提供全面完整、真实准确、及时有效的资讯信息。本材料并非法律文件,所提供信息仅供参考,本公司不对其准确性或完整性提供直接或隐含的声明或保证。本材料不构成任何投资建议,投资者在投资前请参阅本公司在中国证监会指定信息披露媒体发布的正式公告和有关信息。本公司及其雇员、代理人对使用本材料及其内容所引发的任何直接或间接损失不承担任何责任。基金有风险,投资需谨慎。

(来源:浙商基金的财富号 2018-11-25 13:07) [点击查看原文]

追加内容

本文作者可以追加内容哦 !