今天分享的是LuoJiaNET系列深度研究报告:《武汉大学&华为:LuoJiaSetLuoJiaNet产业应用白皮书》。

(报告出品方:武汉大学)

报告共计:193页

海量/完整电子版/报告下载方式:公众号《人工智能学派》

遥感影像样本数据集构建方法

从表 1-4 可看出,遥感影像样本数量少, 地物要素分类和变化检测样本集严重不足,且样本集分类体系各异、采集方法不 同、样本尺寸不一、影像分辨率多样。遥感影像受传感器、季节变化等因素影响, 呈现“同物异谱、异物同谱”现象。现有大部分样本集并未提供成像时间、区域 范围等信息。且大都是全色或 RGB 彩色图像,缺少高光谱、红外、SAR 影像样 本,使得在解译与监测方法忽略了其它类型影像特性。同时,缺少多视三维重建 样本,导致其未充分顾及多视角成像方式。

在分类体系方面,构建遥感影像样本库,首先要解决分类体系问题。然而, 由于遥感任务的复杂性,不同样本集分类体系不尽相同。以土地覆盖分类为例, 联合国粮农组织(FAO)、美国地质调查局(USGS)、欧洲环境署均提出各自的 土地覆盖分类体系,其中 FAO 分类体系(LCCS)形成了国际标准 ISO 19144, 中国据此制定了国家标准《地理信息分类系统》(GB/T 30322)。

在样本标注与构建方面,遥感影像标注的专业性强,需具备地学知识和专业 软件操作技术。首先,从样本标注工具角度,通用的标注工具(如 LabelMe、 LabelImg)可用于小尺寸全色、RGB 影像的目标检测或语义分割标注,但大尺 寸的遥感影像需切割成小尺寸进行标注,且不支持高光谱样本制作;同时,通用 标注工具无法实现特定任务的标注,如遥感变化检测、全要素地物分类等;此外, 地理信息软件(如 ArcGIS 和 QGIS)虽支持多光谱影像标注,但导出标签一般 为矢量,输入模型前需转换格式。其次,从样 本标注方法角度,分人工与半自动标注。人工标注包括专业人员和众包标注方式, 前者质量高但效率低,后者效率高但质量参差不齐。大规模普通影像样本(如 ImageNet)制作将两者结合,即众包标注后再经专业人员审核。在遥感领域, 一方面样本标注需专业基础,另一方面众包标注工具缺乏,样本制作限于专业人 员,并未发挥众包优势,且缺乏样本版权保护。

在样本的地理空间采样策略方面,合理的采样策略对构建大范围(区域及全 球)遥感影像样本库至关重要,但目前已有样本集(特别是地物要素分类样本) 是基于局部区域的少量影像构建,导致类别覆盖度不高、样本分布不均(包括时空分布不均和类内样本数量不均)。

在样本组织管理方面,多数遥感影像样本集由遥感社区的研究人员制作,或遥感组织根据竞赛任务制作,其样本数量有限。通常以数据文件方式组织,存储在个人服务器、公共资源托管(如 GitHub 等)和云存储平台(如华为云、Google Drive 等),并提供链接供下载使用。

遥感影像处理云平台

(1)底层 AI 硬件主要依赖国外进口。现有通用人工智能硬件,主要依赖于 美国英伟达(NVIDIA)公司生产的图形处理单元(GPU)。

(2)遥感影像样本库仍需增强可控性。2019 年底,美国宇航局(NASA) 和盖茨基金会等联合资助的 Radiant Earth Foundation 推出 Radiant ML Hub 平台,方便研究人员访问其发布的地球观测训练数据集。

(3)遥感深度学习框架不能自主可控。

(4)遥感解译缺乏自主知识产权模型。现有遥感云平台在执行解译任务时, 所使用的模型通常由计算机视觉模型改造而来,例如 DeepLab 等地物分类模型。 缺乏直接面向遥感测图任务、具备融合“场景-目标-像素”多层级的解译方法, 不能直接输出地理信息系统制图综合所需的地物矢量要素。

深度学习框架与模型

自 2012 年 ImageNet 挑战赛以来,面向普通图像处理的深度神经网络框 架和模型获得迅猛发展。在遥感领域,影像处理模型主要由普通影像预训练模型迁移获得,并未从框架与模型集成遥感影像解译与动态监测所需特性。

目前开源深度学习框架种类繁多,项目组前期调研的国内外开源深度学习框架。国内中科院计算所推出了人脸识别深度学习框架 Dragon,清华大 学发布了计图(Jittor),华为、旷世、一流科技等互联网企业相继开源了 MindSpore、MegEngine 以及 OneFlow 等框架。在国外,早期蒙特利尔理工 学院开源了 Theano、伯克利大学研发了 Caffe,日本首选网络研发了当时领先 的 Chainer 框架, Google、Facebook、Amazon 等先后开源了 Tensorflow、 PyTorch、MxNet 等框架。虽然通用深度学习框架数目众多,但构建框架的核心 技术正呈收敛态势。主要包括:控制流与数据流、以及操作符与张量;计算图优化与自动梯度计算;执行引擎、编程接口、部署运维及分布式训练等。

在控制流与数据流方面,神经网络数据依赖关系表示为有向无环图,该图 设计了表达式的求值先后关系,可并行执行。函数式编程能挖掘表达式间的数 据依赖关系。随着并发处理需求增多,函数式编程的深度学习框架正占据主 流。以 Tensorflow、PyTorch、MXNet 为代表的框架开始侧重计算图的函数式求解方式,对完整模型一次性求解。在操作符与张量表达方面,传统深度学 习框架,例如 Caffe 使用层(Layer)这种粗粒度结构的双向执行逻辑,在前向 传播时,程序执行从零开始的递增循环;在反向传播时,程序逆向做递减循 环。Tensorflow 将有向无环图的两个基本元素:操作符和张量分开表示。这种 细粒度表示更加符合有向图计算思想,开发的灵活性更强。由于细粒度代码对 编译器要求较高,多数框架也支持较粗粒度的操作符,例如卷积、池化、矩阵 乘操作符等。因此,粗细结合的灵活算子是深度学习框架的发展趋势。

计算图优化方面,定义网络结构的有向无环图后,深度学习框架利用编 译器技术对图优化重写。计算图优化包括编译器优化、无用代码与公共子表达 式消除、操作符融合、类型/形状推导及内存优化等。这些优化方法在 Tensorflow、Pytorch、MXNet 等框架均有体现。在自动梯度计算方面,深度 学习框架有两种构建方式,一种是静态图,例如 Caffe 和 Tensorflow,另一种 是 Chainer 和 Pytorch 框架推出的动态图。静态图计算效率高、易优化,但灵 活性、易用性不如动态图。无论基于静态图还是动态图的框架,自动逆拓扑序 推导链式法则的反向传播计算图已成标配。用户只需描述前向传播,反向传播由框架推导完成。

在执行引擎、编程接口、分布式训练与迁移部署方面, Tensorflow/Pytorch 等通过协调 CPU 和 GPU 设备提高计算效率与资源利用 率。框架底层基于 C++开发,同时提供 Python 等前端接口。从开发到部署遵 从“离线训练、在线识别”原则。然而设备数量不断增加,会导致通信开销增长,出现模型效率损失等缺陷。

通过对比国内外开源深度学习框架和模型可以发现,为平衡计算性能和灵 活性需求,主流深度学习框架都有其优缺点。然而,主流开源深度学习框架与 模型主要针对的是普通影像,即普通的小像幅室内/外影像;现有遥感智能解译 与监测系统大多由通用图像识别的深度神经网络改造,一般只考虑了影像二维空间的可见光图像特征,顾及遥感光谱特性、地学先验知识、数据与框架协同等重要因素,支持遥感地学特性的框架仍是空白。

地学知识嵌入的遥感深度学习优化理论与方法

(1)地学本体建模与地学知识图谱创建

作为对特定领域中概念及其相互关系的形式化表达,本体(Ontology)具有 强大的表示、推理和共享知识的能力,因而被引入到地学领域以构建地学本体模型。

(2)基于地学知识图谱表示学习的遥感影像场景分类

基于地学知识图谱表示学习的遥感影像场景分类可将遥感影像包含的丰富 语义信息融入学习过程,进而提高分类准确率。

(3)耦合地学知识图谱和深度语义分割网络的遥感影像语义分割

地学知识图谱基于知识建模、推理和共享,能够建立模拟人类感知过程的知 识模型来实现遥感影像的智能解译。

报告共计:193页

精选报告来源:人工智能学派

追加内容

本文作者可以追加内容哦 !