第六章 空间查询与分析

第六章  空间查询与分析
6.1 空间数据的查询
6.1.1 空间数据查询的含义
数据查询是GIS的一个重要功能,一般定义为:作用在GIS数据上的函数,它返回满足条件的内容。查询是用户与系统交流的途径,是GIS用户最经常使用的功能,GIS用户提出许多问题都可以通过查询的方式解决,查询方法和范围在很大程度上决定了GIS的应用程度和应用水平。
目前,GIS中的空间查询大致可分为三类:针对空间关系的查询(查询一条公路途经的所有城镇)、针对非空间属性的查询(查询一个城市的人口数量)及结合空间关系和非空间属性的查询(查询距某条河流≥500 m、种植玉米且面积大于53 km的土地利用单元)。
GIS的空间查询主要有四种方式:扩展关系数据库的查询语言(SQL)、可视化空间查询、超文本查询和自然语言空间查询。
6.1.2 扩展关系数据库的查询语言(SQL
由于关系数据库具有严谨的数学基础和简洁的概念,在一般的事务性数据库中占有绝对的统治地位。在关系数据库中,几乎所有的功能都由查询语言(SQL)实现,关系数据库的查询语言(SQL)作为一种工业标准被广泛使用。
SQL语句通常是由关系运算组合而成的,非常适合于关系表的查询与操作,但并不支持空间运算。由于标准的SQL不支持空间概念,因此,不能进行空间数据的查询。
目前的空间数据查询语言是通过对标准SQL的扩展来形成的,即在数据库查询语言上加入空间关系查询。为此需要增加空间数据类型(如点、线、面等)和空间操作算子(如求长度、面积、叠加等)。在给定查询条件时也需含有空间概念,如距离、邻近、叠加等。
美国十次宜春院
例如,“显示与价值超过60000的地块相交的土壤图”,可表示为:
SELECI SOIL.MAP
FROM SOIL, PARCELS
WHERE VALUATION>60000 AND OVERLAY (SOILS, PARCELS)
代谢
通过对标准SQL的扩展来实现空间数据查询的主要优点是:由于是在标准SQL基础上进行扩展的,因而保留了SQL的风格,便于熟悉SQL的用户掌握,通用性较好,易于与关系数据库连接。
但Egenhofer(1992)在分析了扩展SQL作为空间数据查询语言的特点和局限后,根据空间数据库的特点以及空间数据表示的要求,在关系型SQL上发展了一套空间结构化查询语言(Spatial SQL), 不仅能完成空间数据的查询,而且能表达查询结果。
6.1.3 可视化空间查询
可视化查询是指将查询语言的元素,特别是空间关系,用直观的图形或符号表示。可视化查询主要使用图形、图像、图标、符号来表达概念,具有简单、直观、易于使用的特点。例如某些空间操作可用图6-1所示的图符表示。
6-1  实体图形相关的图符表示
可视化空间查询的主要优点是:自然、直观、易操作,用不同的图符可以组成比较复杂的查询。但也存在一些缺点,如:当空间约束条件复杂时,很难用图符描述;用二维图符表示图形之间的关系时,可能会出现歧义;难以表示“非”关系;不易进行范围(圆、矩形、多边形等)约束;无法进行屏幕定位查询等。
6.1.4 超文本查询
超文本查询把图形、图像、字符等皆当作文本,并设置一些“热点”,它可以是文本、键等。用鼠标点击“热点”后,可以弹出说明信息、播放声音、完成某项工作等。但超文本查询只能预先设置好,用户不能实时构建自己要求的各种查询。
6.1.5 自然语言空间查询
在空间查询中引入自然语言可以使查询更轻松自如。在GIS中,很多地理方面的概念是模糊的,例如地理区域的划分实际上并没有像境界一样有明确的界线。而空间数据查询语言中使用的概念往往都是精确的。
为了在空间查询中使用自然语言,必须将自然语言中的模糊概念量化为确定的数据值或数据范围。例如查询高气温的城市时,引入自然语言时可表示为:
SELECT  name
FROM    cities
WHERE    temperature is high
如果通过统计分析和计算,以及用模糊数学的方法处理,认为当城市气温大于或等于35.5℃时是高气温,则对上述用自然语言描述的查询操作转换为:
SELECT  name
FROM    cities
WHERE    temperature≥35.5
在对自然语言中的模糊概念量化时,必须考虑当时的语义环境。例如,对于不同的地区,
城市为“高”气温时的温度是不同的。因此,引入自然语言的空间数据查询只能适用于某个专业领域的地理信息系统,而不能作为地理信息系统中的通用数据库查询语言。
6.1.6 查询结果的显示
GIS中的空间数据查询功能不能只是简单的数据查询,即不能只给出查询到的数据,而应以最有效的方式将空间数据显示给用户。例如对于查询到的地理现象的属性数据,即可以用表格的形式显示,又可以用统计图表的形式显示。以何种形式显示,完全根据用户的要求来确定。
空间数据的最佳表示方式是地图,因而空间数据查询的结果最好以专题地图的形式表示出来。但目前把查询的结果制作成专题地图还需要一个比较复杂的过程。为了方便查询结果的显示,可以在基于扩展SQL的查询语言中增加图形表示语言,作为对查询结果的显示表示。具有6种显示环境的参数可选定。
(1) 显示方式(the display mode)。 有5种显示方式用于多次查询结果的运算:刷新、覆盖、清除、相交和强调。
(2) 图形表示(the graphical presentation)。用于选定符号、图案、彩等。
(3) 绘图比例尺(the scale of the drawing)。确定地图显示的比例尺(内容和符号不随比例尺变化)。
(4) 显示窗口(the window to be shown)。确定屏幕上显示窗口的尺寸。
(5) 相关的空间要素(the spatial context)。显示相关的空间数据,使查询结果更容易理解。
(6)hsk成绩 查询内容的检查(the examination of the content)。检查多次查询后的结果。
通过选择这些环境参数,可以把查询结果以用户选择的不同的形式显示出来,但离把查询结果以丰富多彩的专题地图显示出来的目标还相差很远。
6.2 空间数据的统计分析
统计方法是指对数据的收集、显示、分析的方法。GIS中空间数据的统计分析是指对GIS地理数据库中的专题数据进行统计分析。这里只介绍基本统计量的计算和常用统计数据的分
类分级算法。
6.2.1 属性数据的集中特征数
1. CWTEA NET频数和频率
将变量按大小顺序排列,并按一定的间距分组。变量在各组出现或发生的次数称为频数,一般用表示。各组频数与总频数之比叫做频率。如果用纵轴表示频率,横轴表示分组,就可作出频率直方图,用来表示事件发生的频率和分布状况。
2.  平均数
平均数反映了数据取值的集中位置,常以表示。对于数据通常有简单算术平均数和加权算术平均数。
简单算术平均数的计算公式为
                                                        火过冰壶化6-1
加权算术平均数的计算公式为
                                                      6-2
式中  ——数据的权值。
3.  数学期望
以概率为权值的加权平均数称为数学期望,用于反映数据分布的集中趋势。计算公式为
                                                      6-3
式中  ——事件发生的概率。
4.  中数
对于数据,如果有一上数能同时满足以下两式
                                                  6-4
则称为数据的中数,记为
5.  众数
众数是指最有可能出现的数值。如果数据是离散的,则称中出现最大可能性的值为众数;如果是连续的,则以分布的概率取最大值时的的众数。显然,众数可能不是惟一的。
6.2.2 属性数据的离散特征数
在分析GIS的属性数据时,不仅要出数据的集中位置,而且还要查明这些数据的离散程度,即它们相对于中心位置的程度,同时还要分析它的变化范围。从统计规律的角度讲,离散程度较小的区域,其平均数的代表性较好;反之则较差。因此需要引入描述离散程度差异的统计特征数,即极差、离差、方差、标准差、变差系数。
(1) 极差  极差是一组数据中最大值与最小值之差。
(2) 离差、平均离差与离差平方和  一组数据中的各数据值与平均数之差称为离差;把离差
求平方和,即得离差平方和;将离差取绝对值,然后求和,再取平均数,得平均离差。平均离差和离差平方和是表示各数值相对于平均数的离散程度的重要统计量。
(3) 方差与标准差  方差是均方差的简称,是以离差平方和除以变量个数求得的;标准差是方差的平方根。
(4) 变差系数  变差系数用来衡量数据在时间和空间上的相对变化的程度, 它是无量纲的量,记为
                                                      6-5
青岛式中    ——标准差;
——平均数。
6.2.3 统计数据的分类分级
为了把GIS地理数据中的统计数据用专题地图的形式表示出来,通常需要对统计数据进行分类和分级。分类和分级的方法很多,下面介绍两种在统计数据处理中经常用到的算法。
1. 系统聚类法
系统聚类法是根据距离(可以是欧氏距离、绝对值距离、相似系数距离等),将相似的样本归为一类,把差异大的样本区分开来。
1) 系统聚类法的基本思想
系统聚类法是分类数据处理中用得最多的一种方法。其基本思想是:首先是n个样本各自成一类,然后规定类与类之间的距离,选择距离最小的两类合并成一个新类。计算新类与其他类的距离,再将距离最小的两类进行合并。这样每次减少一类,直到达到所需的分类数或所有的样本都归为一类为止。
2) 统计数据的标准化
每个样本单元有多种变量的原始数据,各种变量的量纲和数量大小是很不一致的,变化的幅度也不一样。假如直接用原始数据进行计算,就会突出绝对值大的变量的作用而削弱绝对值小的变量的作用。为了给每种变量以统一量度,在进行模型的统计计算前,往往需要对原始数据进行标准化变换,通常使用标准差标准化的方法。
经过标准差标准化后,每种变量的平均值为0,方差为1,变量值范围在±1之间。

本文发布于:2024-09-22 09:49:42,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/296812.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:查询   空间   表示   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议