未完待续。。。
翻译着翻译着,越来越看不懂,等再积累一些知识再回来翻译
验证基础
基础验证概念
什么是验证?
- 验证是将预测与相关观测结果进行比较的过程
- 验证是衡量预测的质量(相对其价值)
- (验证)对于许多方面,一个更合适的术语是“评价”
为什么要验证?
- 监控模型性能
- 识别模型缺陷 -> 帮助操作预测员了解模型的偏差
- 改进决策、改善预测 -> 在不同条件下使用对应合适的模型
- 选择模型或模型配置(模型是否有所改进?)
- 纠正模型缺陷
- 确定预测的劣势、优势、差异 -> 帮助用户理解(解释)预测
确定验证目标
思考如下问题:
- 该模型在哪些位置的性能最好?
- 是否可以调节使得预测变得更好/更坏?
- 概率预测是否得到了良好的校准(即是否可靠)?
- 天气预报是否正确地捕捉到了天气的自然变化?
应该衡量哪些预测性能属性?
预测”好”
取决于两个方面:
预测的质量
用户及其对预测信息的应用
例子:
许多验证方法结论表示,这种预测没有任何技能,而且非常不准确。
如果我是这个流域的水务经理,这是一个相当糟糕的预测。
但如果我是一名航空交通战略规划者。。这可能是一个很好的预测
不同的用户对预测的好坏有不同的看法
不同的验证方法可以衡量不同类型的“好”
预测质量只是预测“好坏”的一个方面
预测值与预测质量相关(但预测质量提高,某些方面的预测值可能下降)
开展验证研究的基本指南
- 考虑用户(谁对验证结果感兴趣)
- 用户最关心的是预测质量的哪些方面?
- 确定代表正在被预测的事件的观测结果
- 确定可以提供感兴趣的问题的答案的多个验证属性
- 选择适当度量和表示感兴趣的属性的度量和图形
- 确定一个提供技能参考水平的比较标准(例如:持久性、气候学、旧模型)
预测和观测
预测、观测的类型
连续的
- 温度
- 雨量
- 500mb高度
分类
- 二分类
- 雨与无雨
- 强风与无强风
- 夜间霜冻与无霜冻
- 雨与无雨
- 多分类
- 云量类别
- 降水类型(小雨、中雨、暴雨等)
匹配预测和观测结果
点对点网格
匹配obs到最近的网格点
-
匹配雨量为最近的网格点的值,最近的点(右上角)值为0,所以fcst = 0
网格点对点
插值?
取最大的价值吗?
-
将网格值插值到雨量的位置(粗略假设:每个网格点的权重相等)
20 * 0.25 *3 = 15
不建议使用模型分析作为验证的“观测”
因为:不独立!!
非独立会影响什么?“更好的”的分数……(不具有代表性)
观测特征及其影响
观测并不完美!
观测误差 vs 可预测性和预测误差/不确定性
相同参数的不同观测类型(手动或自动)可能会影响结果
典型的仪表错误有:
- 温度:+/- 0.1℃
- 风速:速度相关误差,+/- 0.5m/s
- 降水(仪表):+/- 0.1mm(half tip),但高达50%
其他问题:定位问题(例如,屏蔽/暴露)
在某些情况下,“预测”误差与仪器的限制非常相似
观察误差的影响
观测误差增加了验证结果的不确定性
对验证结果的影响
- RMSE - 高估
- 传播 - 更多 obs 异常值使整体看起来分散不足
- 可靠性 - 较差
- 分辨率 - BS 分解更大,但 ROC 区域更差
- CRPS - 较差的平均值
更多的样本可以有所帮助(结果的可靠性)
供验证的统计依据
验证的统计依据
任何验证活动都应从彻底检查预测和观测结果的统计特性开始。
- 例如,许多工具都是基于正态性(高斯分布)的假设。这是否适用于有问题的数据集?
- 预测是否捕捉到了观测到的范围?
- 预测和观察到的分布是否匹配/一致?
- 他们有相同的平均值,变化特征等吗?
除了需要评估数据的特征之外
联合分布、边际分布和条件分布有助于理解预测验证的统计基础
- 这些分布可以与验证中使用的具体总结和性能度量有关
- 对验证感兴趣的特定属性是由这些分布来衡量的
基本概率
又称(边际概率)
$p_x = p(X=x)$
一个随机变量X将取值x的概率
联合概率
$p_{x,y} = p(X=x,Y=y)$
事件x和y同时发生的概率
条件概率
$p_{x,y} = p(X=x|Y=y)$
给定事件y为真(或发生)时,事件x为真(或发生)的概率
验证可以表示为评价预测和观测的联合分布的过程
(验证就是预测和观测场一样,也就是两者同时发生的情况,也就是联合分布)
- 所有关于预测、观测及其关系的信息都用这种分布来表示
- 联合分布可以被分解成两对条件分布和边际分布
- $p(f,x) = p(F=f|X=x)p(X=x)$
- $p(f,x) = p(X=x|F=f)p(F=f)$
分布的图形化表示
联合分布
- 散点图
- 密度图
- 三维直方图
- 等高线图
边际分布
直方图/柱状图
方框图
累积分布图
分位数-分位数图/Q-Q图
密度函数图(函数做y,取值做x)
累积分布图(累计值做y,取值做x)
条件分布
条件分位数图
条件箱形图
茎叶图
比较和推理
技能分数(Skill scores)
- 技能分数是对相对表现的一种衡量标准
- 测量超过标准的改进百分比
- 正向导向(越大越好)
- 标准的选择很重要
通用技能分数定义:
$\frac {M - M_{ref}}{M_{perf} - M_{ref}}$
M是对预测的验证度量
$M_{ref}$是衡量参考预测的指标
$M_{perf}$是对完美预测的衡量标准
参考类型
类型 | 例子 | 特性 |
---|---|---|
Random 随机 |
Equitable Threat Score (公平的威胁得分) |
很好理解的统计基准 没有物理意义 |
Persistence 持续 |
Constructed skill score 构建的技能分数 |
可预测性的度量(当持久性是一个糟糕的预测时,可预测性很低) 显示运行 NWP 模型的附加值 |
Sample climate 样品气候 |
Constructed skill score 构建的技能分数 |
比持久性更进一步,即平滑 由于政权依赖性,保留了可预测性元素 |
Long-term climatology 长期气候学 |
Constructed skill score,extremes 构建的技能得分,极端值 |
最简单的节拍参考,最流畅 对代表性、汇集问题、气候变化趋势的关注 |
应该尽可能地估计分数和测量方法的不确定性!
不确定性来自于
- 抽样变化性
- 观察误差
- 代表性差异
- 其他?
置信区间和假设检验的方法
参数化(即,取决于一个统计模型)
非参数(例如,源自重采样过程,通常称为“引导”)
验证属性
验证属性度量预测质量的不同方面
- 表示应该考虑的一系列特性
- 许多可能与预测和观测的联合、条件和边际分布有关
例子
- 偏见
(边际分布) - 相关性
整体关联(联合分布) - 准确度
差异(联合分布) - 校准
测量条件偏差(条件分布) - 区别
预测区分不同观测值的程度(条件分布)
验证措施的理想特点
统计有效性
特性(概率预测)
- 当预测与预测者的最佳判断相一致时,就会达到“最佳”得分
- “对冲”是惩罚
- 示例:Brier分数
公平性
- 恒定和随机预测应获得相同的分数
示例:Gilbert 技能得分(2x2 案例); Gerrity 评分 - 没有分数达到更严格意义上的这一点
例如:大多数分数对偏差、事件频率很敏感
总结
所有的预测都应该经过验证——如果有什么东西值得预测,那就值得验证
分层和聚合
- 聚合可以帮助增加样本大小和统计健壮性,但也可以隐藏性能的重要方面
- 最常见的制度可能主导结果,掩盖了性能的变化
- 因此,将结果分层为有意义的同质子组是非常重要的
- 聚合可以帮助增加样本大小和统计健壮性,但也可以隐藏性能的重要方面
观测场
没有所谓的“真相”!!
观察结果通常比模型分析更“真实”(至少它们相对更独立)
无论以任何可能的方式,都应该考虑到观测结果的不确定性
例如,相邻的观测结果彼此匹配得如何?
4w+h
- who:谁想知道
- what
- 用户关心吗
- 我们在评估什么参数吗?它的特征是什么(例如,连续的、概率性的)?
- 阈值很重要(如果有的话)?
- 预测分辨率是否相关(例如,特定地点、区域平均)?
- obs的特征(例如质量、不确定性)?
- 是否有适当的方法?
- why:我们需要验证吗?
- how:您是否需要/显示相关结果(例如,分层/聚合)?
- which
- 方法和度量标准是否合适吗?
- 需要采用方法(例如,偏差、事件频率、样本量)
茎状图和叶图:边缘分布和条件分布
数据准备
观测数据来源
如果我们对预报有效期内的每个地点和每个时间点进行观测,这不是很好吗?
这样我们就可以对任何预测进行完全的验证
观测结果代表了大气在空间和时间上的真实状态的一个“样本”。
观测也可能在某个点或一个区域上有效
实地观测或遥感的
实地观测 - 地面或高空大气
- 在现场,点有效
- 高分辨率,但在空间中采样严重不足
- 较新的仪器几乎可以连续地取样
- 唯一重要的误差是仪器误差,通常很小
遥感观察
卫星和雷达是最常见的
- 雷达
- 测量地表上方体积内水凝物的反向散射
- 与感测体积中的降雨率的关系是一个复杂的函数,但已知
- 感知到的平均雨率与雨率(或地表的总降雨量)之间的联系要脆弱得多
- 误差的几种来源:衰减、异常传播、接近冰点的明亮频带等。
- 卫星
- 根据仪器测量一个或多个频带内的后向散射辐射。
- 通常低垂直分辨率 - 可以测量总柱水分
- 传递函数需要将返回值转换为感兴趣的变量的估计数。
- 对云最有用,特别是与表面观测相结合
遥感数据
- 大数据量
- 检测到的变量通常不是要验证的变量 – 需要传递函数 – 误差源之一
- 分辨率取决于仪器,雷达为几米,卫星数据为1公里左右。
- 高覆盖率,在时间上可能是零星的
- 注意由于外部影响信号而造成的错误
数据特征总结
实地考察 | 雷达 | 卫星 | |
---|---|---|---|
分辨率 - 空间 | 高 - 点 | 相当高 - 雷达量平均数 | 取决于足迹在1公里左右 |
分辨率 - 时间 | 高 | 高 | 高 |
空间采样频率 | 这是很低的,除了特殊的网络 | 高 - 基本上是连续的 | 其域内的地理位置高 极地轨道变量 |
时间采样频率 | 可以是高 | 高,通常为10min左右 | 中等用于地球轨道。 低,适用于极地轨道飞行 |
分辨率:定义观测值的时间或空间距离
采样频率(粒度):在时间或空间上的观测频率
误差和不确定性的来源
在频率或值上的偏差
仪器偏差
随机误差或噪声
报告错误
主观观察
例如云覆盖
精度误差
传输函数错误
分析误差
当使用分析时
观测的质量控制
做这件事是绝对必要的,即使是“好的” 观测站点
基本方法
1. **伙伴检查**(空间和时间)
2. 简单的**范围检查**
3. **趋势检查**(与附近的独立时空检查)
4. 绝对值检查。
5. 在不消除太多“好”数据的情况下删除“坏”数据
6. 但不做预测 - 观测的差异检查
使用模型作为观察的比较标准不是一个好主意,作为一个过滤器来消除模型无法解决的极端情况
1. 使观测数据依赖于模型
2. 在qc中使用的模型得到了更好的验证结果
了解有关仪器及其错误的细节也很重要。
预测有效性类型
用于客观验证
“预测必须被陈述,以便它们可核实”
一个预测的意义是什么?精确度吗?
- 需要进行客观验证
- 如果验证是面向用户的,那么用户的理解是很重要的
- 所有预测对空间点或区域都有效
- 在这个地区的所有点上吗?
同样对于时间:一个预测可能是
- 时间的一瞬间
- 一个瞬间在时间上,但“某个时间”在一个范围内
- 一段时间,例如24小时折旧
- 在一段时间内的极端情况吗?
预测数据来源,以供验证
所有类型的NWP模型
- 主要变量(P或Z、T、U、V、RH或Td)的确定性预测,通常是在模型的三维域上的网格点
- 其他衍生变量:由模型计算出的折旧率、折旧总额、云量和高度等,可能无法观测到
- 空间和时间表示被认为是连续的,但有限的尺度集可以被解决。
后处理模型输出
- 统计方法,如MOS
- 动态的或经验性的方法,例如折旧类型
- 相互依赖的模型,如海浪
操作预测
- 格式取决于用户的需要
- 可以是点,可以是一个区域或一段时间内的最大平均值或次要平均值
“一切都应该得到核实”
变量类型
连续的
- 可以在其范围内承担任何值(接近)
- 例如温度、风
- 预测是针对特定的值进行的
分类的
- 只能接受一小部分特定的值
- 可以这样观察到,如降水、降水类型、视觉障碍
- 可以从一个连续的变量中“分类”,例如降水量、上限、vis、云量
- 如果有,验证为分类或发生概率
概率分布
- 验证为概率分布函数或累积分布函数
转换变量
数值已从原始观测值中有所改变
示例:
准连续变量的分类,例如云量
要根据用户需求进行评估:
- “升级”到模型网格盒
- 插补
转换观测值的分布:
例如,通过子设置来选择极端情况
数据匹配问题
例如,预测可以在空间上定义为“威胁区域”,或在网格(模型)上表示
- 有限尺度集
- 在空间和时间上相关
观测结果是分散的点值
- 代表所有刻度,但仅在车站有效
- 采样不足作为场
预测至观测技术:
- 问:在验证地点的预测是什么?
- 推荐的验证方法-不要考虑观测值。
- 插值到观测位置的插值-为平滑变量
- 最近的网格点-用于“情景性”或空间分类变量
- 除QC外,观察结果保持不变
- 有时,通过将模型预测转换为“如果预测正确,卫星将看到什么”,可以对遥感数据进行验证
观测预测技术(适用针对建模人员):
- 放大——在网格上求平均值——仅当这是预测(模型)的真正定义时,例如Cherubini等人2002
- 本地验证
- 只验证那些有数据的地方!
例子
降水验证项目:方法论 - 欧洲
升尺度:
1x1个网格框,模型分辨率的限制
网格箱上的平均磅,每个网格箱至少9吨(欧洲数据)
网格盒上的平均 obs,每个网格盒至少 9 个 stns(欧洲数据)
仅在有足够的数据处进行验证
回答在模型的能力范围内关于预测的质量的问题
最有可能的用户是建模者
模型技术观察:
- 在模型网格上的观测数据分析
- 经常做,但除了一些模型研究外,不是一个验证的好主意
- 使用模型独立的方法进行分析,如巴恩斯
- 使用依赖模型的方法进行分析-数据同化(验证错误!)例如,Park等人,2008年
不同的“真理”的影响
将匹配点obs与区域延迟的预测相匹配:事件是什么?
对于分类预测,我们必须清楚正在预测的“事件”
- 预测有效的位置或区域
- 对它有效的时间范围
- 类别定义
现在,什么被定义为正确的预测呢?
- 该事件被预测出来,并在该地区的任何地方被观察到吗?超过一定比例的面积?
- 规模考虑因素
收集数据进行验证
存档预测和观测
- 你自己的:观测站观测和相应的预报
- 大多数NWP中心将他们的预测和观察结果存档;如果你使用他们的模型,你可能会让他们给你相关的数据进行验证
目标:生成一套相匹配的预测和观测结果
emm, ppt看的有点迷呀,,,唉
文件下载
链接:https://www.7thverificationworkshop.de/Tutorial/Tutorial-Talks/index.html