0%

7th International Verification Methods Workshop_Tutorial Talks

未完待续。。。

翻译着翻译着,越来越看不懂,等再积累一些知识再回来翻译

验证基础

基础验证概念

什么是验证?

  1. 验证是将预测与相关观测结果进行比较的过程
  2. 验证是衡量预测的质量(相对其价值)
  3. (验证)对于许多方面,一个更合适的术语是“评价

为什么要验证?

  1. 监控模型性能
  2. 识别模型缺陷 -> 帮助操作预测员了解模型的偏差
  3. 改进决策、改善预测 -> 在不同条件下使用对应合适的模型
  4. 选择模型或模型配置(模型是否有所改进?)
  5. 纠正模型缺陷
  6. 确定预测的劣势、优势、差异 -> 帮助用户理解(解释)预测

确定验证目标

思考如下问题:

  1. 该模型在哪些位置的性能最好
  2. 是否可以调节使得预测变得更好/更坏
  3. 概率预测是否得到了良好的校准(即是否可靠)?
  4. 天气预报是否正确地捕捉到了天气的自然变化

应该衡量哪些预测性能属性?

预测”好”

取决于两个方面:

  1. 预测的质量

  2. 用户及其对预测信息的应用

    例子:

    http://shuwenlovestudy.top/7th_International_Verification_Methods_Workshop_Tutorial_Talks/F_O.png

    许多验证方法结论表示,这种预测没有任何技能,而且非常不准确。

    如果我是这个流域的水务经理,这是一个相当糟糕的预测。

    http://shuwenlovestudy.top/7th_International_Verification_Methods_Workshop_Tutorial_Talks/F_O_%E6%B0%B4%E5%9F%9F.png

    但如果我是一名航空交通战略规划者。。这可能是一个很好的预测

    http://shuwenlovestudy.top/7th_International_Verification_Methods_Workshop_Tutorial_Talks/F_O_%E8%88%AA%E7%A9%BA.png

    1. 不同的用户对预测的好坏有不同的看法

    2. 不同的验证方法可以衡量不同类型的“好”

  3. 预测质量只是预测“好坏”的一个方面

  4. 预测值与预测质量相关(但预测质量提高,某些方面的预测值可能下降)

开展验证研究的基本指南

  1. 考虑用户(谁对验证结果感兴趣)
  2. 用户最关心的是预测质量的哪些方面
  3. 确定代表正在被预测的事件的观测结果
  4. 确定可以提供感兴趣的问题的答案的多个验证属性
  5. 选择适当度量和表示感兴趣的属性的度量图形
  6. 确定一个提供技能参考水平的比较标准(例如:持久性、气候学、旧模型)

预测和观测

预测、观测的类型

连续的

  1. 温度
  2. 雨量
  3. 500mb高度

分类

  1. 二分类
    1. 雨与无雨
      1. 强风与无强风
      2. 夜间霜冻与无霜冻
  2. 多分类
    1. 云量类别
    2. 降水类型(小雨、中雨、暴雨等)

匹配预测和观测结果

  1. 点对点网格

    1. 匹配obs到最近的网格点

    2. http://shuwenlovestudy.top/7th_International_Verification_Methods_Workshop_Tutorial_Talks/%E7%82%B9%E5%AF%B9%E7%82%B9.png

      http://shuwenlovestudy.top/7th_International_Verification_Methods_Workshop_Tutorial_Talks/%E7%82%B9%E5%AF%B9%E7%82%B9%E4%BE%8B%E5%AD%90.png

      匹配雨量为最近的网格点的值,最近的点(右上角)值为0,所以fcst = 0

  2. 网格点对点

    1. 插值?

    2. 取最大的价值吗?

    3. http://shuwenlovestudy.top/7th_International_Verification_Methods_Workshop_Tutorial_Talks/%E7%BD%91%E6%A0%BC%E5%AF%B9%E7%82%B9.png

      http://shuwenlovestudy.top/7th_International_Verification_Methods_Workshop_Tutorial_Talks/%E7%BD%91%E6%A0%BC%E5%AF%B9%E7%82%B9%E4%BE%8B%E5%AD%90.png

      将网格值插值到雨量的位置(粗略假设:每个网格点的权重相等)

      20 * 0.25 *3 = 15

不建议使用模型分析作为验证的“观测”

因为:不独立!!

非独立会影响什么?“更好的”的分数……(不具有代表性)

观测特征及其影响

观测并不完美!

观测误差 vs 可预测性和预测误差/不确定性

相同参数的不同观测类型(手动或自动)可能会影响结果

典型的仪表错误有:

  • 温度:+/- 0.1℃
  • 风速:速度相关误差,+/- 0.5m/s
  • 降水(仪表):+/- 0.1mm(half tip),但高达50%

其他问题:定位问题(例如,屏蔽/暴露)

在某些情况下,“预测”误差与仪器的限制非常相似

观察误差的影响

观测误差增加了验证结果的不确定性

对验证结果的影响

  1. RMSE - 高估
  2. 传播 - 更多 obs 异常值使整体看起来分散不足
  3. 可靠性 - 较差
  4. 分辨率 - BS 分解更大,但 ROC 区域更差
  5. CRPS - 较差的平均值

更多的样本可以有所帮助(结果的可靠性)

供验证的统计依据

验证的统计依据

任何验证活动都应从彻底检查预测和观测结果的统计特性开始。

  1. 例如,许多工具都是基于正态性(高斯分布)的假设。这是否适用于有问题的数据集?
  2. 预测是否捕捉到了观测到的范围
  3. 预测和观察到的分布是否匹配/一致?
  4. 他们有相同的平均值,变化特征等吗?

除了需要评估数据的特征之外

联合分布边际分布条件分布有助于理解预测验证的统计基础

  1. 这些分布可以与验证中使用的具体总结性能度量有关
  2. 对验证感兴趣的特定属性是由这些分布来衡量的

基本概率

又称(边际概率)

$p_x = p(X=x)$

一个随机变量X将取值x的概率

联合概率

$p_{x,y} = p(X=x,Y=y)$

事件x和y同时发生的概率

条件概率

$p_{x,y} = p(X=x|Y=y)$

给定事件y为真(或发生)时,事件x为真(或发生)的概率


验证可以表示为评价预测和观测的联合分布的过程

(验证就是预测和观测场一样,也就是两者同时发生的情况,也就是联合分布)

  1. 所有关于预测、观测及其关系的信息都用这种分布来表示
  2. 联合分布可以被分解成两对条件分布和边际分布
    • $p(f,x) = p(F=f|X=x)p(X=x)$
    • $p(f,x) = p(X=x|F=f)p(F=f)$

分布的图形化表示

联合分布

  1. 散点图
  2. 密度图
  3. 三维直方图
  4. 等高线图

边际分布

  1. 茎叶图 http://blog.sina.com.cn/s/blog_4da7fafa0100y9i3.html

  2. 直方图/柱状图

  3. 方框图

  4. 累积分布图

  5. 分位数-分位数图/Q-Q图

  6. 密度函数图(函数做y,取值做x)

    http://shuwenlovestudy.top/7th_International_Verification_Methods_Workshop_Tutorial_Talks/%E5%AF%86%E5%BA%A6%E5%87%BD%E6%95%B0%E5%9B%BE.png

  7. 累积分布图(累计值做y,取值做x)

    http://shuwenlovestudy.top/7th_International_Verification_Methods_Workshop_Tutorial_Talks/%E7%B4%AF%E7%A7%AF%E5%88%86%E5%B8%83%E5%9B%BE.png

条件分布

  1. 条件分位数图

    http://shuwenlovestudy.top/7th_International_Verification_Methods_Workshop_Tutorial_Talks/%E6%9D%A1%E4%BB%B6%E5%88%86%E4%BD%8D%E6%95%B0%E5%9B%BE.png

  2. 条件箱形图

    http://shuwenlovestudy.top/7th_International_Verification_Methods_Workshop_Tutorial_Talks/%E6%9D%A1%E4%BB%B6%E7%AE%B1%E5%BD%A2%E5%9B%BE.png

  3. 茎叶图

    http://shuwenlovestudy.top/7th_International_Verification_Methods_Workshop_Tutorial_Talks/%E8%8C%8E%E5%8F%B6%E5%9B%BE.png

比较和推理

技能分数(Skill scores)

  1. 技能分数是对相对表现的一种衡量标准
  2. 测量超过标准的改进百分比
  3. 正向导向(越大越好)
  4. 标准的选择很重要

通用技能分数定义:

$\frac {M - M_{ref}}{M_{perf} - M_{ref}}$

M是对预测的验证度量

$M_{ref}$是衡量参考预测的指标

$M_{perf}$是对完美预测的衡量标准

参考类型

类型 例子 特性
Random
随机
Equitable Threat Score
(公平的威胁得分)
很好理解的统计基准
没有物理意义
Persistence
持续
Constructed skill score
构建的技能分数
可预测性的度量(当持久性是一个糟糕的预测时,可预测性很低)
显示运行 NWP 模型的附加值
Sample climate
样品气候
Constructed skill score
构建的技能分数
比持久性更进一步,即平滑
由于政权依赖性,保留了可预测性元素
Long-term climatology
长期气候学
Constructed skill score,extremes
构建的技能得分,极端值
最简单的节拍参考,最流畅
对代表性、汇集问题、气候变化趋势的关注

应该尽可能地估计分数和测量方法的不确定性!

不确定性来自于

  • 抽样变化性
  • 观察误差
  • 代表性差异
  • 其他?

置信区间和假设检验的方法

  • 参数化(即,取决于一个统计模型)

  • 非参数(例如,源自重采样过程,通常称为“引导”)

验证属性

验证属性度量预测质量的不同方面

  • 表示应该考虑的一系列特性
  • 许多可能与预测和观测的联合、条件和边际分布有关

例子

  1. 偏见
    (边际分布)
  2. 相关性
    整体关联(联合分布)
  3. 准确度
    差异(联合分布)
  4. 校准
    测量条件偏差(条件分布)
  5. 区别
    预测区分不同观测值的程度(条件分布)

验证措施的理想特点

统计有效性

特性(概率预测)

  1. 当预测与预测者的最佳判断相一致时,就会达到“最佳”得分
  2. “对冲”是惩罚
  3. 示例:Brier分数

公平性

  1. 恒定和随机预测应获得相同的分数
    示例:Gilbert 技能得分(2x2 案例); Gerrity 评分
  2. 没有分数达到更严格意义上的这一点
    例如:大多数分数对偏差、事件频率很敏感

总结

  1. 所有的预测都应该经过验证——如果有什么东西值得预测,那就值得验证

  2. 分层和聚合

    1. 聚合可以帮助增加样本大小和统计健壮性,但也可以隐藏性能的重要方面
      1. 最常见的制度可能主导结果,掩盖了性能的变化
      2. 因此,将结果分层为有意义的同质子组是非常重要的
  3. 观测场

    1. 没有所谓的“真相”!!

    2. 观察结果通常比模型分析更“真实”(至少它们相对更独立)

    3. 无论以任何可能的方式,都应该考虑到观测结果的不确定性

      例如,相邻的观测结果彼此匹配得如何?

  4. 4w+h

    1. who:谁想知道
    2. what
      1. 用户关心吗
      2. 我们在评估什么参数吗?它的特征是什么(例如,连续的、概率性的)?
      3. 阈值很重要(如果有的话)?
      4. 预测分辨率是否相关(例如,特定地点、区域平均)?
      5. obs的特征(例如质量、不确定性)?
      6. 是否有适当的方法?
    3. why:我们需要验证吗?
    4. how:您是否需要/显示相关结果(例如,分层/聚合)?
    5. which
      1. 方法和度量标准是否合适吗?
      2. 需要采用方法(例如,偏差、事件频率、样本量)
  5. 茎状图和叶图:边缘分布和条件分布

数据准备

观测数据来源

  1. 如果我们对预报有效期内的每个地点和每个时间点进行观测,这不是很好吗?

    这样我们就可以对任何预测进行完全的验证

  2. 观测结果代表了大气在空间和时间上的真实状态的一个“样本”

  3. 观测也可能在某个点一个区域上有效

    实地观测或遥感的

  4. 实地观测 - 地面高空大气

    1. 在现场,点有效
    2. 高分辨率,但在空间中采样严重不足
    3. 的仪器几乎可以连续地取样
    4. 唯一重要的误差是仪器误差,通常很

遥感观察

卫星雷达是最常见的

  1. 雷达
    1. 测量地表上方体积内水凝物的反向散射
    2. 与感测体积中的降雨率的关系是一个复杂的函数,但已知
    3. 感知到的平均雨率与雨率(或地表的总降雨量)之间的联系要脆弱得多
    4. 误差的几种来源:衰减异常传播接近冰点的明亮频带等。
  2. 卫星
    1. 根据仪器测量一个或多个频带内的后向散射辐射。
    2. 通常低垂直分辨率 - 可以测量总柱水分
    3. 传递函数需要将返回值转换为感兴趣的变量的估计数
    4. 最有用,特别是与表面观测相结合

遥感数据

  1. 大数据
  2. 检测到的变量通常不是要验证的变量 – 需要传递函数误差源之一
  3. 分辨率取决于仪器,雷达为几米,卫星数据为1公里左右。
  4. 高覆盖率,在时间上可能是零星的
  5. 注意由于外部影响信号而造成的错误

数据特征总结

实地考察 雷达 卫星
分辨率 - 空间 高 - 点 相当高 - 雷达量平均数 取决于足迹在1公里左右
分辨率 - 时间
空间采样频率 这是很低的,除了特殊的网络 高 - 基本上是连续的 其域内的地理位置高 极地轨道变量
时间采样频率 可以是高 高,通常为10min左右 中等用于地球轨道。
低,适用于极地轨道飞行

分辨率:定义观测值的时间或空间距离

采样频率(粒度):在时间或空间上的观测频率

误差和不确定性的来源

  1. 在频率或值上的偏差

  2. 仪器偏差

  3. 随机误差或噪声

  4. 报告错误

  5. 主观观察

    例如云覆盖

  6. 精度误差

  7. 传输函数错误

  8. 分析误差

    当使用分析时

观测的质量控制

做这件事是绝对必要的,即使是“好的” 观测站点

基本方法

 1. **伙伴检查**(空间和时间)
 2. 简单的**范围检查**
 3. **趋势检查**(与附近的独立时空检查)
 4. 绝对值检查。
 5. 在不消除太多“好”数据的情况下删除“坏”数据
 6. 但不做预测 - 观测的差异检查

使用模型作为观察的比较标准不是一个好主意,作为一个过滤器来消除模型无法解决的极端情况

​ 1. 使观测数据依赖于模型

 2. 在qc中使用的模型得到了更好的验证结果

了解有关仪器及其错误的细节也很重要。

预测有效性类型

用于客观验证

“预测必须被陈述,以便它们可核实”

一个预测的意义是什么?精确度吗?

  1. 需要进行客观验证
  2. 如果验证是面向用户的,那么用户的理解是很重要的
  3. 所有预测对空间点或区域有效
  4. 在这个地区的所有点上吗?

同样对于时间:一个预测可能是

  1. 时间的一瞬间
  2. 一个瞬间在时间上,但“某个时间”在一个范围内
  3. 一段时间,例如24小时折旧
  4. 在一段时间内的极端情况吗?

预测数据来源,以供验证

所有类型的NWP模型

  1. 主要变量(P或Z、T、U、V、RH或Td)的确定性预测,通常是在模型的三维域上的网格点
  2. 其他衍生变量:由模型计算出的折旧率、折旧总额、云量和高度等,可能无法观测到
  3. 空间和时间表示被认为是连续的,但有限的尺度集可以被解决。

后处理模型输出

  1. 统计方法,如MOS
  2. 动态的或经验性的方法,例如折旧类型
  3. 相互依赖的模型,如海浪

操作预测

  1. 格式取决于用户的需要
  2. 可以是点,可以是一个区域或一段时间内的最大平均值或次要平均值

“一切都应该得到核实”

变量类型

  1. 连续的

    1. 可以在其范围内承担任何值(接近)
    2. 例如温度、风
    3. 预测是针对特定的值进行的
  2. 分类的

    1. 只能接受一小部分特定的值
    2. 可以这样观察到,如降水、降水类型、视觉障碍
    3. 可以从一个连续的变量中“分类”,例如降水量、上限、vis、云量
    4. 如果有,验证为分类发生概率
  3. 概率分布

    1. 验证为概率分布函数累积分布函数
  4. 转换变量

    1. 数值已从原始观测值中有所改变

    2. 示例:

      1. 准连续变量的分类,例如云量

      2. 要根据用户需求进行评估:

        1. “升级”到模型网格盒
        2. 插补
      3. 转换观测值的分布:

        例如,通过子设置来选择极端情况

数据匹配问题

例如,预测可以在空间上定义为“威胁区域”,或在网格(模型)上表示

  1. 有限尺度集
  2. 在空间和时间上相关

观测结果是分散的点值

  1. 代表所有刻度,但仅在车站有效
  2. 采样不足作为场

预测至观测技术:

  1. 问:在验证地点的预测是什么?
  2. 推荐的验证方法-不要考虑观测值。
  3. 插值到观测位置的插值-为平滑变量
  4. 最近的网格点-用于“情景性”或空间分类变量
  5. 除QC外,观察结果保持不变
  6. 有时,通过将模型预测转换为“如果预测正确,卫星将看到什么”,可以对遥感数据进行验证

观测预测技术(适用针对建模人员):

  1. 放大——在网格上求平均值——仅当这是预测(模型)的真正定义时,例如Cherubini等人2002
    1. 本地验证
  2. 只验证那些有数据的地方!

例子

降水验证项目:方法论 - 欧洲

升尺度:

1x1个网格框,模型分辨率的限制

网格箱上的平均磅,每个网格箱至少9吨(欧洲数据)

网格盒上的平均 obs,每个网格盒至少 9 个 stns(欧洲数据)

仅在有足够的数据处进行验证

回答在模型的能力范围内关于预测的质量的问题

最有可能的用户是建模者

模型技术观察:

  1. 在模型网格上的观测数据分析
    1. 经常做,但除了一些模型研究外,不是一个验证的好主意
    2. 使用模型独立的方法进行分析,如巴恩斯
    3. 使用依赖模型的方法进行分析-数据同化(验证错误!)例如,Park等人,2008年

不同的“真理”的影响

将匹配点obs与区域延迟的预测相匹配:事件是什么?

对于分类预测,我们必须清楚正在预测的“事件”

  1. 预测有效的位置或区域
  2. 对它有效的时间范围
  3. 类别定义

现在,什么被定义为正确的预测呢?

  1. 该事件被预测出来,并在该地区的任何地方被观察到吗?超过一定比例的面积?
  2. 规模考虑因素

收集数据进行验证

存档预测和观测

  1. 你自己的:观测站观测和相应的预报
  2. 大多数NWP中心将他们的预测和观察结果存档;如果你使用他们的模型,你可能会让他们给你相关的数据进行验证

目标:生成一套相匹配的预测和观测结果


emm, ppt看的有点迷呀,,,唉

文件下载

链接:https://www.7thverificationworkshop.de/Tutorial/Tutorial-Talks/index.html

  1. 验证基础
  2. 数据准备
Q:如果阅读本文需要付费,你是否愿意为此支付1元?