统计学

参数估计: 假设总体 $ X\sim F(x;\theta_i) $, 从中抽样得到样本 $ X_1, X_2, \cdots, X_i, \cdots $. 构造样本的函数(统计量), 求出未知参数 $ \theta_i $ 的估计值(点估计)或取值范围(区间估计).

  • 统计量:由样本构造的不含末知参数的随机变量, 用来代表参数 $ \theta_i $ 的估计量 $ \hat{\theta}_i $. 统计量的分布称为抽样分布, 与$N(0,1)$分布有关的抽样分布有: $\chi^2(n), t(n), F(m,n)$.

  • 点估计: 方法有 矩估计, 极大似然估计, 最小二乘估计, 贝叶斯估计等.

最小卡方 $ \chi^2 $

$$ \chi^2 =\sum_i \frac{(O_{\small Exp}-O_{\small Data})^2}{\sigma^2} $$

极大似然 $ Likelihood $

极大似然估计:设$X_i$是总体$X$的样本, $x_i$样本测量值. 若存在统计量 $\hat{\theta}_i(x_1,\cdots,x_n)$, 使得 $L(\hat{\theta}) = \rm{sup}~L(\theta)$, 即使得似然函数取极大值, 则称$\hat{\theta}_i$是参数$\theta_i$的极大似然估计量. 其中似然函数的定义如下:

  1. 若$X$为离散型随机变量, 其分布律为 $P\{X=a_k\} = p_k(\theta) $.
    $$ L(\theta) = L(\theta;x_i) = \prod_{i=1}^{n} P\{X=x_i\} $$
  2. 若$X$为连续型随机变量, 概率密度为 $f(x;\theta)$. $$ L(\theta) = L(\theta;x_i) = \prod_{i=1}^{n} f(x_i;\theta) $$

求解极大似然估计三步曲:

  1. 根据总体分布的表达式,写出似然函数 $L(\theta)$.
  2. 写出对数似然函数 $\log L(\theta)$.
  3. 用偏导求出极大值点$\hat{\theta}_i$ $$ \left\{ \begin{aligned} &\frac{\partial\log L(\theta_i)}{\partial\theta_1} = 0 \\ &\cdots \end{aligned} \right. $$

可观测量

从理论上预言出来的可观测量$ O = f(\theta_i) $,是一个关于参数的函数。从统计学意义上,这是一个随机变量, 因为参数 $\theta_i$本身是随机变量, 我们要做的是估计其中的参数. 但 $O$ 服从什么分布呢? 这个我还不知道.

“可观测"意味着实验上可以测量, 于是当有实验组愿意做这个实验的时候, 便可以给出实验测量值, 即样本.

可观测量之间并不一定是独立的, 所以某些可观测量之间会存在关联, 我们用关联矩阵来描述这种关系.


实验测量值

如果有多个实验组, 或者同一个实验组多次测量同一个可观测量, 则会对这个可观测量给出多个测量值. 最终给出如下的结果: $$ \begin{aligned} O_1 &= {测量值1, 测量值2, \cdots} & O_2 &= {测量值1, 测量值2, \cdots} \end{aligned} $$


误差


拟合

我们有什么呢?

  1. 模型: 模型中有未知参数, 已知参数, 以及约束条件.
  2. 可观测量: 由理论模型计算出来的解析表达式, 是模型参数的函数.
  3. 实验测量值: 一系列由实验数据归纳出来的带有误差的具体数值.

我们要干什么呢?

通过$\chi^2$或$L(\theta)$, 由实测测量值构造统计量, 估计模型中的未知参数.

思考

模型中有非常多的参数, 有已知的, 也有未知的. 即使是已知的参数, 作为随机变量, 它也服从某种分布, 有误差存在. 对于一个特定的任务, 我们只会关心模型中的某几个特定参数. 其余的参数要么不出现在我们关心的可观测量里, 要么我们假定它们取特定的期望值, 这些参数通常被称为 nuisance parameters.

于是我们将参数分成了两类, 一类是我们将要拟合的未知参数$\theta_i$, 另一类是nuisance的$ \xi_j $. $L(\theta_i,\xi_j)$


工作步骤

在概率论中,概率的定义为:

  • 对于离散型随机变量,概率定义为$ \rm P(X=x_i) = p_i $
  • 对于连续型随机变量,概率定义为$ \rm P(X=x_i) = f(x_i)dx $

  于是我们可以定义物理上的似然函数:似然函数是一些 Wilson 系数,实验观测值,以及冗余参数的函数,它被定义为所有可能概率的连乘。 从定义中也可以得到, 似然函数越大, 代表了由理论所得到的可观测量与实验观测值越接近. 这是一个由多可观测量组成的函数, 其中每一个 可观测量与实验符合的程度会被总体符合程度给包含进去, 从而可以避免过度拟合.

$ L(WCs, measurements, parameters ) = \Pi_i P(\text{可观测量=实验测量值}) = \Pi_i f(\text{实验测量值;参数}) $

而如果可观测量符合正态分布 $ f(x) = \frac{1}{\sigma\sqrt{2\pi}} exp(-\frac{(x-\mu)^2}{2\sigma^2}) $

对似然函数取对数: $ \ln L = \sum_i \ln f_i(x_i) = \sum_i (-\frac{(x_i-\mu_i)^2}{2\sigma_i^2} - \ln(\sigma_i\sqrt{2\pi})) $

此时我们定义 $\chi^2 = -2\ln L + \text{constant} = \sum_i (\frac{(x_i-\mu_i)^2}{\sigma_i^2} $, 则在似然函数最大时,$\chi^2$最小。

  1. 生成似然函数,似然函数生成时,需指定可观测量$ O_i $,以及实验测量值。此时$O_i(WCs, parameters)$中会包含一些冗余参数,如夸克质量等已经被实验测出来的参数,此时需要考虑进来它们的误差。
  2. 去除冗余参数,make_measurement()
  3. 取似然函数对数,在flavio中,其实使用的就是高斯分布下的$\chi^2(WCs)$
  4. 对于每一个Wilson系数,都可以算出来一个相应的$\chi^2$来,将这些数据存储起来,用于画图
  5. 画图