什么是拟合?
文章目录
统计学
参数估计: 假设总体 $ X\sim F(x;\theta_i) $, 从中抽样得到样本 $ X_1, X_2, \cdots, X_i, \cdots $. 构造样本的函数(统计量), 求出未知参数 $ \theta_i $ 的估计值(点估计)或取值范围(区间估计).
-
统计量:由样本构造的不含末知参数的随机变量, 用来代表参数 $ \theta_i $ 的估计量 $ \hat{\theta}_i $. 统计量的分布称为抽样分布, 与$N(0,1)$分布有关的抽样分布有: $\chi^2(n), t(n), F(m,n)$.
-
点估计: 方法有 矩估计, 极大似然估计, 最小二乘估计, 贝叶斯估计等.
最小卡方 $ \chi^2 $
$$ \chi^2 =\sum_i \frac{(O_{\small Exp}-O_{\small Data})^2}{\sigma^2} $$
极大似然 $ Likelihood $
极大似然估计:设$X_i$是总体$X$的样本, $x_i$样本测量值. 若存在统计量 $\hat{\theta}_i(x_1,\cdots,x_n)$, 使得 $L(\hat{\theta}) = \rm{sup}~L(\theta)$, 即使得似然函数取极大值, 则称$\hat{\theta}_i$是参数$\theta_i$的极大似然估计量. 其中似然函数的定义如下:
- 若$X$为离散型随机变量, 其分布律为 $P\{X=a_k\} = p_k(\theta) $.
$$ L(\theta) = L(\theta;x_i) = \prod_{i=1}^{n} P\{X=x_i\} $$ - 若$X$为连续型随机变量, 概率密度为 $f(x;\theta)$. $$ L(\theta) = L(\theta;x_i) = \prod_{i=1}^{n} f(x_i;\theta) $$
求解极大似然估计三步曲:
- 根据总体分布的表达式,写出似然函数 $L(\theta)$.
- 写出对数似然函数 $\log L(\theta)$.
- 用偏导求出极大值点$\hat{\theta}_i$ $$ \left\{ \begin{aligned} &\frac{\partial\log L(\theta_i)}{\partial\theta_1} = 0 \\ &\cdots \end{aligned} \right. $$
可观测量
从理论上预言出来的可观测量$ O = f(\theta_i) $,是一个关于参数的函数。从统计学意义上,这是一个随机变量, 因为参数 $\theta_i$本身是随机变量, 我们要做的是估计其中的参数. 但 $O$ 服从什么分布呢? 这个我还不知道.
“可观测"意味着实验上可以测量, 于是当有实验组愿意做这个实验的时候, 便可以给出实验测量值, 即样本.
可观测量之间并不一定是独立的, 所以某些可观测量之间会存在关联, 我们用关联矩阵来描述这种关系.
实验测量值
如果有多个实验组, 或者同一个实验组多次测量同一个可观测量, 则会对这个可观测量给出多个测量值. 最终给出如下的结果: $$ \begin{aligned} O_1 &= {测量值1, 测量值2, \cdots} & O_2 &= {测量值1, 测量值2, \cdots} \end{aligned} $$
误差
拟合
我们有什么呢?
- 模型: 模型中有未知参数, 已知参数, 以及约束条件.
- 可观测量: 由理论模型计算出来的解析表达式, 是模型参数的函数.
- 实验测量值: 一系列由实验数据归纳出来的带有误差的具体数值.
我们要干什么呢?
通过$\chi^2$或$L(\theta)$, 由实测测量值构造统计量, 估计模型中的未知参数.
思考
模型中有非常多的参数, 有已知的, 也有未知的. 即使是已知的参数, 作为随机变量, 它也服从某种分布, 有误差存在. 对于一个特定的任务, 我们只会关心模型中的某几个特定参数. 其余的参数要么不出现在我们关心的可观测量里, 要么我们假定它们取特定的期望值, 这些参数通常被称为 nuisance parameters.
于是我们将参数分成了两类, 一类是我们将要拟合的未知参数$\theta_i$, 另一类是nuisance的$ \xi_j $. $L(\theta_i,\xi_j)$
工作步骤
在概率论中,概率的定义为:
- 对于离散型随机变量,概率定义为$ \rm P(X=x_i) = p_i $
- 对于连续型随机变量,概率定义为$ \rm P(X=x_i) = f(x_i)dx $
于是我们可以定义物理上的似然函数:似然函数是一些 Wilson 系数,实验观测值,以及冗余参数的函数,它被定义为所有可能概率的连乘。 从定义中也可以得到, 似然函数越大, 代表了由理论所得到的可观测量与实验观测值越接近. 这是一个由多可观测量组成的函数, 其中每一个 可观测量与实验符合的程度会被总体符合程度给包含进去, 从而可以避免过度拟合.
$ L(WCs, measurements, parameters ) = \Pi_i P(\text{可观测量=实验测量值}) = \Pi_i f(\text{实验测量值;参数}) $
而如果可观测量符合正态分布 $ f(x) = \frac{1}{\sigma\sqrt{2\pi}} exp(-\frac{(x-\mu)^2}{2\sigma^2}) $
对似然函数取对数: $ \ln L = \sum_i \ln f_i(x_i) = \sum_i (-\frac{(x_i-\mu_i)^2}{2\sigma_i^2} - \ln(\sigma_i\sqrt{2\pi})) $
此时我们定义 $\chi^2 = -2\ln L + \text{constant} = \sum_i (\frac{(x_i-\mu_i)^2}{\sigma_i^2} $, 则在似然函数最大时,$\chi^2$最小。
- 生成似然函数,似然函数生成时,需指定可观测量$ O_i $,以及实验测量值。此时$O_i(WCs, parameters)$中会包含一些冗余参数,如夸克质量等已经被实验测出来的参数,此时需要考虑进来它们的误差。
- 去除冗余参数,make_measurement()
- 取似然函数对数,在flavio中,其实使用的就是高斯分布下的$\chi^2(WCs)$
- 对于每一个Wilson系数,都可以算出来一个相应的$\chi^2$来,将这些数据存储起来,用于画图
- 画图