什么是拟合？

统计学

参数估计: 假设总体 $ X\sim F(x;\theta_i) $, 从中抽样得到样本 $ X_1, X_2, \cdots, X_i, \cdots $. 构造样本的函数(统计量), 求出未知参数 $ \theta_i $ 的估计值(点估计)或取值范围(区间估计).

统计量：由样本构造的不含末知参数的随机变量, 用来代表参数 $ \theta_i $ 的估计量 $ \hat{\theta}_i $. 统计量的分布称为抽样分布, 与$N(0,1)$分布有关的抽样分布有: $\chi^2(n), t(n), F(m,n)$.
点估计: 方法有矩估计, 极大似然估计, 最小二乘估计, 贝叶斯估计等.

最小卡方 $ \chi^2 $

$$ \chi^2 =\sum_i \frac{(O_{\small Exp}-O_{\small Data})^2}{\sigma^2} $$

极大似然 $ Likelihood $

极大似然估计:设$X_i$是总体$X$的样本, $x_i$样本测量值. 若存在统计量 $\hat{\theta}_i(x_1,\cdots,x_n)$, 使得 $L(\hat{\theta}) = \rm{sup}~L(\theta)$, 即使得似然函数取极大值, 则称$\hat{\theta}_i$是参数$\theta_i$的极大似然估计量. 其中似然函数的定义如下:

若$X$为离散型随机变量, 其分布律为 $P\{X=a_k\} = p_k(\theta) $.
$$ L(\theta) = L(\theta;x_i) = \prod_{i=1}^{n} P\{X=x_i\} $$
若$X$为连续型随机变量, 概率密度为 $f(x;\theta)$. $$ L(\theta) = L(\theta;x_i) = \prod_{i=1}^{n} f(x_i;\theta) $$

求解极大似然估计三步曲:

根据总体分布的表达式,写出似然函数 $L(\theta)$.
写出对数似然函数 $\log L(\theta)$.
用偏导求出极大值点$\hat{\theta}_i$ $$ \left\{ \begin{aligned} &\frac{\partial\log L(\theta_i)}{\partial\theta_1} = 0 \\ &\cdots \end{aligned} \right. $$

可观测量

从理论上预言出来的可观测量$ O = f(\theta_i) $，是一个关于参数的函数。从统计学意义上，这是一个随机变量, 因为参数 $\theta_i$本身是随机变量, 我们要做的是估计其中的参数. 但 $O$ 服从什么分布呢? 这个我还不知道.

“可观测"意味着实验上可以测量, 于是当有实验组愿意做这个实验的时候, 便可以给出实验测量值, 即样本.

可观测量之间并不一定是独立的, 所以某些可观测量之间会存在关联, 我们用关联矩阵来描述这种关系.

实验测量值

如果有多个实验组, 或者同一个实验组多次测量同一个可观测量, 则会对这个可观测量给出多个测量值. 最终给出如下的结果: $$ \begin{aligned} O_1 &= {测量值1, 测量值2, \cdots} & O_2 &= {测量值1, 测量值2, \cdots} \end{aligned} $$

误差

拟合

我们有什么呢?

模型: 模型中有未知参数, 已知参数, 以及约束条件.
可观测量: 由理论模型计算出来的解析表达式, 是模型参数的函数.
实验测量值: 一系列由实验数据归纳出来的带有误差的具体数值.

我们要干什么呢?

通过$\chi^2$或$L(\theta)$, 由实测测量值构造统计量, 估计模型中的未知参数.

思考

模型中有非常多的参数, 有已知的, 也有未知的. 即使是已知的参数, 作为随机变量, 它也服从某种分布, 有误差存在. 对于一个特定的任务, 我们只会关心模型中的某几个特定参数. 其余的参数要么不出现在我们关心的可观测量里, 要么我们假定它们取特定的期望值, 这些参数通常被称为 nuisance parameters.

于是我们将参数分成了两类, 一类是我们将要拟合的未知参数$\theta_i$, 另一类是nuisance的$ \xi_j $. $L(\theta_i,\xi_j)$

工作步骤

在概率论中，概率的定义为：

对于离散型随机变量，概率定义为$ \rm P(X=x_i) = p_i $
对于连续型随机变量，概率定义为$ \rm P(X=x_i) = f(x_i)dx $

于是我们可以定义物理上的似然函数：似然函数是一些 Wilson 系数，实验观测值，以及冗余参数的函数，它被定义为所有可能概率的连乘。从定义中也可以得到, 似然函数越大, 代表了由理论所得到的可观测量与实验观测值越接近. 这是一个由多可观测量组成的函数, 其中每一个可观测量与实验符合的程度会被总体符合程度给包含进去, 从而可以避免过度拟合.

$ L(WCs, measurements, parameters ) = \Pi_i P(\text{可观测量=实验测量值}) = \Pi_i f(\text{实验测量值;参数}) $

而如果可观测量符合正态分布 $ f(x) = \frac{1}{\sigma\sqrt{2\pi}} exp(-\frac{(x-\mu)^2}{2\sigma^2}) $

对似然函数取对数： $ \ln L = \sum_i \ln f_i(x_i) = \sum_i (-\frac{(x_i-\mu_i)^2}{2\sigma_i^2} - \ln(\sigma_i\sqrt{2\pi})) $

此时我们定义 $\chi^2 = -2\ln L + \text{constant} = \sum_i (\frac{(x_i-\mu_i)^2}{\sigma_i^2} $，则在似然函数最大时，$\chi^2$最小。

生成似然函数，似然函数生成时，需指定可观测量$ O_i $，以及实验测量值。此时$O_i(WCs, parameters)$中会包含一些冗余参数，如夸克质量等已经被实验测出来的参数，此时需要考虑进来它们的误差。
去除冗余参数，make_measurement()
取似然函数对数，在flavio中，其实使用的就是高斯分布下的$\chi^2(WCs)$
对于每一个Wilson系数，都可以算出来一个相应的$\chi^2$来，将这些数据存储起来，用于画图
画图

文章目录

统计学