统计、概率和噪声

信号与系统

信号是对一种参数如何随另一种参数的变化而变化的描述。系统是对每个输入信号都产生一个输出信号的过程。
命名信号有一些规则:

  • 连续信号使用圆括号,如x(t),y(t); 而离散信号使用方括号,如 x[n],y[n]。
  • 第二,信号要用小写字母,频域中使用大写字母。
  • 第三,信号的命名通常是用来描述信号所代表的参数。例如,随时间变化的电压可能被称为v(t), 每个交易日都在改变的股票市价被叫做:p[d]。
  • 第四,如果不可以用更多的描述性名称,离散系统的输入信号一般表示为x[n], 输出倌号y[n];连续系统则用x(t),y(t)表示。

信号与曲线

两个参数都连续的信号称为连续信号,两个参数都离散的称为离散信号或数字信号。(注意:有些信号是离散的,但在图中却被表示为连续的。)
Y轴纵坐标称为幅值,X轴横坐标称为代表另一个参数。横轴上的参数类型就是信号所在的。抽样点索引在DSP中通常从0到N-1

连续时间正弦信号

谐波振荡:
$$
x_a(t) = Acos(\Omega t+\theta), -\infin<t<\infin
$$
A是正弦幅度,$\Omega$是单位为弧度/秒的频率,$\theta$是单位为弧度的相位。常用赫兹为单位的频率F代替$\Omega$,其中$\Omega =2\pi F$。

由欧拉恒等式$e^{\pm j \phi}=cos\phi \pm jsin\phi$得
$$
x_a(t) = Acos(\Omega t+\theta)=\frac{A}{2}e^{j (\Omega t+\phi)}+\frac{A}{2}e^{-j (\Omega t+\phi)}
$$

离散时间正弦信号

$$
x(n) = Acos(\omega n+\theta), -\infin<n<\infin
$$

n是整形变量,称为样本数,频率f,$\omega =2\pi f$。

一个离散时间正弦信号仅当频率f是有理数时才是周期的。离散时间信号的最高振荡率在$\omega=\pi$或$f=1/2$时达到。

平均值和标准偏差

平均值
$$
\mu = \frac{1}{N} \sum_{i=0}^{N-1}{x_i}
$$
平均值通常称为DC(直流)值,相应的AC(交流)代表的是信号在平均值上下的浮动。
偏差
$$
\sigma = \left|{x_i - \mu}\right|
$$
标准偏差
$$
\sigma^2 = \frac{1}{N-1}\sum_{i=0}^{N-1}{ {x_i - \mu}^2}
$$

$\sigma^2$称为方差RMS均方根。连续统计中标准偏差的计算:
$$
\sigma^2 = \frac{1}{N-1} \left[ \sum_{i=0}^{N-1}{ {x_i}^2} - \frac{1}{N}\left( \sum_{i=0}^{N-1}{ {x_i}^2} \right)^2 \right]
$$
信噪比(SNR)等于平均值除以标准偏差。变异系数(CV)等于标准偏差除以平均值,再乘100%。
好的数据意味着有较大的SNR值和较小的CV值。

信号和基本过程

采集信号:带有统计波动。基本过程:准确。
对于随机信号,N点的平均值和基本过程的平均值之间的典型差错为:$\frac{\sigma}{N^{1/2} }$。其中$\sigma$是标准偏差。N越大,误差越小。平均值公式中,除以N-1是对基本过程标准偏差的一个估计。除以N是采集信号的标准偏差。

直方图、概率质量函数和概率密度函数

直方图中所有值的总和:$$N = \sum_{i=0}^{M-1}{H_i}$$。$H_i$代表直方图,$N$是信号的抽样点数,$M$是直方图中的点数。使用直方图计算平均值标准偏差
$$
\mu = \frac{1}{N} \sum_{i=0}^{M-1}{i H_i}
$$

$$
\sigma^2 = \frac{1}{N-1}\sum_{i=0}^{M-1}{ {i - \mu}^2 H_i}
$$

直方图是由采集信号形成的,相应的基本过程的曲线称为概率质量函数(pmf)。pmf由无限个抽样点获得,纵坐标为抽样点数除以抽样点总数,可以从直方图估计出来。如果用于连续信号则为概率密度函数或概率分布函数,其曲线之下总面积为1。

正态分布

正态分布(高斯分布)
$$
P(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-{(x-\mu)}^2 / 2\sigma^2}
$$
$P(x)$是概率分布函数,$\mu$是期望,$\sigma$是标准差。
概率分布函数的积分为累积分布函数,表示信号的数值将会落在某一确定的范围内的概率。
高斯函数的积分只能通过数值积分的方法实现。$\Phi(x)$是正态分布的累积分布函数(平均值为0,方差为1)。

数字噪声的产生

核心是随机数字生成器。0到1之间的随机数字生成器平均值为0.5,标准偏差是$1 / \sqrt{12} = 0.29$。
独立随机信号相加时,偏差也相加中心极限定理:随机数的和随着越来越多的随机数相加在一起而变成正态分布。
正态分布随机数可由下式得到:
$$
X = {(-2ln R_1)}^{1/2} cos(2\pi R_2)
$$
$R_1$和$R_2$​是在0到1之间均匀分布的随机数。形成的X呈正态分布,平均值为0,方差为1。余弦以弧度计。

精度和准确度

想要得到的值为真值,测量得到的是测量值。平均值相对于真值发生的偏移程度称为测量的准确度,是一个对系统校准的衡量。每次独立的测量值在彼此之间也有差别,分布的宽度称为测量的精度,是对随机噪声的衡量。较差的准确度源于系统误差。较差的精度源于随机误差

模数转换与数模转换

量化

抽样是指独立的变量(自变量)从连续转换到离散的过程。量化是指将因变量从连续状态转换到离散状态的过程。在数字信号中允许出现的值称为量化级别,而两个连续的量化级别之间的距离称△为量化步长或分辨率。瞬间的量化误差不能超过量化步长的一半。

数字化的信号中任何抽样都会有最大$\pm 1/2 LSB$(LSB,最低有效位)的误差。
多数情况下,量化对信号来说无非是增加了特定量的随机噪声。只有当量化误差不能被当成随机误差处理的时候,如多次连续的抽样中模拟信号保持相同的数值时,量化模型不是有效的。加抖动是改进这些缓变信号数字化效果的常见技术。(在模拟信号中叠加少量的随机噪声)。

抽样定理

如果抽样信号能够无失真地恢复原来的模拟信号,就是合适的抽样。在抽样过程中频率改变的现象称为混叠
奈奎斯特抽样定理:只有一个连续信号不包含大于抽样率一半以上的频率成分时,才能认为是合适的抽样。
频率混叠也能改变相位。只有0和180的相位反转是可能的。脉冲序列是包含一系列与原始信号抽样时刻相对应窄尖峰(脉冲)的连续信号。
每个脉冲都无限窄。

数模转换

原始模拟信号可以通过其脉冲序列经由低通滤波器实现无失真的恢复,要求滤波器的截止频率是抽样频率的一半。虽然数学上这个方法很简单,但在电子学里产生所需的窄脉冲是很困难的。基本所有的数模转换操作都是在接收到另一个新的抽样值之前保持最后一个值,这被称作零阶保持。在频域中,零阶保持造成脉冲序列的频谱与sinc函数相乘,sinc曲线为:
$$
H(f) = \left| {\frac{sin(\pi f / f_s)}{\pi f / f_s} } \right|
$$
更通用的表达式是
$$
sin(\pi x) / (\pi x)
$$
用模拟滤波器将零阶保持信号转换成为不失真的信号,需要两个条件:滤除所有在抽样频率一半以上的频率成分,以及产生频率是零阶保持效应频率的倒数,也就是$1/sinc(x)$。

用于数据转换的模拟滤波器

在未进行模数转换之前,输入信号先通过低通滤波器除去所有的奈奎斯特频率(抽样速率的一半)以上的所有频率成分。这么做是为了避免在抽样期间发生频率混叠,因此称其为抗混叠滤波器。在另一端,将数字信号通过一数模转换器和另外一个将截止频率设置为奈奎斯特频率的低通滤波器。输出端的滤波器被称为重建滤波器,而且可能包括先前描述的零阶保持频率。

3个典型的滤波器(贝塞尔、巴特沃斯、切比雪夫)的传输特性:

我们想探究的第一个参数是截止频率的陡度。设计一个低通滤波器是为了阻塞所有超过截止频率的频率成分(阻带),而让所有低于截止频率的频率成分通过(通带)(切比雪夫 > 巴特沃斯 > 贝塞尔)。

第二个,在整个通带上,理想低通滤波器的频率响应是平坦的(巴特沃斯最好)。

最后一个评估的参数是阶跃响应,即当输入信号的电压从一个值迅速变成另外一个值的时候,滤波器将如何响应(巴特沃斯和切比雪夫滤波器都有过冲和振铃(振动幅度缓慢衰减)现象发生。与它们不同的是,贝塞尔滤波器却没有这方面的问题。)。

抗混叠滤波器的选择

切比雪夫将滚降效应最优化,巴特沃斯将通带平坦度最优化,贝塞尔将阶跃响应最优化。抗混叠滤波器的选择儿乎完全取决于一个问题:要处理的信号中信息是如何表现的。许多方法可以把数据信息编码在一个模拟波形里,其中有两个方法是常用的,即时域编码和频域编码。二者在DPS领域的区别非常明显。

在频域编码中,信息以正弦波形式形成信号波。音频信号就是这方面的一个很好的例子。当一个人听演讲或者音乐的时候,感觉到的声音取决于频率,而不是波形。可以用通过一个只改变正弦波的相位而不改变其频率和振幅的电路的声音信号来表明这一点,产生的信号通过示波器看起来完全不同,但声音听起来是相同的。即使波形已经被明显改变,但有用信息已经被完全保留下来。因频率混叠效应将造成不同频率成分的混淆和交叠,直接损伤频域编码数据。因此,这些信号的数字化通常会用到具有锐利截止特性的抗混叠滤波器,如切比雪夫滤波器、椭圆滤波器和巴特沃斯滤波器。这些滤波器较差的阶跃响应不会产生危害。

时域编码使用波形的形状储存信息。切比雪夫滤波器通过除去所有的高频成分来处理问题。这使得一个被滤波的模拟信号能够通过抽样信号完全重建。然而,重建的模拟倌号和被滤波的模拟信号相同,而不是原始信号。虽然在抽样方面没有丢失什么信息,但是波形已经被抗混叠滤波器严重扭曲。贝塞尔滤波器,就是为解决这个问题而设计的。它的输出与原始的波形很类似,只是边缘变得光滑。

通过调整滤波器的截止频率,可以滤掉高频成分从而改善倌号边沿的光滑性。增加滤波器的极点个数可以在这两个参数之间作一个更好的折中。一个通常的策略是将截止频率设置为抽样频率的四分之一,使得沿着每个上升边沿部分有两个抽样点。注意,贝塞尔和切比雪夫滤波器已经将原始信号中的高频噪声去除掉了。

最后一个选择是不使用抗混叠滤波器。最大的优点是每个抽样点的值都和原始模拟信号的值相同。
换句话说,它有完美的边沿锐度,原始信号的变化将将完整地反映在相应的数字信号上,缺点是由于频率混叠造成信号失真。

多抽样率数据转换

电子学中的一个显著的趋势是用数字算法取代模拟电路。数据转换是这方面的一个很好的例子。采用更高速的抽样将具有很多优点。比较高的抽样率允许用简单的阻容(RC) 网络替代复杂的8极点滤波器。问题是,现在需要数字系统处理的,是以较高的抽样率抽样得到的数据。与此应对的是比较巧妙的多抽样率技术,即在同一系统中采用一种以上的抽样率。