信息时代,艺术与数字

发布时间:

最后更新:

总字数:
4.1k

这篇文章选自我的另一项工作。准确地说,其实就是瓜大数学与艺术课程的报告,ddl前一天通宵写完的。就凭我熬了一晚上,也要放上来充个数。
我以为这个东西一两个小时就可以写完的,没想到干了一晚上。而且,我本是想简单写写我熟悉的一点CV相关的东西,没想到越挖越深,最后似乎涉及到很多信号与系统方面的东西?然而我还并没有学信号与系统,只好现学现卖了。更不必说,我自己的数学水平本就可称狼藉。如果有很多错误,还望斧正!
另:我估计等我下个学期修完信号与系统,这篇文章就要被我羞愧地删掉了。

图像处理与数学

长期以来,平面视觉艺术局限于绘画、壁画、版画等领域。虽然材质和形式各有不同,但其基本形式均是利用染料、颜料等,经由画笔、刮刀、刻刀等工具,通过绘画、印刷等方式,在石、纸、皮等表面上进行创作。

照相机的发明催生了摄影艺术。早期摄影的基本原理是利用卤化银的感光性质,在胶片上成像。通过物理或化学方式对胶片进行处理,可以形成独特的艺术效果。例如,利用多重曝光手法在同一张照片上记录多个场景的图像,或通过对胶片的剪贴实现蒙太奇效果等。

计算机的发明使得图像可以以数字方式进行存储和处理。不但摄影的后期制作可以经由计算机进行处理,而且越来越多的绘画、平面设计工作都从纸面上转移到了计算机的屏幕上。由于数字化处理的灵活性,不但可以方便地完成传统的图像处理,而且引入了许多新的艺术形式和素材。如今,利用计算机进行后期处理几乎成为了摄影艺术的必备流程。

图像的数学表示

颜色的数学表示

颜色是一种感觉。颜色完全是在人的大脑之中产生的。

对于人类,可见光的波长范围大约是380到750nm。在这一范围内的光可以被人眼感知到,并且不同的波长对应着光的不同颜色。人眼的视网膜上含有三种不同的视锥细胞,分别对红、绿、蓝光敏感。各种不同波长的可见光对三种细胞造成不同程度的刺激,从而在人脑中形成不同的颜色。因此,如果用不同强度的红、绿、蓝三种光混合起来,对人的三种视锥细胞分别造成一定刺激,而这些刺激与之前的某一种纯色光所造成的刺激相同,那么就可以在大脑中形成同一种颜色感觉。换言之,此时红、绿、蓝混合光和某种纯色光对人眼和大脑是等效的。

因此,可以把某一种颜色分解为红、绿、蓝三个分量,通过改变三种色光的比例合成其他的色光,这在工程上具有便利性。将三个分量称为三个不同的通道(Channel)。实际上,在计算机中,每个通道的取值通常是内的整数。换言之,计算机中储存的颜色是离散的。

位图

图像的数学表示的最基本形式是位图(Bitmap),也称点阵图。由于衍射,光学系统的分辨能力是有限的。当两点距离足够近时,光学系统便无法分辨两个点,这个距离可以通过瑞利判据得到。因此,可以通过大量不同颜色的点构成的矩阵描述图像。当点之间的距离足够小,人眼就会将其视为连续的图像。将每一个不同的点称作 像素(Pixel)

以此为原理存储的图像称为位图,其本质是多个m行n列的矩阵,每个矩阵储存一个通道的颜色信息。对图像的处理实际上就是将矩阵作为原像,求其关于某个映射的像。

调色

调色是摄影艺术的重要组成部分。调色的一种基本方法是,在某个通道上定义一个映射,求该通道上每个像素的颜色值关于该映射的像。

这个映射往往是一条过原点的曲线,通常定义在上,值域是。在图像处理软件里,常常用一条第一象限内的曲线表示,故称之为曲线调色。如果不对颜色做任何调整,这个映射就是

这个映射可以定义在多个通道上,由向量到向量。而且,原像和像的通道数可以是不同的。例如,将红、绿、蓝三通道图像黑白化的一种映射如下:

该函数对于一个三通道的颜色输入,给出一个单通道的灰度值。

卷积

卷积(Convolution)是最基本的图像处理方法之一。卷积的本质是一种特殊的积分变换,通过两个函数生成一个新的函数。卷积的一般形式如下:

由于计算机中图像的颜色以离散形式表示,故相应地应用卷积的离散形式,如下:

对图像应用卷积,我们需要以一种不同的方式看待图像的表示。为了方便,我们假定该图像仅有一个通道。那么,该图像应当是一个m行n列的矩阵,矩阵中的每一个元素都属于自然数集的一个子集(往往是的整数)。我们将该矩阵看做一个函数,其中x和y分别表示该矩阵的行和列,而函数的值就是x行y列处的颜色值。

将图像看作函数,那么对图像的处理实际上是对函数应用算子得到另一个函数的过程。在图像处理中应用的卷积一般具有如下的形式:

其中,为原图像,为处理后的图像,称为卷积算子或卷积核(Convolutional Kernel)

卷积核是一个方阵,分别有个行和列,称为卷积核的半径。将卷积核中心的数的位置看做0行0列,卷积核便可以按照上文所述的方式表示成一个函数。

对图像的卷积可以看做一个加权求和过程。将卷积核矩阵覆盖在图像矩阵上,分别对两矩阵相对应的位置的数求积,然后求和,得到的就是卷积核中心所对应的位置的结果。在这个过程中,卷积核提供了权值。

一个可能的卷积核如下:

该卷积核也可以表示为函数形式,如下:

这个卷积核的半径是1,作用是对图像不进行任何改变。

高斯模糊

模糊是一种常用的风格化处理方式,在摄影、插画、界面设计等领域均有应用。在胶片摄影时代,模糊的风格往往通过失焦或高速移动形成。数字图像的模糊可以通过卷积的方式实现。

一种最原始的模糊是将某一像素和其周围像素的值求平均,称为滑动平均(Moving Average)。在统计上,滑动平均用于减小随机误差,对数据作平滑处理。表现在图像处理上,就是将图像模糊化,称之为平滑滤波。

求滑动平均可以通过卷积进行。一个可能的卷积核如下:

该卷积核也可以表示为。称形如的卷积核为均值滤波函数。

该卷积核内所有像素的权值都是相等的。然而,一般情况下靠近卷积核中心的像素的权值应该比靠近边缘的像素更高。选用高斯分布作为卷积核可以较好地达到这一目的。将高斯分布作为卷积核的模糊称为高斯模糊(Gaussian Blur),是最常用的模糊之一。

二维高斯分布的概率密度函数如下:

事实上,由于卷积核是离散的,故我们只需要均匀地取高斯分布在范围内的一系列离散值,并进行归一化处理,保证其和恒为1。一种可能的高斯卷积核如下:

现代音乐与数学

传统上,音乐艺术的主要表演形式是现场演奏。录音技术的发展打破了这一传统,使得对音乐的后期处理成为了可能。与此同时,电子技术的发展为音乐艺术提供了全新的素材,并催生了电子音乐等新的音乐种类的产生。音乐素材不再局限于乐器,方波、脉冲波、正弦波等人工制造的波亦被应用到音乐创作之中。电磁学的发展也催生了新乐器的产生,例如电吉他。

早在计算机出现之前,音频就已经可以通过模拟信号的方式进行表示,并通过模拟信号处理的手段进行加工。通过模拟电路放大器、滤波器等可以直接对模拟音频信号进行艺术加工。

音乐进入数字音频时代后,通过计算机对音乐进行处理变为可能。如今,通过计算机对音乐进行混音、母带等处理已经是现代音乐中必不可少的部分。很多时候,音乐创作可以完全脱离实际的乐器,仅凭计算机完成。

声音的数学描述

声音的物理本质是一种波(Wave),振动在空间中的传递形成了波。一般地,波是关于空间和时间的二元函数。假设一个一维情况(例如,波沿着x轴传播),则波函数可以记作,其中u表示振幅,x表示位置,t表示时间。

一般地,一维波动方程可以表示如下。该方程是一个二阶线性偏微分方程。

达朗贝尔(Jean le Rond d’Alembert)给出了该方程的一般解:,其中F和G为任意两个可微分的单变量函数。

通常,在音乐艺术的语境下,我们不关心声波在空间中的传播,而关注其在时间上的变化。因此我们可以忽略空间位置这一变量,将波函数记作

一种最基本的波是正弦波(Sinuidal)。正弦波的一般数学描述如,其中为时间,为角频率,为初相。

正弦波具有许多重要性质。例如,正弦波是一种周期波,其周期为,且与圆有密切的联系。

傅里叶变换

傅里叶变换(Fourier Transform)是音频信号处理的一种最基本方法,也是声音艺术的一种最重要的分析工具。在声学、语音学、音乐艺术、播音艺术等诸多领域均有广泛的应用。

傅里叶变换的本质是将信号由时域转换到频域,即由振幅随时间的变化转化为振幅随频率的变化。其思想来源于将某一函数表示为若干正弦函数的线性组合,这对复杂函数的分析提供了便利。

函数可以进行傅里叶变换的充分不必要条件是狄利克雷条件(Dirichlet Conditions),包括三方面:

  • 在一周期内,连续或只有有限个第一类间断点;
  • 在一周期内,极大值和极小值的数目应是有限个;
  • 在一周期内,函数是绝对可积的。

实际上,由于采集的声波是离散的,应用的变换往往是离散傅里叶变换。

为了解决离散傅里叶变换计算量过大的问题,1965年,J.W.库利和T.W.图基提出了快速傅里叶变换算法(Fast Fourier Transform, FFT),显著提升了离散傅里叶变换的效率。

滤波器

音乐处理的一种基本的效果器就是滤波器(Filter)。现代音乐制作中,均衡器(Equalizer)是最常用且最重要的效果器之一,其核心就是滤波器。此外,在现代流行歌曲中,经常对人声作电话音特效处理,这一特效就是利用滤波器制作的。滤波器的作用是对特定频率进行增益或衰减。

FFT滤波

为了提取出特定的频率或频率范围,则需要对声音信号进行傅里叶变换,从时域转换到频域。由于计算机中存储的声音信号是离散的,故可以使用快速傅里叶算法进行时域—频域转换。然后,对频域中特定的频率进行增益、衰减或消除。例如,考虑一个如下的阶跃函数,其中x为频率,单位是Hz:

将该函数作为滤波函数,与频域信号相乘。此时,低于300Hz的信号均被消除,而高于300Hz的信号保持原样,这种滤波称为高通滤波(High-pass Filtering)。在对频域信号进行处理后,还需要通过逆傅里叶变换(Inverse Fourier Transform)将其从频域转换回时域。

以上就是利用快速傅里叶变换进行滤波的一种简单步骤。

电话音产生的原理是声音随电话线传播时产生的损失。对人的语音进行频谱分析,可以发现能量主要集中于300到3400Hz区间,这个区间是语音中元音的几个主要共振峰所在的频率区间,因此这部分信号对语音的清晰传递起最主要的作用。传统的电话对于该频率区间以外的信号衰减较为严重,形成了电话音的特点。在音乐中进行电话音的特效处理,就需要利用滤波器消除低于300Hz和高于3400Hz的部分频率,这种滤波称为带通滤波(Band-pass Filtering)

基于卷积的滤波

基于快速傅里叶变换的滤波存在一定问题:

  • 实时性差。FFT滤波需要先进行傅里叶变换再进行逆变换,运算量大,需要的时间长,难以满足实时性要求。
  • 频谱泄露。进行傅里叶变换,需要对截取的一个时间片段进行周期延拓,得到一个虚拟的理想的无限长信号,而后进行变换。但是,对无限长的信号进行处理是不可能的,需要截取其中一段才能进行运算,这个操作称为加窗(Windowing)。若将非周期函数截断,或将周期函数在非整周期处截断,则会导致频谱发生畸变,原本集中在某频率的能量被分散到其他频率点上,使得频谱分析的结果与预期不一致。

为了解决这些问题,往往采用卷积的方式进行滤波。

傅里叶变换有一个重要性质,称为卷积定理(Convolution Theorem)。其内容是:两信号在时域的卷积积分对应于在频域中该两信号的傅立叶变换的乘积。如下:

简而言之,在频域上的相乘,和在时域上的卷积是对应的。直接对时域信号进行卷积,效果相当于对频域信号进行乘法,可以省去进行傅里叶变换及其逆变换的麻烦。

实际上,前文提到的高斯模糊也是一种滤波,称为高斯低通滤波。虽然应用的领域不同,但其数学本质是相同的。