多媒体技术基础:从位图到视频文件大小计算
多媒体技术基础:从位图到视频文件大小计算
多媒体技术是现代信息技术的重要组成部分,涉及图像、音频和视频等多个领域。本文将系统地介绍多媒体技术的基础知识,包括位图与矢量图的区别、图像数字化过程、音频数字化原理、视频帧率等核心概念,并配有具体的计算公式和实例讲解。
图形图像基础
位图与矢量图
特性 | 位图(图像) | 矢量图(图形) |
---|---|---|
来源 | 一般由外界拍摄得到 | 一般通过绘制得到 |
用途 | 用于照片 | 用于商标 |
缩放结果 | 易失真 | 不失真 |
单位 | 像素 | 图元 |
文件大小 | 较大 | 较小 |
制作软件 | 画图、Photoshop | CorelDraw、剪贴画 |
常用格式 | bmp、psd | cdr、wmf |
像素(Pixel)
定义
像素是“图像元素”(Picture Element)的简称,是数字图像(位图)中最小的可寻址单位。它是构成图像的基本单元,每个像素包含颜色和位置信息。
特点
- 离散性:像素是离散的,图像由一个个独立的像素点组成,每个像素都有固定的位置。
- 颜色信息:像素包含颜色信息,通常用RGB(红、绿、蓝)值表示,每个通道的值范围为0到255。例如,一个像素的颜色可以表示为(255, 0, 0),即红色。对于灰度图像,像素值通常是一个介于0(黑色)到255(白色)之间的整数。
- 分辨率相关:像素的数量和排列方式决定了图像的分辨率。分辨率越高,图像越清晰,但文件体积也越大。例如,一张1920×1080像素的图像包含2,073,600个像素。
应用场景
- 位图图像:像素是位图(如JPG、PNG、BMP等格式)的基本组成单元。位图图像通过存储每个像素的颜色信息来呈现图像。例如,一张照片就是一个典型的位图图像,由大量像素组成。
- 屏幕显示:显示器、手机屏幕等显示设备通过点亮像素点来显示图像或文字。每个像素点的颜色组合形成了我们看到的图像。
- 图像处理:在图像编辑软件(如Photoshop)中,操作对象通常是像素。例如,调整亮度、对比度、色彩平衡等操作都是基于像素的。
图元(Graphic Primitive)
定义
图元是计算机图形学中用于描述图形的基本元素,是图形绘制的最小单位。它通常包括点、线、圆、矩形、多边形等几何形状。
特点
- 基于几何和数学描述:图元通过数学公式和几何属性(如坐标、半径、边长等)来定义,而不是通过像素点。例如,一个圆形可以通过圆心坐标和半径来定义。
- 与分辨率无关:图元的描述不依赖于显示设备的分辨率。无论在什么分辨率下,图元都能保持其定义的形状和属性。例如,一个矢量图形中的圆形在放大后仍然保持圆形,不会出现像素化。
- 可组合性:图元可以组合成更复杂的图形。例如,多个矩形和圆形可以组合成一个房屋的图形。
应用场景
- 矢量图形:图元是矢量图形(如SVG、AI、EPS等格式)的基本组成单元。矢量图形通过图元的组合和数学描述来呈现图形。例如,Adobe Illustrator中的图形设计主要基于图元。
- 计算机图形绘制:在计算机图形学中,图元用于绘制和渲染图形。例如,OpenGL和DirectX等图形API通过图元来绘制三维模型。
- 图形设计和排版:图元在标志设计、插画、排版等领域广泛应用,因为它们可以无损地放大或缩小。例如,一个公司标志通常由多个图元(如圆形、矩形、线条等)组成。
图像图形数字化
基本概念
- 模拟图像:连续
- 数字图像:不连续
- 图像数字化:将模拟图像转数字图像的过程
数字化过程
- 采样:在水平和垂直方向上等间距地分割成多个像素点 → 图像分辨率
- 量化:使用一定大小的数值来表示采样后的每一个点 → 颜色深度
- 编码:将离散值表示为数字形式(即二进制)
图像文件大小
- 分辨率
- 图像分辨率:图像在宽和高方向上的像素量
- 屏幕显示分辨率:显示器屏幕的水平和垂直方向上显示的像素点数量
- 颜色深度:指图像中每个像素所占的二进制位数(bit)。n位可以表示2^n种颜色。例如,RGB-24位、GIF-8位
- 文件大小:图像文件的大小 = 图像分辨率 × 颜色深度 ÷ 8
音频基础
声音的基本概念
声音的物理概念
- 振幅
- 周期(s)
- 频率(Hz)
声音的分类
- 按频率分:次声波(频率低于20Hz)、超声波(高于20000Hz)、可听声(20~20000Hz)
- 按频率范围可分不同质量:CD-DA、FM、AM、电话
声道
- 单声道
- 双声道(立体声)
- 多声道
音频的数字化
数字化:模拟音频转数字音频,需要ADC设备
数字化过程:
- 采样:在时间(横轴)上等间隔地从声波信号中取振幅瞬时值 → 采样频率(Hz)
- 量化:在纵轴上划分等间距的离散级别并将采样值映射到最接近的值 → 量化位数(bit)
- 编码:将离散值表示为数字形式(即二进制)
音频文件的大小
音频文件大小 = 采样频率×量化精度×声道数×时间÷8
音频文件大小 = 比特率(bps)×时间÷8
数据速率 (bps)=采样频率 (Hz)×量化位数 (bit)×声道数
立体声:声道为2
GoldWare软件中
- stereo:双声道
- mono:单声道
例题讲解:
图中给出的信息是关于一个WAV音频文件的,其中包含了“Wave PCM signed *位”的描述,但图中并未明确显示“*位”的具体数值。不过,我们可以从给出的比特率(bps)来推断量化位数。图中显示的比特率是1376 kbps(即每秒1376000比特)。对于PCM(脉冲编码调制)音频来说,数据速率(比特率)可以通过以下公式计算:
数据速率 (bps)=采样频率 (Hz)×量化位数 (bit)×声道数
图中还给出了采样频率是44.1 kHz(即44100 Hz),并且是立体声,所以声道数为2。我们可以将这些信息代入公式中求解量化位数:
1376000=44100×量化位数×2
解这个方程,我们得到:
量化位数=44100×21376000
量化位数=882001376000
量化位数=16
因此,该音频文件的量化位数是16位,答案是 C.16。
视频基础
视频基本概念
原理:视觉暂留效应
视觉暂留效应(Persistence of Vision),也称为视觉残像或视觉暂存,是人眼的一种生理现象。它指的是当光线停止进入眼睛后,人眼对光线所形成的影像能够在视网膜上保留一段短暂的时间。这种现象使得我们能够看到连续运动的图像,而不是一系列静止的图像。
帧和帧速率
- 帧:组成视频的每一幅静态图像
- 帧速率:每秒钟显示的图片数量 ,单位为帧/秒(fps)
电视制式
- NTSC制式:帧频30
- PAL制式:帧频25
- SECAM制式:帧频25
数字化即视屏文件大小
- 分离、采样、量化、编码
视频文件大小
视频文件大小 = 图像分辨率×颜色深度×帧频×时间÷8
视频文件大小 = 比特率 × 时间 ÷8
总结
这总的来说还是比较有计算量的,其中也蕴含了很多的多媒体基本知识,当我们学的越多,懂得越多,知识也就越广了。这次的难点在我看来就是了解图像文件的一些基本概念,像分辨率,颜色深度,还有音频视频文件的深层原理。