|
|
August 26
OpenCV 编程入门
OpenCV 编程入门
美国伊力诺理工学院计算机科学系Gady Adam
翻译:Mensch
GUI 命令
OpenCV 基础数据结构
图像处理
矩阵操作
视频序列处理
- 什么是OpenCV
- 开源C/C++计算机视觉库.
- 面向实时应用进行优化.
- 跨操作系统/硬件/窗口管理器.
- 通用图像/视频载入、存储和获取.
- 由中、高层API构成.
- 为Intel®公司的 Integrated Performance Primitives (IPP) 提供了透明接口.
特性:
- 图像数据操作 (分配,释放, 复制, 设定, 转换).
- 图像与视频 I/O (基于文件/摄像头输入, 图像/视频文件输出).
- 矩阵与向量操作与线性代数计算(相乘, 求解, 特征值, 奇异值分解SVD).
- 各种动态数据结构(列表, 队列, 集, 树, 图).
- 基本图像处理(滤波, 边缘检测, 角点检测, 采样与插值, 色彩转换, 形态操作, 直方图, 图像金字塔).
- 结构分析(连接成分, 轮廓处理, 距离转换, 模板匹配, Hough转换, 多边形近似, 线性拟合, 椭圆拟合, Delaunay三角化).
- 摄像头标定 (寻找并跟踪标定模板, 标定, 基础矩阵估计, homography估计, 立体匹配).
- 动作分析(光流, 动作分割, 跟踪).
- 对象辨识 (特征方法, 隐马可夫链模型HMM).
- 基本GUI(显示图像/视频, 键盘鼠标操作, 滚动条).
- 图像标识 (直线, 圆锥, 多边形, 文本绘图)
OpenCV 模块:
- cv - OpenCV 主要函数.
- cvaux - 辅助 (实验性) OpenCV 函数.
- cxcore - 数据结构与线性代数算法.
- highgui - GUI函数.
- 参考手册:
- <opencv-root>/docs/index.htm
- 网络资源:
- 官方网页: http://www.intel.com/technology/computing/opencv/
- 软件下载: http://sourceforge.net/projects/opencvlibrary/
- 书籍:
- Open Source Computer Vision Library by Gary R. Bradski, Vadim Pisarevsky, and Jean-Yves Bouguet, Springer, 1st ed. (June, 2006).
- 视频处理例程 (位于 <opencv-root>/samples/c/目录中):
- 色彩跟踪: camshiftdemo
- 点跟踪: lkdemo
- 动作分割: motempl
- 边缘检测: laplace
- 图像处理例程(位于<opencv-root>/samples/c/目录中):
- 边缘检测: edge
- 分割: pyramid_segmentation
- 形态: morphology
- 直方图: demhist
- 距离转换: distrans
- 椭圆拟合 fitellipse
- 函数命名:
cvActionTarget[Mod](...)
Action = 核心功能(例如 设定set, 创建create) Target = 操作目标 (例如 轮廓contour, 多边形polygon) [Mod] = 可选修饰词 (例如说明参数类型)
- 矩阵数据类型:
CV_<bit_depth>(S|U|F)C<number_of_channels>
S = 带符号整数 U = 无符号整数 F = 浮点数
例: CV_8UC1 表示一个8位无符号单通道矩阵, CV_32FC2 表示一个32位浮点双通道矩阵.
- 图像数据类型:
IPL_DEPTH_<bit_depth>(S|U|F)
例: IPL_DEPTH_8U 表示一个8位无符号图像. IPL_DEPTH_32F 表示一个32位浮点数图像.
- 头文件:
#include <cv.h> #include <cvaux.h> #include <highgui.h> #include <cxcore.h> // 不必要 - 该头文件已在 cv.h 文件中包含
//////////////////////////////////////////////////////////////////////// // // hello-world.cpp // // 一个简单的OpenCV程序 // 它从一个文件中读取图像,将色彩值颠倒,并显示结果. // //////////////////////////////////////////////////////////////////////// #include <stdlib.h> #include <stdio.h> #include <math.h> #include <cv.h> #include <highgui.h>
int main(int argc, char *argv[]) { IplImage* img = 0; int height,width,step,channels; uchar *data; int i,j,k;
if(argc<2){ printf("Usage: main <image-file-name>\n\7"); exit(0); }
// 载入图像 img=cvLoadImage(argv[1]); if(!img){ printf("Could not load image file: %s\n",argv[1]); exit(0); }
// 获取图像数据 height = img->height; width = img->width; step = img->widthStep; channels = img->nChannels; data = (uchar *)img->imageData; printf("Processing a %dx%d image with %d channels\n",height,width,channels);
// 创建窗口 cvNamedWindow("mainWin", CV_WINDOW_AUTOSIZE); cvMoveWindow("mainWin", 100, 100);
// 反色图像 for(i=0;i<height;i++) for(j=0;j<width;j++) for(k=0;k<channels;k++) data[i*step+j*channels+k]=255-data[i*step+j*channels+k];
// 显示图像 cvShowImage("mainWin", img );
// wait for a key cvWaitKey(0);
// release the image cvReleaseImage(&img ); return 0; }
- 创建并放置一个窗口:
cvNamedWindow("win1", CV_WINDOW_AUTOSIZE); cvMoveWindow("win1", 100, 100); // 以屏幕左上角为起点的偏移量
- 读入图像:
IplImage* img=0; img=cvLoadImage(fileName); if(!img) printf("Could not load image file: %s\n",fileName);
- 显示图像:
cvShowImage("win1",img);
可显示彩色或灰度的字节/浮点图像。 彩色图像数据认定为BGR顺序.
- 关闭窗口:
cvDestroyWindow("win1");
- 改变窗口尺寸:
cvResizeWindow("win1",100,100); // 新的宽/高值(象素点)
- 响应鼠标事件:
- 定义鼠标handler:
void mouseHandler(int event, int x, int y, int flags, void* param) { switch(event){ case CV_EVENT_LBUTTONDOWN: if(flags & CV_EVENT_FLAG_CTRLKEY) printf("Left button down with CTRL pressed\n"); break;
case CV_EVENT_LBUTTONUP: printf("Left button up\n"); break; } }
// x,y: 针对左上角的像点坐标
// event: CV_EVENT_LBUTTONDOWN, CV_EVENT_RBUTTONDOWN, CV_EVENT_MBUTTONDOWN, // CV_EVENT_LBUTTONUP, CV_EVENT_RBUTTONUP, CV_EVENT_MBUTTONUP, // CV_EVENT_LBUTTONDBLCLK, CV_EVENT_RBUTTONDBLCLK, CV_EVENT_MBUTTONDBLCLK, // CV_EVENT_MOUSEMOVE:
// flags: CV_EVENT_FLAG_CTRLKEY, CV_EVENT_FLAG_SHIFTKEY, CV_EVENT_FLAG_ALTKEY, // CV_EVENT_FLAG_LBUTTON, CV_EVENT_FLAG_RBUTTON, CV_EVENT_FLAG_MBUTTON
- 注册handler:
mouseParam=5; cvSetMouseCallback("win1",mouseHandler,&mouseParam);
- 响应键盘事件:
- 键盘没有事件handler.
- 直接获取键盘操作:
int key; key=cvWaitKey(10); // 输入等待10ms
- 等待按键并获取键盘操作:
int key; key=cvWaitKey(0); // 无限等待键盘输入
- 键盘输入循环:
while(1){ key=cvWaitKey(10); if(key==27) break;
switch(key){ case 'h': ... break; case 'i': ... break; } }
处理滚动条事件:
- 定义滚动条handler:
void trackbarHandler(int pos) { printf("Trackbar position: %d\n",pos); }
- 注册handler:
int trackbarVal=25; int maxVal=100; cvCreateTrackbar("bar1", "win1", &trackbarVal ,maxVal , trackbarHandler);
- 获取滚动条当前位置:
int pos = cvGetTrackbarPos("bar1","win1");
- 设定滚动条位置:
cvSetTrackbarPos("bar1", "win1", 25);
- IPL 图像:
IplImage |-- int nChannels; // 色彩通道数(1,2,3,4) |-- int depth; // 象素色深: | // IPL_DEPTH_8U, IPL_DEPTH_8S, | // IPL_DEPTH_16U,IPL_DEPTH_16S, | // IPL_DEPTH_32S,IPL_DEPTH_32F, | // IPL_DEPTH_64F |-- int width; // 图像宽度(象素点数) |-- int height; // 图像高度(象素点数)
|-- char* imageData; // 指针指向成一列排列的图像数据 | // 注意色彩顺序为BGR |-- int dataOrder; // 0 - 彩色通道交叉存取 BGRBGRBGR, | // 1 - 彩色通道分隔存取 BBBGGGRRR | // 函数cvCreateImage只能创建交叉存取的图像 |-- int origin; // 0 - 起点为左上角, | // 1 - 起点为右下角(Windows位图bitmap格式) |-- int widthStep; // 每行图像数据所占字节大小 |-- int imageSize; // 图像数据所占字节大小 = 高度*每行图像数据字节大小 |-- struct _IplROI *roi;// 图像ROI. 若不为NULL则表示需要处理的图像 | // 区域. |-- char *imageDataOrigin; // 指针指向图像数据原点 | // (用来校准图像存储单元的重新分配) | |-- int align; // 图像行校准: 4或8字节校准 | // OpenCV不采用它而使用widthStep |-- char colorModel[4]; // 图像色彩模型 - 被OpenCV忽略
- 矩阵:
CvMat // 2维数组 |-- int type; // 元素类型(uchar,short,int,float,double) |-- int step; // 一行所占字节长度 |-- int rows, cols; // 尺寸大小 |-- int height, width; // 备用尺寸参照 |-- union data; |-- uchar* ptr; // 针对unsigned char矩阵的数据指针 |-- short* s; // 针对short矩阵的数据指针 |-- int* i; // 针对integer矩阵的数据指针 |-- float* fl; // 针对float矩阵的数据指针 |-- double* db; // 针对double矩阵的数据指针
CvMatND // N-维数组 |-- int type; // 元素类型(uchar,short,int,float,double) |-- int dims; // 数组维数 |-- union data; | |-- uchar* ptr; // 针对unsigned char矩阵的数据指针 | |-- short* s; // 针对short矩阵的数据指针 | |-- int* i; // 针对integer矩阵的数据指针 | |-- float* fl; // 针对float矩阵的数据指针 | |-- double* db; // 针对double矩阵的数据指针 | |-- struct dim[]; // 每个维的信息 |-- size; // 该维内元素个数 |-- step; // 该维内元素之间偏移量
CvSparseMat // 稀疏N维数组
- 通用数组:
CvArr* // 仅作为函数参数,说明函数接受多种类型的数组,例如: // IplImage*, CvMat* 或者 CvSeq*. // 只需通过分析数组头部的前4字节便可确定数组类型
- 标量:
CvScalar |-- double val[4]; //4D向量
初始化函数: CvScalar s = cvScalar(double val0, double val1=0, double val2=0, double val3=0);
举例: CvScalar s = cvScalar(20.0); s.val[0]=10.0;
注意:初始化函数与数据结构同名,只是首字母小写. 它不是C++的构造函数.
- 点:
CvPoint p = cvPoint(int x, int y); CvPoint2D32f p = cvPoint2D32f(float x, float y); CvPoint3D32f p = cvPoint3D32f(float x, float y, float z); 例如: p.x=5.0; p.y=5.0;
- 长方形尺寸:
CvSize r = cvSize(int width, int height); CvSize2D32f r = cvSize2D32f(float width, float height);
- 带偏移量的长方形尺寸:
CvRect r = cvRect(int x, int y, int width, int height);
- 分配图像空间:
IplImage* cvCreateImage(CvSize size, int depth, int channels);
size: cvSize(width,height);
depth: IPL_DEPTH_8U, IPL_DEPTH_8S, IPL_DEPTH_16U, IPL_DEPTH_16S, IPL_DEPTH_32S, IPL_DEPTH_32F, IPL_DEPTH_64F
channels: 1, 2, 3 or 4. 注意数据为交叉存取.彩色图像的数据编排为b0 g0 r0 b1 g1 r1 ...
举例: // 分配一个单通道字节图像 IplImage* img1=cvCreateImage(cvSize(640,480),IPL_DEPTH_8U,1);
// 分配一个三通道浮点图像 IplImage* img2=cvCreateImage(cvSize(640,480),IPL_DEPTH_32F,3);
- 释放图像空间:
IplImage* img=cvCreateImage(cvSize(640,480),IPL_DEPTH_8U,1); cvReleaseImage(&img);
- 复制图像:
IplImage* img1=cvCreateImage(cvSize(640,480),IPL_DEPTH_8U,1); IplImage* img2; img2=cvCloneImage(img1);
- 设定/获取兴趣区域:
void cvSetImageROI(IplImage* image, CvRect rect); void cvResetImageROI(IplImage* image); vRect cvGetImageROI(const IplImage* image);
大部分OpenCV函数都支持ROI.
- 设定/获取兴趣通道:
void cvSetImageCOI(IplImage* image, int coi); // 0=all int cvGetImageCOI(const IplImage* image);
大部分OpenCV函数暂不支持COI.
- 从文件中载入图像:
IplImage* img=0; img=cvLoadImage(fileName); if(!img) printf("Could not load image file: %s\n",fileName);
Supported image formats: BMP, DIB, JPEG, JPG, JPE, PNG, PBM, PGM, PPM, SR, RAS, TIFF, TIF
载入图像默认转为3通道彩色图像. 如果不是,则需加flag: img=cvLoadImage(fileName,flag);
flag: >0 载入图像转为三通道彩色图像 =0 载入图像转为单通道灰度图像 <0 不转换载入图像(通道数与图像文件相同).
- 图像存储为图像文件:
if(!cvSaveImage(outFileName,img)) printf("Could not save: %s\n",outFileName);
输入文件格式由文件扩展名决定.
- 假设需要读取在i行j列像点的第k通道. 其中, 行数i的范围为[0, height-1], 列数j的范围为[0, width-1], 通道k的范围为[0, nchannels-1].
- 间接存取: (比较通用, 但效率低, 可读取任一类型图像数据)
- 对单通道字节图像:
IplImage* img=cvCreateImage(cvSize(640,480),IPL_DEPTH_8U,1); CvScalar s; s=cvGet2D(img,i,j); // get the (i,j) pixel value printf("intensity=%f\n",s.val[0]); s.val[0]=111; cvSet2D(img,i,j,s); // set the (i,j) pixel value
- 对多通道浮点或字节图像:
IplImage* img=cvCreateImage(cvSize(640,480),IPL_DEPTH_32F,3); CvScalar s; s=cvGet2D(img,i,j); // get the (i,j) pixel value printf("B=%f, G=%f, R=%f\n",s.val[0],s.val[1],s.val[2]); s.val[0]=111; s.val[1]=111; s.val[2]=111; cvSet2D(img,i,j,s); // set the (i,j) pixel value
- 直接存取: (效率高, 但容易出错)
- 对单通道字节图像:
IplImage* img=cvCreateImage(cvSize(640,480),IPL_DEPTH_8U,1); ((uchar *)(img->imageData + i*img->widthStep))[j]=111;
- 对多通道字节图像:
IplImage* img=cvCreateImage(cvSize(640,480),IPL_DEPTH_8U,3); ((uchar *)(img->imageData + i*img->widthStep))[j*img->nChannels + 0]=111; // B ((uchar *)(img->imageData + i*img->widthStep))[j*img->nChannels + 1]=112; // G ((uchar *)(img->imageData + i*img->widthStep))[j*img->nChannels + 2]=113; // R
- 对多通道浮点图像:
IplImage* img=cvCreateImage(cvSize(640,480),IPL_DEPTH_32F,3); ((float *)(img->imageData + i*img->widthStep))[j*img->nChannels + 0]=111; // B ((float *)(img->imageData + i*img->widthStep))[j*img->nChannels + 1]=112; // G ((float *)(img->imageData + i*img->widthStep))[j*img->nChannels + 2]=113; // R
用指针直接存取 : (在某些情况下简单高效)
- 对单通道字节图像:
IplImage* img = cvCreateImage(cvSize(640,480),IPL_DEPTH_8U,1); int height = img->height; int width = img->width; int step = img->widthStep/sizeof(uchar); uchar* data = (uchar *)img->imageData; data[i*step+j] = 111;
- 对多通道字节图像:
IplImage* img = cvCreateImage(cvSize(640,480),IPL_DEPTH_8U,3); int height = img->height; int width = img->width; int step = img->widthStep/sizeof(uchar); int channels = img->nChannels; uchar* data = (uchar *)img->imageData; data[i*step+j*channels+k] = 111;
- 对单通道浮点图像(假设用4字节调整):
IplImage* img = cvCreateImage(cvSize(640,480),IPL_DEPTH_32F,3); int height = img->height; int width = img->width; int step = img->widthStep/sizeof(float); int channels = img->nChannels; float * data = (float *)img->imageData; data[i*step+j*channels+k] = 111;
使用 c++ wrapper 进行直接存取: (简单高效)
- 对单/多通道字节图像,多通道浮点图像定义一个 c++ wrapper:
template<class T> class Image { private: IplImage* imgp; public: Image(IplImage* img=0) {imgp=img;} ~Image(){imgp=0;} void operator=(IplImage* img) {imgp=img;} inline T* operator[](const int rowIndx) { return ((T *)(imgp->imageData + rowIndx*imgp->widthStep));} };
typedef struct{ unsigned char b,g,r; } RgbPixel;
typedef struct{ float b,g,r; } RgbPixelFloat;
typedef Image<RgbPixel> RgbImage; typedef Image<RgbPixelFloat> RgbImageFloat; typedef Image<unsigned char> BwImage; typedef Image<float> BwImageFloat;
- 单通道字节图像:
IplImage* img=cvCreateImage(cvSize(640,480),IPL_DEPTH_8U,1); BwImage imgA(img); imgA[i][j] = 111;
- 多通道字节图像:
IplImage* img=cvCreateImage(cvSize(640,480),IPL_DEPTH_8U,3); RgbImage imgA(img); imgA[i][j].b = 111; imgA[i][j].g = 111; imgA[i][j].r = 111;
- 多通道浮点图像:
IplImage* img=cvCreateImage(cvSize(640,480),IPL_DEPTH_32F,3); RgbImageFloat imgA(img); imgA[i][j].b = 111; imgA[i][j].g = 111; imgA[i][j].r = 111;
- 转为灰度或彩色字节图像:
cvConvertImage(src, dst, flags=0);
src = float/byte grayscale/color image dst = byte grayscale/color image flags = CV_CVTIMG_FLIP (flip vertically) CV_CVTIMG_SWAP_RB (swap the R and B channels)
- 转换彩色图像为灰度图像:
使用OpenCV转换函数:
cvCvtColor(cimg,gimg,CV_BGR2GRAY); // cimg -> gimg
直接转换:
for(i=0;i<cimg->height;i++) for(j=0;j<cimg->width;j++) gimgA[i][j]= (uchar)(cimgA[i][j].b*0.114 + cimgA[i][j].g*0.587 + cimgA[i][j].r*0.299);
- 颜色空间转换:
cvCvtColor(src,dst,code); // src -> dst
code = CV_<X>2<Y> <X>/<Y> = RGB, BGR, GRAY, HSV, YCrCb, XYZ, Lab, Luv, HLS
e.g.: CV_BGR2GRAY, CV_BGR2HSV, CV_BGR2Lab
- 画长方体:
// 用宽度为1的红线在(100,100)与(200,200)之间画一长方体 cvRectangle(img, cvPoint(100,100), cvPoint(200,200), cvScalar(255,0,0), 1);
- 画圆:
// 在(100,100)处画一半径为20的圆,使用宽度为1的绿线 cvCircle(img, cvPoint(100,100), 20, cvScalar(0,255,0), 1);
- 画线段:
// 在(100,100)与(200,200)之间画绿色线段,宽度为1 cvLine(img, cvPoint(100,100), cvPoint(200,200), cvScalar(0,255,0), 1);
- 画一组线段:
CvPoint curve1[]={10,10, 10,100, 100,100, 100,10}; CvPoint curve2[]={30,30, 30,130, 130,130, 130,30, 150,10}; CvPoint* curveArr[2]={curve1, curve2}; int nCurvePts[2]={4,5}; int nCurves=2; int isCurveClosed=1; int lineWidth=1;
cvPolyLine(img,curveArr,nCurvePts,nCurves,isCurveClosed,cvScalar(0,255,255),lineWidth);
- 画内填充色的多边形:
cvFillPoly(img,curveArr,nCurvePts,nCurves,cvScalar(0,255,255));
- 添加文本:
CvFont font; double hScale=1.0; double vScale=1.0; int lineWidth=1; cvInitFont(&font,CV_FONT_HERSHEY_SIMPLEX|CV_FONT_ITALIC, hScale,vScale,0,lineWidth);
cvPutText (img,"My comment",cvPoint(200,400), &font, cvScalar(255,255,0));
Other possible fonts: CV_FONT_HERSHEY_SIMPLEX, CV_FONT_HERSHEY_PLAIN, CV_FONT_HERSHEY_DUPLEX, CV_FONT_HERSHEY_COMPLEX, CV_FONT_HERSHEY_TRIPLEX, CV_FONT_HERSHEY_COMPLEX_SMALL, CV_FONT_HERSHEY_SCRIPT_SIMPLEX, CV_FONT_HERSHEY_SCRIPT_COMPLEX,
- 综述:
- OpenCV有针对矩阵操作的C语言函数. 许多其他方法提供了更加方便的C++接口,其效率与OpenCV一样.
- OpenCV将向量作为1维矩阵处理.
- 矩阵按行存储,每行有4字节的校整.
- 分配矩阵空间:
CvMat* cvCreateMat(int rows, int cols, int type);
type: 矩阵元素类型. 格式为CV_<bit_depth>(S|U|F)C<number_of_channels>. 例如: CV_8UC1 表示8位无符号单通道矩阵, CV_32SC2表示32位有符号双通道矩阵.
例程: CvMat* M = cvCreateMat(4,4,CV_32FC1);
- 释放矩阵空间:
CvMat* M = cvCreateMat(4,4,CV_32FC1); cvReleaseMat(&M);
- 复制矩阵:
CvMat* M1 = cvCreateMat(4,4,CV_32FC1); CvMat* M2; M2=cvCloneMat(M1);
- 初始化矩阵:
double a[] = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 };
CvMat Ma=cvMat(3, 4, CV_64FC1, a);
另一种方法: CvMat Ma; cvInitMatHeader(&Ma, 3, 4, CV_64FC1, a);
- 初始化矩阵为单位阵:
CvMat* M = cvCreateMat(4,4,CV_32FC1); cvSetIdentity(M); // 这里似乎有问题,不成功
- 假设需要存取一个2维浮点矩阵的第(i,j)个元素.
- 间接存取矩阵元素:
cvmSet(M,i,j,2.0); // Set M(i,j) t = cvmGet(M,i,j); // Get M(i,j)
- 直接存取,假设使用4-字节校正:
CvMat* M = cvCreateMat(4,4,CV_32FC1); int n = M->cols; float *data = M->data.fl;
data[i*n+j] = 3.0;
- 直接存取,校正字节任意:
CvMat* M = cvCreateMat(4,4,CV_32FC1); int step = M->step/sizeof(float); float *data = M->data.fl;
(data+i*step)[j] = 3.0;
- 直接存取一个初始化的矩阵元素:
double a[16]; CvMat Ma = cvMat(3, 4, CV_64FC1, a); a[i*4+j] = 2.0; // Ma(i,j)=2.0;
- 矩阵-矩阵操作:
CvMat *Ma, *Mb, *Mc; cvAdd(Ma, Mb, Mc); // Ma+Mb -> Mc cvSub(Ma, Mb, Mc); // Ma-Mb -> Mc cvMatMul(Ma, Mb, Mc); // Ma*Mb -> Mc
- 按元素的矩阵操作:
CvMat *Ma, *Mb, *Mc; cvMul(Ma, Mb, Mc); // Ma.*Mb -> Mc cvDiv(Ma, Mb, Mc); // Ma./Mb -> Mc cvAddS(Ma, cvScalar(-10.0), Mc); // Ma.-10 -> Mc
- 向量乘积:
double va[] = {1, 2, 3}; double vb[] = {0, 0, 1}; double vc[3];
CvMat Va=cvMat(3, 1, CV_64FC1, va); CvMat Vb=cvMat(3, 1, CV_64FC1, vb); CvMat Vc=cvMat(3, 1, CV_64FC1, vc);
double res=cvDotProduct(&Va,&Vb); // 点乘: Va . Vb -> res cvCrossProduct(&Va, &Vb, &Vc); // 向量积: Va x Vb -> Vc end{verbatim}
注意 Va, Vb, Vc 在向量积中向量元素个数须相同.
- 单矩阵操作:
CvMat *Ma, *Mb; cvTranspose(Ma, Mb); // transpose(Ma) -> Mb (不能对自身进行转置) CvScalar t = cvTrace(Ma); // trace(Ma) -> t.val[0] double d = cvDet(Ma); // det(Ma) -> d cvInvert(Ma, Mb); // inv(Ma) -> Mb
- 非齐次线性系统求解:
CvMat* A = cvCreateMat(3,3,CV_32FC1); CvMat* x = cvCreateMat(3,1,CV_32FC1); CvMat* b = cvCreateMat(3,1,CV_32FC1); cvSolve(&A, &b, &x); // solve (Ax=b) for x
- 特征值分析(针对对称矩阵):
CvMat* A = cvCreateMat(3,3,CV_32FC1); CvMat* E = cvCreateMat(3,3,CV_32FC1); CvMat* l = cvCreateMat(3,1,CV_32FC1); cvEigenVV(&A, &E, &l); // l = A的特征值 (降序排列) // E = 对应的特征向量 (每行)
- 奇异值分解SVD:
CvMat* A = cvCreateMat(3,3,CV_32FC1); CvMat* U = cvCreateMat(3,3,CV_32FC1); CvMat* D = cvCreateMat(3,3,CV_32FC1); CvMat* V = cvCreateMat(3,3,CV_32FC1); cvSVD(A, D, U, V, CV_SVD_U_T|CV_SVD_V_T); // A = U D V^T
标号使得 U 和 V 返回时被转置(若没有转置标号,则有问题不成功!!!).
- OpenCV支持从摄像头或视频文件(AVI)中抓取图像.
- 从摄像头获取初始化:
CvCapture* capture = cvCaptureFromCAM(0); // capture from video device #0
- 从视频文件获取初始化:
CvCapture* capture = cvCaptureFromAVI("infile.avi");
- 抓取帧:
IplImage* img = 0; if(!cvGrabFrame(capture)){ // 抓取一帧 printf("Could not grab a frame\n\7"); exit(0); } img=cvRetrieveFrame(capture); // 恢复获取的帧图像
要从多个摄像头同时获取图像, 首先从每个摄像头抓取一帧. 在抓取动作都结束后再恢复帧图像.
- 释放抓取源:
cvReleaseCapture(&capture);
注意由设备抓取的图像是由capture函数自动分配和释放的. 不要试图自己释放它.
- 获取设备特性:
cvQueryFrame(capture); // this call is necessary to get correct // capture properties int frameH = (int) cvGetCaptureProperty(capture, CV_CAP_PROP_FRAME_HEIGHT); int frameW = (int) cvGetCaptureProperty(capture, CV_CAP_PROP_FRAME_WIDTH); int fps = (int) cvGetCaptureProperty(capture, CV_CAP_PROP_FPS); int numFrames = (int) cvGetCaptureProperty(capture, CV_CAP_PROP_FRAME_COUNT);
所有帧数似乎只与视频文件有关. 用摄像头时不对,奇怪!!!.
- 获取帧信息:
float posMsec = cvGetCaptureProperty(capture, CV_CAP_PROP_POS_MSEC); int posFrames = (int) cvGetCaptureProperty(capture, CV_CAP_PROP_POS_FRAMES); float posRatio = cvGetCaptureProperty(capture, CV_CAP_PROP_POS_AVI_RATIO);
获取所抓取帧在视频序列中的位置, 从首帧开始按[毫秒]算. 或者从首帧开始从0标号, 获取所抓取帧的标号. 或者取相对位置,首帧为0,末帧为1, 只对视频文件有效.
- 设定所抓取的第一帧标号:
// 从视频文件相对位置0.9处开始抓取 cvSetCaptureProperty(capture, CV_CAP_PROP_POS_AVI_RATIO, (double)0.9);
只对从视频文件抓取有效. 不过似乎也不成功!!!
- 初始化视频存储器:
CvVideoWriter *writer = 0; int isColor = 1; int fps = 25; // or 30 int frameW = 640; // 744 for firewire cameras int frameH = 480; // 480 for firewire cameras writer=cvCreateVideoWriter("out.avi",CV_FOURCC('P','I','M','1'), fps,cvSize(frameW,frameH),isColor);
其他有效编码: CV_FOURCC('P','I','M','1') = MPEG-1 codec CV_FOURCC('M','J','P','G') = motion-jpeg codec (does not work well) CV_FOURCC('M', 'P', '4', '2') = MPEG-4.2 codec CV_FOURCC('D', 'I', 'V', '3') = MPEG-4.3 codec CV_FOURCC('D', 'I', 'V', 'X') = MPEG-4 codec CV_FOURCC('U', '2', '6', '3') = H263 codec CV_FOURCC('I', '2', '6', '3') = H263I codec CV_FOURCC('F', 'L', 'V', '1') = FLV1 codec
若把视频编码设为-1则将打开一个编码选择窗口(windows系统下).
- 存储视频文件:
IplImage* img = 0; int nFrames = 50; for(i=0;i<nFrames;i++){ cvGrabFrame(capture); // 抓取帧 img=cvRetrieveFrame(capture); // 恢复图像 cvWriteFrame(writer,img); // 将帧添加入视频文件 }
若想在抓取中查看抓取图像, 可在循环中加入下列代码: cvShowImage("mainWin", img); key=cvWaitKey(20); // wait 20 ms
若没有20[毫秒]延迟,将无法正确显示视频序列.
- 释放视频存储器:
cvReleaseVideoWriter(&writer);
May 05
图象处理 — 作者 hillohillo @ 20:50
本文将围绕一个实例,主要就测量物体长度的算法加以阐述。 现在假设我们要在图像中测量物体的长度。如图1所示,虚线内为图像范围,图中背景为白色,被测物呈黑色。
图1 测物体情况
在相机拍照后,将图像视频信号传至视觉卡,由视觉卡把波状视频信号翻译成数字信号,存到电脑的内存中去。储存信息如图2所示,图像中的虚线格子为像素单元。下面将具体说明基于临界灰度值和亚像素的边缘寻找算法。
图2 内存中的存储信息
1、系统的自学习接下来第一步,我们要先选取一个临界灰度值(threshold,有关这个名词的解释,请参阅主题文章“视觉系统速成”)。大家已经知道,当图像转换成数字信号存到内存中去之后,我们便可以轻易地读取任何像素的灰度值。比如,我们现在从图像中得到行3的全部像素灰度值(如图3所示)。为了方便,这里假定此系统的灰度值分辨率是256级,0为最黑,255为最白。
图3 图像中第三行的像素灰度值情况[/center] 从图中,我们可以看出被测体的范围(X轴方向)是从列D至列H。在行3的灰度值中,从列D到列H的灰度值分别为:50,40,40,35,80。由此可知,被测物体在成像中灰度值最高(即颜色最白)的像素的灰度值是像素(3,H)的灰度值,即80。
那么我们便可以认为,系统的临界灰度值就是80,当然在实际测量中为留一定余地,我们不妨设为100。当然,若成像中被测物为白色,则应当选颜色最黑的地方的像素值为临界灰度值(有关临界灰度值设定的具体方法,以后另题讨论)。设定临界灰度值后,系统便完成了测量的第一步:自学习。假如此时已经完成了系统的标定工作(包括相机标定、系统标定),那么现在就可以正式开始测量了。
2、测量中的临界灰度值算法我们把一个待测的被测物放到相机下拍照。在内存中所得图像如图4所示。这里图4与图2略有不同。这只是为了说明在实际操作中,每次拍照所得到的图像,必定是有所不同的。
图4 得到图像后,我们便可以让软件对图像进行分析。仍是以行3为例,假设系统是从行3开始进行逐点扫描的。扫描的过程如下:先读取像素(3,A)的灰度值来与刚才所设定的临界灰度值作比较。如果像素(3,A)大过临界灰度值,也就是说像素(3,A)的颜色比临界灰度值白。那么这个像素就不是被测物上的一个点。然后就继续进行下一步的运算,读取像素(3,B)的灰度值重复上述运算,如此循环直至图像尽头列L。基本程序可描述如下:
for (I=A I<=L I ++) { if(pixel[3,I] <= 100) { flag = TRUE break } } 程序中的100就是刚才系统所设定的临界灰度值。Flag是一个标志,当系统找到被测物的第一个边缘时,flag = TRUE,于是系统便开始寻找第二个边缘。在本例中,第一个边缘是由白到黑,第二个边缘是由黑到白。 假设在新的图像中,行3的灰度值如图5如示。那么系统扫描到像素(3,D)时,程序便会中断,flag = TRUE, 并开始寻找第二个由黑到白的边缘。
图5 新的图像灰度值情况
第二次寻找基本程序如下:
for (J=I J<=L J ++) { if(pixel[3,J] >= 100) { flag = FALSE break } } 按图5所示,第二边缘的寻找,进行到像素(3,H)时,便自动停止。现在我们根据程序运行中第一个变量I所记录的数值,知道第一个边缘为D。由变量J知道第二个边缘是H-1=G。由此,可以知道整个被测物X轴方向的大小=G-D=4个像素。4×像素值(由系统标定得到),我们就最终得到被测物体的左右长度了。
但事情并没有这么简单,现在真正的问题出现了。实际上,不难发现在图4中,被测物实际上从列C开始的。只不过在列C中,被测物只有一部分,而另一部分是白色的背景。下面,我们就要设计新的算法,即“亚像素算法”来计算这种“一半一半”的部分。
3、亚像素算法亚像素算法的基本思路就是将一个像素再分为更小的单位。在我们上面的讨论中,一直以8bit的系统作例子,也就是说1个像素的灰度值分为256级。所以,以这类系统为例,进行亚像素计算就要把像素分为255个小单位。 或许,可以这样来理解“亚像素算法”。一个像素的灰度值从0到255,0是纯黑,255是纯白。不妨把像素想像成是一个由255个小像素所组成的集合。而每个小像素都是一个独立的小镜子,那就是说一个像素里面有255个小镜子。
灰度值则可以看作反光的小镜子数量:0表示255个小镜子全都没有反光;255表示255个镜子一起反光。上面讲到的所设定的临界灰度值100,则可表示255个镜子中有100个在反光,另外155个镜子没有反光。 现在,回到上面的测量例子中来。
从图4中可以看到,被测物在列C中只有一半,而正是由于这个原因所以列C的灰度值是高于临界灰度值的。只要我们把这部分也算到最终测量数据中去,所得到的结果必定更为准确。由此大家可以知道,真正的计算被测物的长度公式,并不是(像素数量×像素值)这么简单,而应该是((像素数量+第一边缘亚像素值+第二边缘亚像素值)×像素值),具体到本例,被测物左右真实长度=((4+像素(3,C)亚像素值+像素(3,H)亚像素值)×像素值)。
如何算亚像素值呢?非常简单,亚像素值(白色部分)=该像素灰度值/256;亚像素值(黑色部分)=1-亚像素值(白色部分);仍以图4为例,像素(3,C)的亚像素值=1-(120 / 256)=0.53; 像素(3,H)的亚像素值=1-(180/256)=0.3。而整个被测物左右实际长度为4.83个像素。其实就是在算有几个镜子在反光,有几个没反光罢了。
另外,除了这种计算方法,还有其他几种计算亚像素值的方法:
(1)亚像素值(白色部分)=(该像素灰度值×(临界灰度值/256))/256 亚像素值(黑色部分)=1-亚像素值(白色部分)
(2)亚像素值(白色部分)=后像素值/ (前像素值 +后像素值)亚像素值(黑色部分)=1-亚像素值(白色部分)
(3)亚像素值(白色部分)=(像素值-前像素值)/ (后像素值-前像素值) 亚像素值(黑色部分)=1-亚像素值(白色部分) 以上就是亚像素算法的基本原理。
在结束这个算法讨论之前,有两点必须注意:一是在实际情况下,大家不可能看到图4中所显示的情况,即像素的一半是黑色另一半是白色,这只是为了方便大家理解所画出来的,而真实的情况是一个像素就只是一小块灰色,没有明暗的分别。明暗的区别只能在像素与像素间显现出来;二是在描述亚像素的基本算法时,所说“小镜子”的概念完全是为了方便大家理解,比纯数学语言表达更为易懂。
图象处理 — 作者 hillohillo @ 20:53
很多算法的每一个计算步骤都是固定的,而在下面我们要讨论的概率算法,允许算法在执行的过程中随机选择下一个计算步骤。许多情况下,当算法在执行过程中面临一个选择时,随机性选择常比最优选择省时。因此概率算法可在很大程度上降低算法的复杂度。 概率算法的一个基本特征是对所求解问题的同一实例用同一概率算法求解两次可能得到完全不同的效果。这两次求解问题所需的时间甚至所得到的结果可能会有相当大的差别。一般情况下,可将概率算法大致分为四类:数值概率算法,蒙特卡罗(Monte Carlo)算法,拉斯维加斯(Las Vegas)算法和舍伍德(Sherwood)算法。 数值概率算法常用于数值问题的求解。这类算法所得到的往往是近似解。而且近似解的精度随计算时间的增加不断提高。在许多情况下,要计算出问题的精确解是不可能或没有必要的,因此用数值概率算法可得到相当满意的解。 蒙特卡罗算法用于求问题的准确解。对于许多问题来说,近似解毫无意义。例如,一个判定问题其解为“是”或“否”,二者必居其一,不存在任何近似解答。又如,我们要求一个整数的因子时所给出的解答必须是准确的,一个整数的近似因子没有任何意义。用蒙特卡罗算法能求得问题的一个解,但这个解未必是正确的。求得正确解的概率依赖于算法所用的时间。算法所用的时间越多,得到正确解的概率就越高。蒙特卡罗算法的主要缺点就在于此。一般情况下,无法有效判断得到的解是否肯定正确。 拉斯维加斯算法不会得到不正确的解,一旦用拉斯维加斯算法找到一个解,那么这个解肯定是正确的。但是有时候用拉斯维加斯算法可能找不到解。与蒙特卡罗算法类似。拉斯维加斯算法得到正确解的概率随着它用的计算时间的增加而提高。对于所求解问题的任一实例,用同一拉斯维加斯算法反复对该实例求解足够多次,可使求解失效的概率任意小。 舍伍德算法总能求得问题的一个解,且所求得的解总是正确的。当一个确定性算法在最坏情况下的计算复杂性与其在平均情况下的计算复杂性有较大差别时,可以在这个确定算法中引入随机性将它改造成一个舍伍德算法,消除或减少问题的好坏实例间的这种差别。舍伍德算法精髓不是避免算法的最坏情况行为,而是设法消除这种最坏行为与特定实例之间的关联性。 本文简要的介绍一下数值概率算法和舍伍德算法。 首先来谈谈随机数。随机数在概率算法设计中扮演着十分重要的角色。在现实计算机上无法产生真正的随机数,因此在概率算法中使用的随机数都是一定程度上随机的,即伪随机数。 产生随机数最常用的方法是线性同余法。由线性同余法产生的随机序列a1,a2,...,an满足 a0=d an=(ban-1+c)mod m n=1,2....... 其中,b>=0, c>=0, d>=m。d称为该随机序列的种子。 下面我们建立一个随机数类RadomNumber,该类包含一个由用户初始化的种子randSeed。给定种子之后,既可产生与之相应的随机数序列。randseed是一个无符号长整型数,既可由用户指定也可由系统时间自动产生。 const unsigned long maxshort=65536L; const unsigned long multiplier=1194211693L; const unsigned long adder=12345L; class RandomNumber { private: //当前种子 unsigned long randseed; public: //构造函数,缺省值0表示由系统自动产生种子 RandomNumber(unsigned long s=0); //产生0-n-1之间的随机整数 unsigned short Random(unsigned long n); //产生[0,1)之间的随机实数 double fRandom(void); }; RandomNumber::RandomNumber(unsigned long s) { if(s==0) randseed=time(0); else randseed=s; } unsigned short RandomNumber::Random(unsigned long n) { randseed=multiplier*randseed+adder; return (unsigned short)((randseed>>16)%n); } double RandomNumber::fRandom(void) { return Random(maxshort)/double(maxshort); } 函数Random在每次计算时,用线性同余式计算新的种子。它的高16位的随机性较好,将randseed右移16位得到一个0-65535之间的随机整数然后再将此随机整数映射到0-n-1范围内。 对于函数fRandom,先用Random(maxshort)产生一个0-(maxshort-1之间的整型随机序列),将每个整型随机数除以maxshort,就得到[0,1)区间中的随机实数。 下面来看看数值概率算法的两个例子: 1.用随机投点法计算π 设有一半径为r的圆及其外切四边形,如图所示。向该正方形随机投掷n个点。设落入圆内的点在正方形上均匀分布,因而所投入点落入圆内的概率为πr^2/4r^2,所以当n足够大时,k与n之比就逼近这一概率,即π/4。由此可得使用随机投点法计算π值的数值概率算法。具体实现时,只需要在第一次象限计算即可。
double Darts(int n) { static RandomNumber dart; int k=0; for(int i=1;i<=n;i++){ double x=dart.fRandom(); double y=dart.fRandom(); if((x*x+y*y)<1) k++; } return 4*k/double(n); } 再简单举个舍伍德算法的例子。 我们在分析一个算法在平均情况下的计算复杂性时,通常假定算法的输入数据服从某一特定的概率分布。例如,在输入数据是均匀分布时,快速排序算法所需的平均时间是O(n logn)。但是如果其输入已经基本上排好序时,所用时间就大大增加了。此时,可采用舍伍德算法消除算法所需计算时间与输入实例间的这种联系。 在这里,我们用舍伍德型选择算法随机的选择一个数组元素作为划分标准。这样既能保证算法的线性时间平均性能又避免了计算拟中位数的麻烦。非递归的舍伍德型算法可描述如下: template<class Type> Type select(Type a[], int l, int r, int k) { static RandomNumber rnd; while(true){ if(l>=r) return a[l]; int i=l, j=l=rnd.Random(r-l+1); Swap(a[i], a[j]); j=r+1; Type pivot=a[l]; while(true) { while(a[++i]<pivot); while(a[--j]>pivot); if(i>=j) break; Swap(a[i], a[j]); } if(j-l+1==k) return pivot; a[l]=a[j]; a[j]=pivot; if(j-l+1<k) { k=k-j+l-1; l=j+1; } else r=j-1; } } template <class Type> Type Select(Type a[], int n, int k) { if(k<1||k>n) throw OutOfBounds(); return select(a, 0, n-1, k); } 平时我们一般开始考虑的是一个有着很好平均性能的选择算法,但在最坏情况下对某些实例算法效率较低。这时候我们用概率算法,将上述算法改造成一个舍伍德型算法,使得该算法对任何实例均有效。 不过在有些情况下,所给的确定性算法无法直接改造成舍伍德型算法。这时候就可以借助随机预处理技术,不改变原有的确定性算法,仅对其输入进行随机洗牌,同样可以得到舍伍德算法的效果。还是刚才的例子,换一种方法实现: template<class Type> void Shuffle(Type a[], int n) { static RandomNumber rnd; for(int i=1;i<n;i++){ int j=rnd.Random(n-i)+i; Swap(a[i], a[j]); } } 在上文里,我们对概率算法中的数值概率算法以及舍伍德算法举例作了简要的介绍,希望能使大家对概率算法有一个初步的认识,并且将这种思想运用到自己平时的编程中。 April 26
Kalman Filter
1.什么是卡尔曼滤波器 (What is the Kalman Filter?)
在学习卡尔曼滤波器之前,首先看看为什么叫“卡尔曼”。跟其他著名的理论(例如傅立叶变换,泰勒级数等等)一样,卡尔曼也是一个人的名字,而跟他们不同的是,他是个现代人!
卡尔曼全名Rudolf Emil Kalman,匈牙利数学家,1930年出生于匈牙利首都布达佩斯。1953,1954年于麻省理工学院分别获得电机工程学士及硕士学位。1957年于哥伦比亚大学获得博士学位。我们现在要学习的卡尔曼滤波器,正是源于他的博士论文和1960年发表的论文《A New Approach to Linear Filtering and Prediction Problems》(线性滤波与预测问题的新方法)。
简单来说,卡尔曼滤波器是一个“optimal recursive data processing algorithm(最优化自回归数据处理算法)”。对于解决很大部分的问题,他是最优,效率最高甚至是最有用的。他的广泛应用已经超过30年,包括机器人导航,控制,传感器数据融合甚至在军事方面的雷达系统以及导弹追踪等等。近年来更被应用于计算机图像处理,例如头脸识别,图像分割,图像边缘检测等等。
2.卡尔曼滤波器的介绍 (Introduction to the Kalman Filter)
为了可以更加容易的理解卡尔曼滤波器,这里会应用形象的描述方法来讲解,而不是像大多数参考书那样罗列一大堆的数学公式和数学符号。但是,他的5条公式是其核心内容。结合现代的计算机,其实卡尔曼的程序相当的简单,只要你理解了他的那5条公式。
在介绍他的5条公式之前,先让我们来根据下面的例子一步一步的探索。
假设我们要研究的对象是一个房间的温度。根据你的经验判断,这个房间的温度是恒定的,也就是下一分钟的温度等于现在这一分钟的温度(假设我们用一分钟来做时间单位)。假设你对你的经验不是100%的相信,可能会有上下偏差几度。我们把这些偏差看成是高斯白噪声(White Gaussian Noise),也就是这些偏差跟前后时间是没有关系的而且符合高斯分配(Gaussian Distribution)。另外,我们在房间里放一个温度计,但是这个温度计也不准确的,测量值会比实际值偏差。我们也把这些偏差看成是高斯白噪声。
好了,现在对于某一分钟我们有两个有关于该房间的温度值:你根据经验的预测值(系统的预测值)和温度计的值(测量值)。下面我们要用这两个值结合他们各自的噪声来估算出房间的实际温度值。
假如我们要估算k时刻的实际温度值。首先你要根据k-1时刻的温度值,来预测k时刻的温度。
(1)因为你相信温度是恒定的,所以你会得到k时刻的温度预测值是跟k-1时刻一样的,假设是23度,同时该值的高斯噪声的偏差是5度。(5是这样得到的:如果k-1时刻估算出的最优温度值的偏差是3,你对自己预测的不确定度是4度,他们平方相加再开方,就是5)
(2)然后,你从温度计那里得到了k时刻的温度值,假设是25度,同时该值的偏差是4度。
由于我们用于估算k时刻的实际温度有两个温度值,分别是23度和25度。究竟实际温度是多少呢?相信自己还是相信温度计呢?究竟相信谁多一点,我们可以用他们的covariance来判断。因为Kg^2=5^2/(5^2+4^2),所以Kg=0.78,我们可以估算出k时刻的实际温度值是:23+0.78*(25-23)=24.56度。可以看出,因为温度计的covariance比较小(比较相信温度计),所以估算出的最优温度值偏向温度计的值。
现在我们已经得到k时刻的最优温度值了,下一步就是要进入k+1时刻,进行新的最优估算。到现在为止,好像还没看到什么自回归的东西出现。对了,在进入k+1时刻之前,我们还要算出k时刻那个最优值(24.56度)的偏差。算法如下:((1-Kg)*5^2)^0.5=2.35。这里的5就是上面的k时刻你预测的那个23度温度值的偏差,得出的2.35就是进入k+1时刻以后k时刻估算出的最优温度值的偏差(对应于上面的3)。
就是这样,卡尔曼滤波器就不断的把covariance递归,从而估算出最优的温度值。他运行的很快,而且它只保留了上一时刻的covariance。上面的Kg,就是卡尔曼增益(Kalman Gain)。他可以随不同的时刻而改变他自己的值,是不是很神奇!
下面就要言归正传,讨论真正工程系统上的卡尔曼。
X(k)=A X(k-1)+B U(k)+W(k)
Z(k)=H X(k)+V(k)
3.卡尔曼滤波器算法
(The Kalman Filter Algorithm)
X(k|k-1)=A X(k-1|k-1)+B U(k) ……………………… (1)
P(k|k-1)=A P(k-1|k-1) A’+Q ………………………… (2)
X(k|k)= X(k|k-1)+Kg(k) (Z(k)-H X(k|k-1)) ……… (3)
Kg(k)= P(k|k-1) H’ / (H P(k|k-1) H’ + R) ……… (4)
P(k|k)=(I-Kg(k) H)P(k|k-1) ………………………… (5)
在这一部分,我们就来描述源于Dr Kalman的卡尔曼滤波器。下面的描述,会涉及一些基本的概念知识,包括概率(Probability),随机变量(Random Variable),高斯或正态分配(Gaussian Distribution)还有State-space Model等等。但对于卡尔曼滤波器的详细证明,这里不能一一描述。
首先,我们先要引入一个离散控制过程的系统。该系统可用一个线性随机微分方程来描述:
X(k)=A X(k-1)+B U(k)+W(k)
再加上系统的测量值:
Z(k)=H X(k)+V(k)
上两式子中,X(k)是k时刻的系统状态,U(k)是k时刻对系统的控制量。A和B是系统参数,对于多模型系统,他们为矩阵。Z(k)是k时刻的测量值,H是测量系统的参数,对于多测量系统,H为矩阵。W(k)和V(k)分别表示过程和测量的噪声。他们被假设成高斯白噪声(White Gaussian Noise),他们的covariance分别是Q,R(这里我们假设他们不随系统状态变化而变化)。
对于满足上面的条件(线性随机微分系统,过程和测量都是高斯白噪声),卡尔曼滤波器是最优的信息处理器。
下面我们来用他们结合他们的covariances来估算系统的最优化输出(类似上一节那个温度的例子)。
首先我们要利用系统的过程模型,来预测下一状态的系统。假设现在的系统状态是k,根据系统的模型,可以基于系统的上一状态而预测出现在状态:
X(k|k-1)=A X(k-1|k-1)+B U(k) ……… (1)
式(1)中,X(k|k-1)是利用上一状态预测的结果,X(k-1|k-1)是上一状态最优的结果,U(k)为现在状态的控制量,如果没有控制量,它可以为0。
到现在为止,我们的系统结果已经更新了,可是,对应于X(k|k-1)的covariance还没更新。我们用P表示covariance:
P(k|k-1)=A P(k-1|k-1) A’+Q ……… (2)
式(2)中,P(k|k-1)是X(k|k-1)对应的covariance,P(k-1|k-1)是X(k-1|k-1)对应的covariance,A’表示A的转置矩阵,Q是系统过程的covariance。式子1,2就是卡尔曼滤波器5个公式当中的前两个,也就是对系统的预测。
现在我们有了现在状态的预测结果,然后我们再收集现在状态的测量值。结合预测值和测量值,我们可以得到现在状态(k)的最优化估算值X(k|k):
X(k|k)= X(k|k-1)+Kg(k) (Z(k)-H X(k|k-1)) ……… (3)
其中Kg为卡尔曼增益(Kalman Gain):
Kg(k)= P(k|k-1) H’ / (H P(k|k-1) H’ + R) ……… (4)
到现在为止,我们已经得到了k状态下最优的估算值X(k|k)。但是为了要另卡尔曼滤波器不断的运行下去直到系统过程结束,我们还要更新k状态下X(k|k)的covariance:
P(k|k)=(I-Kg(k) H)P(k|k-1) ……… (5)
其中I为1的矩阵,对于单模型单测量,I=1。当系统进入k+1状态时,P(k|k)就是式子(2)的P(k-1|k-1)。这样,算法就可以自回归的运算下去。
卡尔曼滤波器的原理基本描述了,式子1,2,3,4和5就是他的5个基本公式。根据这5个公式,可以很容易的实现计算机的程序。
下面,我会用程序举一个实际运行的例子。
4.简单例子 (A Simple Example)
这里我们结合第二第三节,举一个非常简单的例子来说明卡尔曼滤波器的工作过程。所举的例子是进一步描述第二节的例子,而且还会配以程序模拟结果。
根据第二节的描述,把房间看成一个系统,然后对这个系统建模。当然,我们见的模型不需要非常地精确。我们所知道的这个房间的温度是跟前一时刻的温度相同的,所以A=1。没有控制量,所以U(k)=0。因此得出:
X(k|k-1)=X(k-1|k-1) ……….. (6)
式子(2)可以改成:
P(k|k-1)=P(k-1|k-1) +Q ……… (7)
因为测量的值是温度计的,跟温度直接对应,所以H=1。式子3,4,5可以改成以下:
X(k|k)= X(k|k-1)+Kg(k) (Z(k)-X(k|k-1)) ……… (8)
Kg(k)= P(k|k-1) / (P(k|k-1) + R) ……… (9)
P(k|k)=(1-Kg(k))P(k|k-1) ……… (10)
现在我们模拟一组测量值作为输入。假设房间的真实温度为25度,我模拟了50个测量值,这些测量值的平均值为25度,但是加入了标准偏差为几度的高斯白噪声(在图中为蓝线)。
为了令卡尔曼滤波器开始工作,我们需要告诉卡尔曼两个零时刻的初始值,是X(0|0)和P(0|0)。他们的值不用太在意,随便给一个就可以了,因为随着卡尔曼的工作,X会逐渐的收敛。但是对于P,一般不要取0,因为这样可能会令卡尔曼完全相信你给定的X(0|0)是系统最优的,从而使算法不能收敛。我选了X(0|0)=0度,P(0|0)=2。
附matlab下面的kalman滤波程序:
clear clc; N=50; CON = 25;%房间温度,假定温度是恒定的 % 系统方程 % x(k+1)=x(k)+w; % 状态方程 % y(k)=x(k)+v; % 观测方程 %%%%%%%%%%%%%%%kalman filter%%%%%%%%%%%%%%%%%%%%%% x = zeros(1,N);
y = randn(1,N) + CON;%温度计的输出 % 初始化 x(1) = 0; p = 2;
Q = cov(randn(1,N)); %过程噪声协方差 R = cov(randn(1,N)); %观测噪声协方差
%T = cov(randn(1,N)); for k = 2 : N x(k) = x(k - 1);%预估计k时刻状态变量的值 (1) p = p + Q;%对应于预估值的协方差 (2) kg = p / (p + R);%kalman gain (3) x(k) = x(k) + kg * (y(k) - x(k));% (4) p = (1 - kg) * p;% (5) end
t=1:N; figure(1); expValue = zeros(1,N); for i = 1: N expValue(i) = CON; end plot(t,expValue,'r',t,x,'g-o',t,y,'b-+'); legend('expected','estimate','measure'); %axis([0 N 20 30]) xlabel('Sample time'); ylabel('Room Temperature'); title('Smooth filter VS kalman filter'); stdx=std(x-25); stdy=std(y-25); fprintf('stdx=%i,stdy=%i',stdx,stdy);
MATLAB仿真效果:
EKF
控制系统的鲁棒性研究是现代控制理论研究中一个非常活跃的领域,鲁棒控制问题最早出现在上个世纪人们对于微分方程的研究中。Black首先在他的1927年的一项专利上应用了鲁棒控制。但是什么叫做鲁棒性呢?其实这个名字是一个音译,其英文拼写为Robust。也就是健壮和强壮的意思。控制专家用这个名字来表示当一个控制系统中的参数发生摄动时系统能否保持正常工作的一种特性或属性。人在受到外界病菌的感染后,是否能够通过自身的免疫系统恢复健康一样。 20世纪六七十年代,状态空间的结构理论的形成是现代控制理论的一个重要突破。状态空间的结构理论包括能控性、能观性、反馈镇定和输入输出模型的状态空间实现理论,它连同最优控制理论和卡尔曼滤波理论一起,使现代控制理论形成了严谨完整的理论体系,并且在宇航和机器人控制等应用领域取得了惊人的成就。但是这些理论要求系统的模型必须是已知的,而大多实际的工程系统都运行在变化的环境中,要获得精确的数学模型是不可能的。因此很多理论在实际的应用中并没有得到很好的效果。到了1972年,鲁棒控制这个术语在文献中首先被提出,但是对于它的精确定义至今还没有一致的说法。其主要分歧就在于对于摄动的定义上面,摄动分很多种,是否每种摄动都要包括在鲁棒性研究中呢?尽管存在分歧,但是鲁棒性的研究没有受到阻碍,其发展的势头有增无减。
鲁棒控制理论发展到今天,已经形成了很多引人注目的理论。其中控制理论是目前解决鲁棒性问题最为成功且较完善的理论体系。Zames在1981年首次提出了这一著名理论,他考虑了对于一个单输入单输出系统的控制系统,设计一个控制器,使系统对于扰动的反映最小。在他提出这一理论之后的20年里,许多学者发展了这一理论,使其有了更加广泛的应用。当前这一理论的研究热点是在非线形系统中控制问题。另外还有一些关于鲁棒控制的理论如结构异值理论和区间理论等。
鲁棒控制理论的应用不仅仅用在工业控制中,它被广泛运用在经济控制、社会管理等很多领域。随着人们对于控制效果要求的不断提高,系统的鲁棒性会越来越多地被人们所重视,从而使这一理论得到更快的发展。
当今的自动控制技术都是基于反馈的概念。反馈理论的要素包括三个部分:测量、比较和执行。测量关心的变量,与期望值相比较,用这个误差纠正调节控制系统的响应。
这个理论和应用自动控制的关键是,做出正确的测量和比较后,如何才能更好地纠正系统。
鲁棒控制(Robust Control)方面的研究始于20世纪50年代。在过去的20年中,鲁棒控制一直是国际自控界的研究热点。所谓“鲁棒性”,是指控制系统在一定(结构,大小)的参数摄动下,维持某些性能的特性。根据对性能的不同定义,可分为稳定鲁棒性和性能鲁棒性。以闭环系统的鲁棒性作为目标设计得到的固定控制器称为鲁棒控制器。
由于工作状况变动、外部干扰以及建模误差的缘故,实际工业过程的精确模型很难得到,而系统的各种故障也将导致模型的不确定性,因此可以说模型的不确定性在控制系统中广泛存在。如何设计一个固定的控制器,使具有不确定性的对象满足控制品质,也就是鲁棒控制,成为国内外科研人员的研究课题。
鲁棒控制的早期研究,主要针对单变量系统(SISO)的在微小摄动下的不确定性,具有代表性的是Zames提出的微分灵敏度分析。然而,实际工业过程中故障导致系统中参数的变化,这种变化是有界摄动而不是无穷小摄动。因此产生了以讨论参数在有界摄动下系统性能保持和控制为内容的现代鲁棒控制。
现代鲁棒控制是一个着重控制算法可靠性研究的控制器设计方法。其设计目标是找到在实际环境中为保证安全要求控制系统最小必须满足的要求。一旦设计好这个控制器,它的参数不能改变而且控制性能能够保证。
鲁棒控制方法,是对时间域或频率域来说,一般要假设过程动态特性的信息和它的变化范围。一些算法不需要精确的过程模型,但需要一些离线辨识。
一般鲁棒控制系统的设计是以一些最差的情况为基础,因此一般系统并不工作在最优状态。常用的设计方法有:INA方法,同时镇定,完整性控制器设计,鲁棒控制,鲁棒PID控制以及鲁棒极点配置,鲁棒观测器等。
鲁棒控制方法适用于稳定性和可靠性作为首要目标的应用,同时过程的动态特性已知且不确定因素的变化范围可以预估。飞机和空间飞行器的控制是这类系统的例子。
过程控制应用中,某些控制系统也可以用鲁棒控制方法设计,特别是对那些比较关键且(1)不确定因素变化范围大;(2)稳定裕度小的对象。
但是,鲁棒控制系统的设计要由高级专家完成。一旦设计成功,就不需太多的人工干预。另一方面,如果要升级或作重大调整,系统就要重新设计
|
|
|
|