时间:2024-01-01 15:42:55
序论:在您撰写视觉算法培训时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。
关键词:高校教师教育技术培训;决策树ID3算法;应用
中图分类号:G451.2 文献标志码:A 文章编号:1002-0845(2012)10-0098-02
信息技术的迅猛发展引起了教育的深刻变革。为此,提高教师的信息素养已成为推动我国高等教育信息化建设的必由之路。高教司于2000年发出的《关于开展高校教师教育技术培训工作的通知》(高教司【2000】79号)[1]中指出,“教育技术培训”是“新世纪教改工程”和“现代远程教育工程”的重要组成部分,是深化教学改革、提高教学质量的重要举措。
常熟理工学院自2001年6月开始,对教师进行教育技术培训,2003年1月起申报江苏省教育技术培训点,次年申报成功。2007年,学校正式下发的《常熟理工学院讲师等中级职称资格条件》(常理工[2007]73号)第二章第七条规定:教师申报教学系列、思政系列的中级职称应参加学校现代教育技术培训并取得合格证书。近几年来,学校先后举办了十期教师教育技术中级培训班,共400多名中青年教师参加了培训,极大地提高了教师的多媒体教学水平,加快了学校信息化建设的步伐。
一、高校教师教育技术培训存在的问题
教师教育技术培训的研究对象是教学过程与教学资源,研究范畴包括对教学过程的设计以及教学资源的开发、应用、管理与评价。目前,各高校的教师教育技术培训工作虽已取得了一定的成绩,但从培训的实际效果来看,仍存在着一些问题,主要表现在以下三个方面。
1.培训时间安排不够合理
目前,教师教育培训基本采用集体面授的方式。由于参训教师自身所承担的教学工作和科研任务比较繁重,很难抽出一段相对集中的时间来参加教育技术培训。为解决上述矛盾,高校通常会选择利用寒暑假时间安排培训,这需要牺牲培训教师和参训教师的许多休息时间,容易引发不满情绪,严重影响了教师参训的积极性,极大地降低了培训效果。
2.培训内容安排不科学
由于培训内容是根据全校教师需求统一安排的,基本没有考虑到参训教师自身所具备的知识层次、学科背景、思想意识等方面的差异,因此很难体现学科差别。各学科教师混合在一起集中学习,导致理论知识讲解过多而与教学实际联系较少,参训教师难以从根本上真正掌握教育技术。
3.考核方式单一,培训评价体系不健全
目前,高校教师培训采取的考核方式往往比较单一,通常以参加理论考试或者提交相关论文、作业等作为培训的最终考核结果。此外,各级培训机构大多未能及时地对培训过程做出评价,同时缺少参训教师的自我评价环节,因而不利于教育技术培训工作的后续支持和进一步开展。如此看来,建立和完善培训评价体系显得尤为重要,这也是建立教师培训长效机制的关键所在。
二、分类技术与决策树ID3 算法的相关理论
针对参训教师在知识层次、学科背景、思想意识等方面存在的差异,笔者提出了“先分类后培训”的思路。在培训正式开始之前,可采用数据挖掘领域内的分类技术对参训教师进行分类,这样有利于激发参训教师的积极性,从而增强他们运用现代教育技术辅助教学的主动性和自觉性。
1.分类
作为数据挖掘的重要任务之一,分类[4]就是要找出一个类别的概念描述或预测未来的数据趋势,它代表了这类数据的整体信息。分类的目的是为了构造一个分类函数或分类模型(也称分类器),该模型能够把数据库中的数据项映射到给定的类别中。
2.相关概念及定义
根据信息论中的有关定义,熵一般用于测量一个非叶节点的信息量的大小。若存在n个相同概率的消息,则每个消息的概率p是1/n,此时一个消息传递的信息量应为-log2(p)=log2(n)。若给定的概率分布P=(p1, p2, … , pn),则由该分布传递的信息量称为P的熵I(P)。
若一个记录的集合T根据类别属性的值被分成相互独立的类C1,C2,…,Ck,则识别T的一个元素所属哪一类所需要的信息量是INFO(T)=I(P),其中P是(C1, C2, … , Ck)的概率分布。
若先根据非类别属性X的值将T分成集合T1,T2,…,Tn,则INFO(X, T)是在已得到X的值后确定T中一个元素的类别属性时所需要的信息量,可通过确定Ti的加权平均值来得到,增益Gain(X,T)=INFO(T)-INFO(X, T)。
因此,可利用Gain(X, T)将属性进行排列,并可构造一棵决策树,其中每一个节点在属性中都是具有最大增益的一个,从而不必考虑来自于根的路径。
3.决策树ID3算法
决策树ID3算法[4]是由Quinlan首先提出来的。该算法是以信息论为基础、以信息熵和信息增益度为衡量标准实现对数据的归纳分类的。给定一个非类别属性C1,C2,…,Cn的集合、类别属性C及记录的训练集T之后,可以用ID3算法构造一棵决策树,其中R是一个非类别属性集合,具体算法如下:
若T为空,返回一个值为无效的单个节点;
若T是由其他均为相同类别属性值的记录组成,返回一个带有该值的单个节点;
若R为空,则返回一个单节点,其值为在T的记录中找出的频率最高的类别属性值(这时将出错,即对记录进行了误分类),将R中属性之间具有最大Gain(D, T)值的属性赋给D;
关键词:汽车驾驶员 视觉特性 视觉-眼动系统 应用
0 引言
随着车流量的增加,大量交通信号设施等因素使驾驶员的视觉环境变得更加复杂。在这种复杂的驾驶环境中,会严重影响驾驶员的视觉,易于发生交通事故。因此,驾驶员需集中驾驶保持对交通环境的认知以及理解处理后的视觉信息。拥堵的车辆和行人形成一个高度复杂的交通环境,为了行车安全,需要提供更多的视觉处理信息。
1、驾驶行为的视觉特性研究
视觉在“人-车-路”系统中起着关键性作用并在很大程度上影响着驾驶员的决定。对驾驶行为进行分析及基于实时视觉分析被称为EAP系统进行研究。此系统针对驾驶员行为进行分析并收集同步实用的可嵌入信息,如眼动方向、轨迹跟踪等。
在此框架中,提出了一个便于分析聚焦面积的司机驾驶情况,凭借区域和兴趣进行自动检测的新方法。目的是跟踪工作自动存储的视频区域(ROI)。这里主要研究基于一个最新研发实时可视化分析工具叫Eye Access Pilot(EAP)系统。这是一种新一代眼动跟踪分析且不受驾驶员干扰的EAP视觉系统。它是基于图像处理和数值算法的实时系统,目的是来确定驾驶员眼角度。为了设计一个能显示驾驶员行为的预测模型,眼动与驾驶员的行为相关性非常重要,能够实现对驾驶员准确变更车道。EAP视觉系统使用图像处理技术,尤其是应用数值算法来确定在多种实际驾驶条件下的驾驶员眼睛方位。
用于单眼视觉场景自动感兴趣区域跟踪已付诸实施。采用固定在驾驶舱的模型具有一定的稳定型,这些模式并不干扰驾驶员行为。应用更具识别能力的模式以增强精确度的研究正在研究中。通过相关和定性不同驾驶员视觉行为的研究,结果通过EAP视觉系统获得 ,尤其是自动ROI跟踪,可量化参数如轨道与视知觉,被认为是认知模型的主要输入。
2、视觉-眼动系统在交通方面的应用
2.1 使交通信息传递更准确
一些学者测量了交通标志在不同速度下的可视性和驾驶员的识别能力,还有人则测试了交通标志的灯光亮度对用户和驾驶员反应时间的影响。目前对交通标志的研究大多还局限在对标志外观尺寸、颜色搭配及设施结构等方面,较少有从驾驶员在驾驶过程中自身特征如眼部运动特征的角度来研究。因此我们注重从驾驶员的角度出发,研究驾驶员在行车过程中的眼部运动特征和视认特性以及两者间的联系,完善交通标志的设计设置,更好地发挥交通标志的作用。
2.2 修正道路口通行能力
目前通常以饱和度法计算交叉口的通行能力,涉及到的饱和流率模型将道路要素,交通要素,周边要素作为其主要影响因素,而忽视了驾驶员因素的影响。事实上,交叉通流率处于不同水平时,驾驶员的视觉特性也会发生变化,当交叉通流率增大时,驾驶员的视觉特性由稳定变为不稳定。应用驾驶员在交叉口不同交通流率水平下的视觉-眼动特性参数,对饱和流率模能力而不是交叉口本身特性所决定的最大通行能力。只有交叉口的设计考虑了驾驶员因素找出趋于驾驶员行车安全的最大通行能力,设计方案的实施效果才能真正得到改善。
3、结语
当前视觉-眼动系统在交通方面的研究还主要是使用国外的仪器设备。随着眼动仪智能化的进一步发展,硬件的小型化、低成本,眼动在交通方面的应用研究将会越来越广泛,眼动研究与对驾驶员的研究结合将会更为紧密。根据驾驶员的视觉特性,在今后的驾驶培训工作中应该重视驾驶人在视觉方面的特性,对目前的驾驶培训工作加以改进,提高驾驶人视觉信息获取能力,从而减少驾驶人发生交通事故的可能性,减少交通安全隐患,提高交通安全。
参考文献:
[1]邓铸.眼动心理学的理论技术及应用研究[J].南京师大学报,社会科学版,2005,1
[2]马勇,郭应时.基于眼动分析的汽车驾驶员视觉搜索模式研究[D].长安大学:交通运输规划与管理,2006,5
[3]范红静.驾驶员动态视觉特性及对交叉口通行能力的影响研究[D].南京:东南大学,2008.
[关键词]知识转化 可视化技术 可视化展示 可视化绘制
[分类号]G354
1 可视化技术在知识转化中的作用
野中郁次郎提出的经典SECI模型将知识转化区分为四种模式:社会化(socialization)、外化(Exter-nalization)、组合(Combination)、内化(Internalization)。在社会化模式中,利用可视化技术能够搭建便于观察和模仿的沟通平台,实现隐性知识的分享与传播;但由于没有将隐性知识系统地表示出来,因此可视化技术对社会化模式的支撑作用并不直接。鉴于可视化技术在丰富知识的表示方式的优势上,笔者认为可视化技术在知识转化中的作用主要体现在外化模式、组合化模式以及内化模式当中。
1.1 可视化技术在外化模式中的作用
外化模式是将隐性知识系统整理、清晰表达出来供他人分享和利用的过程,可视化技术能够表达文字难以表示的隐性知识。野中郁次郎曾指出:“将隐性知识转化为显性知识意味着寻找表达难以表达的知识的方法。完成这一任务最强有力的管理工具之一是图形方法”。在外化模式中可以采用的可视化技术包括:概念图、认知地图、思维导图以及视觉隐喻。概念图对结构化知识具有很强的表达能力;认知地图能够高效表达因果知识;头脑风暴过程中,利用思维导图可以将参与人员的想法组织起来,不仅能够明确讨论的方向、给出结论,而且能够诱导思维、激发人们创造知识;视觉隐喻则将知识表示为人类更易理解的事物。可视化技术在外化模式中的作用不仅体现在知识表示上,同时体现在知识评价上。根据图形,参与人员能够制定直观的评价指标和方法,快速完成知识评价。
1.2 可视化技术在组合化模式中的作用
组合化模式通过分类、重组、分析等手段将零散的显性知识聚合在一起并从中提炼出新的显性知识。随着知识挖掘技术的日益成熟,组合化模式更倾向于利用知识挖掘技术来实现,而可视化技术能够支撑知识挖掘的完成。可视化技术不仅提供一定的布局算法将知识挖掘产生的数据、知识展示出来让知识专家更为轻松地观察和理解,而且还提供一定的交互机制来影响知识挖掘的过程,使得知识专家可以透过图形化界面动态、全面地操控知识挖掘的完成。因此,可视化技术对知识挖掘的作用不仅体现在挖掘结果上,而且体现在知识挖掘的整个过程。可视化技术与知识挖掘相结合,能够充分发挥挖掘算法、布局算法、交互算法各自的优势,从零散的显性知识集合中发现不平凡的模式,提炼出新的显性知识。
1.3 可视化技术在内化模式中的作用
在内化模式中,人们通过资料收集和整理、资料分析和利用、边干边学、在职培训、观察学习、当面交流等渠道学习显性知识,并通过记忆、消化、吸收等思维活动将其转化为个人的隐性知识。利用可视化技术支撑内化模式的实现,主要体现在知识导航和知识建构两个方面:一方面,可视化技术能够提供直观的知识导航工具,方便人们收集、组织和管理知识资源;另一方面,可视化技术能够提供简易的知识建构工具,支撑知识建构的完成。常见的知识导航工具包括领域本体、专业叙词表、知识分类表、知识地图、领域思维导图、个人思维导图、领域概念图、个人概念图、文献地图、文献聚类图、文献时间分布图、文献内容直方图、书架隐喻、教材隐喻和报纸隐喻等。知识建构是对外部知识资源进行主动选择、加工和处理,从而获得自己理解意义的过程。
综上,可视化技术通过丰富知识的表示方式,促进外化模式、组合化模式以及内化模式的完成,根据完成可视化表示的主体不同,可以将可视化技术在知识转化中的作用区分为两种不同机理:以人脑处理为中心的可视化绘制和以计算机处理为中心的可视化展示。
2 可视化绘制
可视化绘制是由人类借助一定的可视化技术工具将大脑中产生和拥有的知识以图形化方式表示出来,以关联人脑中的知识结构与知识库存储的知识结构,旨在产生更多的知识以增加人脑和知识库的知识存量。可视化绘制流程,包括知识准备、知识互动以及图形绘制三个步骤,分别形成个人知识空间、共享知识空间以及视觉对象空间。
2.1 个人知识空间
个人知识空间是单个知识工人拥有的知识构成的知识空间,是通过长期学习、不断积累形成的。个人知识空间不仅包括人脑中的知识,也包括个人计算机存储的知识。在学习和工作中人们常常借助软件工具将学习资料、工作文件保存管理起来,并将个人体会、读书笔记、读后感想等各种想法、观点、思路、总结等学习成果撰写成文档存储起来。这些文档均是个人知识的体现,反映特定人的知识结构。人脑中产生和拥有的知识是可视化绘制的直接来源,但是这些知识只有通过长期积累才能获取的。就某一次的可视化绘制而言,知识准备是临时的,形成的个人知识空间反映的是临时的个人知识结构;但实质上,知识准备是长期的,包括个人以往所有的学习和工作总结,是一个不断积累、永元止境的过程。
2.2 共享知识空间
共享知识空间是由一群人参与讨论、互相协作、相互评价、取长补短、充分利用各自优势、自由发挥形成的动态知识空间。共享知识空间可以是一次集体讨论,可以是头脑风暴过程,也可以是协作学习过程。协作与对话是共享知识空间形成的关键。不同的人对知识的理解是不一样的,每个人都有自己的认知结构,只有通过协作才能达成共识,形成统一的知识结构。对话是协作不可或缺的环节,参与互动的人员之间需要沟通交流,只有通过对话才能保证协作的顺利进行。共享知识空间的形成是一次知识互动完成的,而且不能复制,是参与人员的即兴发挥。
2.3 视觉对象空间
视觉对象空间是由一组视觉对象及其属性组成的空间,是由人类根据共享知识空间生成的知识结构,并且利用图形软件绘制而成的。视觉对象空间可以是一组概念图、一组思维导图或一组语义网络图或一组认知地图,也可以是一幅通过视觉隐喻形成的图形。视觉对象空间的形成由绘图软件协助完成,绘图软件的设计应简单易用,同时提供各类面板、记忆功能。实施绘制的人员可以是参与知识提取或知识建构的知识工人,也可以是专门的知识工程师,还可以是善于利用绘图软件的计算机工程师,当然也可以是几个人员协作完成。
3 可视化展示
可视化展示是将抽象数据空间转换为直观视觉空间,以便人类利用强大视觉处理能力发现隐藏在抽象
数据空间中的模式和知识。可视化展示流程,包括数据准备、数据析取以及数据映射三个步骤,分别形成原始数据空间、可视化数据空间及视觉对象空间。
3.1 原始数据空间
原始数据空间是由需要进行可视化展示的原始数据构成的数据空间,是通过筛选、采集知识库中的相关数据并进行格式化、结构化处理形成的。原始数据空间的形成通过自动采集实现,关键技术是信息抽取和自动标引。因为知识库中存取的知识数量巨大、内容丰富、格式繁杂、结构化程度不一,包括各种格式的Web文档、文本文档、多媒体文档及数据库表格。如何对这些文档进行格式转换形成结构化的数据源是数据准备的关键任务,对于Web文档需要内容解析,对于图像型文本文档需要文字识别,对于语音信息需要语音识别,对于数据库表格需要进行模式映射。因此,信息抽取和自动标引两项技术十分重要。
3.2 可视化数据空间
可视化数据空间是由需要进行可视化展示的数据集合构成的数据空间,是利用模式识别、数据挖掘、知识挖掘等技术对原始数据空间进行处理形成的特征数据空间,具有一定的模式结构,能够直接映射到视觉对象空间。可视化数据空间中的树状和网状的数据结构在计算机中可以以数据表形式存储,可以以XML文档格式存储,计算时转换为链表结构或向量矩阵。
3.3 视觉对象空间
视觉对象空间是由一组视觉对象及其属性构成的用户界面,是利用布局算法、填充算法、交互算法及优化算法对可视化数据空间进行映射和渲染形成的,直接呈现给用户供其查看和操作。视觉对象可以是各种具有交互功能的图形,如空间树Space Tree、树映射Treemap、大脑theBrain概念图等。常用的视觉属性包括位置、形状、方向、色彩、纹理、灰度等级和尺寸等。在数据映射时,常常将可视化数据空间的数据关系映射为整体的视觉对象,将每个数据元素映射为视觉对象的某个属性。
4 可视化绘制和可视化展示对知识转化的影响
4.1 可视化绘制对知识转化的影响
可视化绘制利用图形关联人类的认知模式和计算机中知识的表示方式,能帮助隐性知识外化和显性知识内化的完成,其对知识转化的影响体现在以下方面:
・组织复杂的知识结构。利用可视化技术可以组织复杂的知识结构,在一幅图片中能够描述大量的知识内容以及知识内容之间的关系;同时,通过图形的链接功能还可以关联与知识节点相关的知识资源,为人类认知模式的形成提供丰富的营养来源。
・促进人员之问的协作。可视化绘制为人员之间的协作提供了简捷、高效的交流平台,充分利用了人类发散性思维和形象思维的优势,刺激人员提出更多的观点;同时,能够更为全面地揭示人员之间的认知差异,消除知识表示中的误解和曲解。
・增强知识吸收的能力。新认知模式的形成不仅需要新知识,也需要旧知识。一方面,新经验以原来的经验为基础;另一方面,新经验的进入又会使原有的经验发生一定改变。通过绘制图形,能够更为清晰地认识新旧认知模式之间的差异,促进新认知模式的形成。
4.2 可视化展示对知识转化的影响
可视化展示充分利用计算机强大处理能力,将抽象数据直观化和形象化,改善知识挖掘和知识导航的效果,促进显性知识的组织和利用,其对知识转化的影响主要体现以下方面:
・快速定位资源。可视化展示能够揭示知识库中复杂的结构关系,能够展示查询扩展的结构关系,能够将与查询相关的知识文档的相关度直观地显示出来,能够推荐相关的知识资源,为知识资源定位提供多种快捷、直观的入口和途径。
・识别隐藏模式。可视化展示提供了观察数据的多种视图,包括修剪、检索、过滤和缩放等。修剪是将数据集合中的数据进行修改或删除;检索是指通过检索的方式定位数据源、中间结果或结果数据中的某些数据元素或集合;过滤是通过设定参数去除不符合要求的数据;缩放是为用户提供比例缩放、放大/缩小、导航/细节等功能。丰富的数据观察方式便于识别隐藏的模式。
关键词:车辆检测; 碰撞预警; 单目视觉; 智能车辆
中图分类号:TN919-34; TP391.41 文献标识码:A
文章编号:1004-373X(2011)20-0053-04
Vision-based Rear-end Collision Warning System in Car
LI Fei1, ZHAO Ming-hui2, Ye Qing2,Liu Zunyang2
(1. Key Laboratory of Atmospheric Composition and Optical Radiation, Anhui Institute of Optics and Fine Mechanics, CAS, Hefei 230031, China;
2. Hefei Tongzhi Technological Development Co., Ltd., Hefei 230037, China;
3. State Key Laboratory of Pulsed Power Laser Technology, Electronic Engineering Institute of PLA, Hefei 230037, China)
Abstract: Rear-end collision warning is an important research topic of intelligent vehicle vision navigation system. A monocular camera based rear-end collision warning system in car was developed, which can be applied to the structuralization road environment. The front road is identified by a new edge detection algorithm from images captured by camera.. The front cars are detected according to the characteristics such as shade of grey, edge and symmetry. The danger degree is judged according to the distance between cars. Acoustic and ocular warning signals are given to drivers. Experiment was conducted in highway around HeFei. The experimental results show that the system can meet the requirements of real-time for vehicle driving and can fulfill tasks of detection and warning.
Keywords: car detection; collision warning; monocular vision; intelligent vehicle
0 引 言
基于计算机视觉的高速公路防撞系统是当前智能交通管理系统研究的热点之一。如何在多变的环境下快速准确地从视频图像里检测到车道和前方车辆是实现这类系统面临的最关键问题。近20年来,国内外很多研究人员对这个问题进行了大量研究,提出了多种多样的实用算法并成功开发了一些视觉系统。这些系统所采用的算法基本上可以分为基于双目视觉的方法、基于运动的方法、基于外形的方法和基于知识的方法。基于双目立体视觉的方法计算量大,需要特殊硬件支持[1];基于运动的方法,无法检测静止目标且实时性差[2];基于外形的方法,因建立有效的培训样本仍然是需要研究的问题[3];基于知识的方法,在障碍物数量较少时效率较高,但复杂环境下错误率有所增加[4]。
针对常规算法的不足,本文设计了一种精度高,稳定性好的基于单目视觉的车载追尾预警系统。它利用一种新的边缘检测算法识别前方道路,然后利用阴影检测与跟踪相结合的方法识别前方车辆,接下来根据前后车距判断其威胁等级,最终向驾驶员提供相应的声光报警信号。
1 系统工作原理
系统硬件部分包括MCC-4060型CCD摄像机、VT-121视频采集卡、GPS、PC-104工控机和显示终端。GPS通过串口向工控机发送本车车速信息,安装在车内挡风玻璃后的CCD摄像机将图像帧通过视频采集卡送入工控机,经过软件的处理分析后,在显示终端上标注出前车障碍物和道路标线,同时根据车速、间距等判断危险等级,发出相应的声光报警信号;
系统的软件部分包括道路检测、道路跟踪、车辆检测、车辆跟踪、测距、决策和报警等模块。当车速达到60 km/h时,系统开始处理实时采集到的图像序列。对于每一帧图像,首先检测并跟踪图像中的车道白线,然后在车道确定的感兴趣区域内检测车辆。如果存在疑似障碍车辆,则启动车辆跟踪,利用跟踪信息进一步排除虚警。在实现对障碍车辆稳定跟踪后,估算出两车间距和相对运动速度,判定其威胁等级,并发出相应的报警信号。
2 系统关键技术
2.1 道路检测
目前,车道线检测算法主要适用于光照充足的环境下。由于车道线与路面之间对比度大,因此很容易利用各种常规边缘检测算子获得清晰的车道轮廓信息,然后选取合适的阈值对图像进行二值化处理,最后采用Hough变换识别车道线[5-7]。然而在复杂光照环境下,图像会受到各种光线直射和物体多次反射形成杂散光的干扰,图像光强不能反映车道本身突变性质,导致无法正确检测出车道。
本系统采用了一种利用光密度差得到车道标线与路面反射率差,进而进行非线性边缘检测,再进行Hough变换的车道检测算法[8]。此算法可以有效解决在复杂光照条件下的车道检测,也可以用于夜间的车道检测。
另外,目前车道线的跟踪研究主要采用固定区域法或者Kalman滤波法,根据前一帧车道线检测的结果来划分感兴趣区域,以实时跟踪车道线[9-11]。然而,固定区域法对2帧图像的相关性依赖大,划分感兴趣区域大,实时性差;而Kalman滤波法划分感兴趣区域小,容易产生检测误差,而造成跟踪误差累积,跟踪正确率不高。因此,本系统在跟踪车道线时采用了一种融合固定区域法和Kalman滤波法划分感兴趣区域的新方法[12]。
一般来说,只将车道边界线交点(即灭点)以下、2车道线之间的区域作为感兴趣区域,考虑到跨道行驶的车辆依然对本车有威胁,算法把两车道线分别向两侧平移40个像素,使感兴趣区域扩展到可以覆盖跨道车辆的范围。
2.2 车辆检测
图像中包含车辆前方很大视野内的物体,如道路、树木、护栏、标牌以及其他车辆,要从中准确检测出前方车辆是一项困难的工作,而本文的车辆检测模块会根据图像背景自动改变设置参数,以适应不断变化的道路场景和光照条件。
要实现车辆的快速检测,首先需要根据车辆的基本特征进行初步检测,将所有可能的疑似车辆区域从图像中提取出来,然后再根据其他特征对疑似区域进行筛选排除。
2.2.1 车辆初步检测
初步检测采用的特征是车辆阴影,即一块位于目标车辆底部、灰度值明显比附近路面区域低的区域。在一般环境条件下,大部分车辆都具有这一显著特征。
车辆初步检测的流程如图1所示。车辆阴影和车道一样具有灰度突变的特点,因此可以调用车道检测算法对图2(a)中的原始图像做二值化处理,得到图2(b)中的边缘二值化图像。同时还要对原始图像进行灰度二值化,得到图2(c)中的灰度二值化图像。为提高检测实时性,以本车附近路面区域的平均灰度作为二值化阈值。由于边缘二值化图像和灰度二值化图像都包括了车辆的下底边,将这两幅图像进行“或”运算,就可以得到如图2(d)所示的车辆阴影图像。
在阴影图像中由下至上逐行搜索,寻找连续阴影点超过一定阈值的线段,并以此线段为底边划出一个矩形区域作为疑似车辆区域。为保证疑似区域包含车辆整体,矩形的宽度比线段稍宽,高度由宽度按比例给出。为避免重复搜索,将已搜索到的疑似区域内阴影完全抹去。由于同一车辆的各个部分可能分别被检测为疑似目标,因此还需要对各个相交的疑似区域进行合并。由于前方车辆的遮挡,可能会将多个目标认定为一个目标,但是对本车的安全无影响。
2.2.2 筛选验证
如果单纯采用阴影特征进行车辆检测,在保证较低“漏警”率的同时,也造成了较高的“虚警”率,因此还需要对疑似区域进行筛选和验证。
对于结构化道路,车辆宽度与车道宽度的比值应该是大致固定的,那么当摄像机的焦距、俯仰角等参数固定后,图像上车道宽度(像素数)与车辆宽度(像素数)也满足这个比例。根据之前检测的车道方程,就可以计算出感兴趣区域内任意纵坐标上车辆图像宽度的范围,并剔除宽度不在此范围内的疑似区域。
在以往的车辆验证方法中,最常用的是对称性测度验证[13]。这种算法的计算量较大,且对于背景复杂,对称度差图像的验证效果不尽人意。为了解决这个问题,该系统采用了一种基于边缘二值化图像,通过搜索车辆左右边缘进行验证的算法。
假设疑似区域的宽度为W,区域左边缘的坐标为(X1,Y1),右边缘的水平坐标为(X2,Y2)。Фㄒ搴数:
Иg(u)=∑u+1x=u-1∑Y1y=Y1-W/2f(x,y)И
式中:f(x,y)为(x,y)点的灰度值。在区间(X1-W/4,X1+W/4)内搜索g(u)的最大值点,该点对应的水平坐标X1′就是车辆的左边缘坐标。同理也可以搜索到车辆的右边缘X2′。如果左右边缘的g(u)值均大于某阈值,那么就可以认定该车辆确实存在。实验证明,该算法能排除掉大量的“虚警”区域并得到真实车辆的两侧边缘。
2.3 车辆跟踪
现关心的是前方车辆与本车相对的二维位置和速度,因此只需要使用卡尔曼滤波器预测横坐标x、横向速度Vx、纵坐标y、纵向坐标Vy这四个状态向量。此外由于x方向和y方向的状态向量没有直接联系,所以可以将其分为两组分别处理。
在车辆行驶过程中,由于颠簸或遮挡等原因,系统可能会将路牌、灌木丛等物体误认为是车辆检测出来,产生虚警。而这些虚警物体往往只能在连续数帧图像中存在。如果不采取措施,系统就会时常产生短促的报警。当图像采样间隔足够短时,相邻帧内同一车辆的位置会具有很大的相关性。
系统采用检测与跟踪相结合的方法,根据第n帧图像获得的信息,预测车辆在第n+1帧图像中的位置等信息,并与n+1帧图像中实际检测到的结果进行比对。如果二者匹配度最大且超出一定值,则认定为同一车辆,继续进行跟踪、报警,否则认为此车已被遮挡或消失,暂时不做处理,数帧后被剔除出去。
2.4 测距报警
车间测距通常采用几何投影模型,采用了一种简化的车距模型公式L×W=C,其中L为两车间距,单位为m;W为图像上目标车辆处车道宽度,单位为pixel;C为常数,Э赏ü事先的标定获得[14]。然而两车间安全车距S采用文献[15]推导的临界安全车距公式动态得到。
ИS=0.36Vr+0.33Vb+Vr(2Vb-Vr)259(1)И
式中:Vr为相对车速,由对测出车距求导得到相对车速后进行卡尔曼滤波得到;Vb为本车车速,вGPS得到。
如果告警频率过高,容易使驾驶员麻痹大意,过低可能使驾驶员来不及做出反应,因此该系统采用由远至近的┤段报警。
若车距d≥1.5S,判定为3级威胁,发出长而缓的报警声,提醒驾驶员前方有障碍物,但暂无危险;若车距S≤d≤1.5S,判定为2级威胁,发出较急促的报警声,提醒驾驶员减速;若车距d≤S,判定为1级威胁,发出短而急的报警声,提醒驾驶员制动;3种状态下的告警声差异很大,驾驶员可以很容易地根据报警声判断威胁等级。
3 试验结果
系统框架及所有算法在Borland C++ Builder 6环境下编译完成。为了验证系统算法的可靠性和实时性,利用在合肥市环城高速公路上采集不同车型、不同路段、不同环境光下多组道路图像作为测试序列,进行了大量实验。
图3为典型道路场景下的实验结果,图3(a)为大型卡车;(b)为小型面包车;(c)为远距离处;(d)为近距离处的检测结果。系统将检测到的目标用黑框标记出来。
图3 典型道路场景实验结果
可以看出,系统能够检测到本车道内不同距离上的各种车型车辆。在高速公路上的实验结果表明,在最大车速100 km/h的情况下,系统在Celeron M 600 MHz处理器上的处理速度为8 j/s左右,也就是说处理一帧图像的时间内车辆行驶3~4 m,基本满足实时报警的要求。在一般光照条件下,系统正常报警的纵向距离超过200 m,视场角远远大于雷达(一般为±7°)。
为了验证单目视觉测距准确性,在市内道路上采集了前车与本车距离从5~100 m的一组图像。对采集的图像进行处理后,根据公式推导出本车与前车距离以及实际距离见表1。表中数据显示,单目视觉测距的相对误差都在5%以内,可以满足实际工作中测距告警的需要。
4 结 语
本文设计了一个基于单目视觉的汽车追尾预警系统。该系统采用了一种基于光密度差的道路检测算法,并使用了一种以车辆阴影检测为主、左右边缘检测为辅的车辆探测方法,同时采用了简单、实用的测距和报警方法。高速公路上的实验结果证明了该系统的实时性、鲁棒性和准确性。
该系统目前还没有在雨雾天气或缺少照明的夜间环境下进行试验,未来我们将针对这些使用环境对系统做进一步改进和优化。
参考文献
[1]BERTOZZI M, BROGGI A. Gold: a parallel real-time stereo vision system for generic obstacle and lane detection \. IEEE Trans. on Image Processing, 1998, 7 (1): 62-81.
[2] BARRON J, FLEET D, BEAUCHEMIN S. Performance of optical flow techniques \. Computer Vision, 1994, 12(1): 43-77.
[3]SUN Z,BEBIS G,MILLER R. On-road vehicle detection using gabor filters and support vector machines \. IEEE Digital Signal Processing,2002,2: 1019-1022.
[4] MAROLA G.. Using symmetry for detecting and locating objects in a picture \. Computer Vision. Graphics. and Image Processing, 1989,46(2): 179-195.
[5]沈`,李舜酩,柏方超,等.结构化道路中车道线的单目视觉检测方法[J].仪器仪表学报,2010,31(2):397-402.
[6] CHARBONNIER P, DIEBOLT F, GUILLARD Y, et al.Road markings recognition using image processing \//Proceedings of IEEE Conference on Intelligent Transportation System. Boston, MA: IEEE,1997: 912-917.
[7]BROGGI A. Robust real-time lane and road detection in critical shadow conditions \// Proceedings of IEEE International Symposium on Computer Vision, Coral Gables. Florida: IEEE,1995:353-359.
[8]叶庆,赵明辉,李菲,等.复杂环境下的夜间车道检测研究[J].安徽大学学报:自然科学版,2008,32(6):44-47.
[9]周欣,黄席樾,樊友平,等.汽车智能辅助驾驶系统中的单目视觉导航技术[J].机器人,2003,25(4):289-295.
[10]REDMILL K A, UPADHYA S, KRISHNAMURTHY A. A Lane Tracking System for Intelligent vehicle applications \.IEEE, 2001:273-279.
[11]JEONG Seung Gweon. Real-time lane detection for autonomous navigation \// Proceedings of 2001 IEEE Intelligent Transportation Systems Conference. Oakland, CA: IEEE, 2001: 508-513.
[12]叶庆,赵明辉,李菲,等.夜间车道线检测与跟踪算法研究[J].现代电子技术,2009,32(13):155-158.
[13]ZIELKE T, BRAUCKMANN M, SEELEN WV.Intensity and edge based symmetry detection with an application to car following \. CVGIP:Image Understanding, 1993, 58(2): 77-190.
[14]刘燕,刘浩学.基于计算机视觉的单目摄影纵向车距测量系统研究[J].公路交通科技,2004,21(9):103-106.
关键词:增强现实;视线追踪;应用
增强现实(Augmented Reality简称AR)技术是近年来的一个研究热点,有着广泛的应用前景。它是对现实世界的补充,使得虚拟物体从感官上成为周围真实环境的组成部分。与传统的虚拟现实(Virtual Reality简称VR)不同,增强现实只是实现对现实环境的增强,加深了对现实环境的感受。在实际的AR体验中,因为人的观察视线会不断地变化,AR系统需要实时的根据用户的视场重新建立位置坐标系,进行追踪。而视线追踪技术就是实时地跟踪用户头部的位置和视线方向,根据这些信息来确定虚拟物体在真实空间坐标中的位置,并将它实时地显示在显示器中的正确位置。
一、视线追踪技术及其特点
(一)视线追踪技术概述。
视线追踪也称为眼动追踪,它被认为是研究视觉信息加工的有效手段。利用专用设备来记录学习者的眼球运动(Eve-Movement,简称眼动)情况,可以作为分析学习者内部心理活动情况的依据。关于视线追踪技术的研究己有较长历史,目前它己在多个领域得到广泛应用。例如用于图片广告研究(网页评估、设计评估等)、动态分析(航空航天、体育运动、汽车、飞机驾驶等)、产品测试(可用性测试)、场景研究(商场购物、店铺装演、家居环境等)和人机交互等多个领域。此外,视线追踪在智能计算机、智能家电、虚拟现实和数字游戏等领域也有很好的应用前景。
在眼动实验研究中,当被试对视觉信息进行提取时,其注视时间、注视次数、注视点序列、眼跳距离、回视次数、瞳孔直径等通常被视为思维和心理加工的重要参数。因此,通过对被试在学习过程中的实时眼动信息进行观测,可用于分析和引导其学习的依据。眼动模式一般分为三种:注视(fixation)、眼跳(saccade)和追随运动(pursuit movement)。其中,持续一段时间、相对稳定的眼球运动称为注视;眼球快速运动时导致视觉区域的聚焦点产生变化,这种行为称为眼跳;眼睛缓慢、平滑地追踪某个缓慢运动的目标,则称为追随运动。通过分析眼动模式和相关参数,可以获得很多重要的信息。例如,眼跳速度会随着疲倦程度的增加而降低,而随着学习任务难度的增加而增加;眨眼速度和眼睛睁开程度的降低则可能意味着疲倦的加重。因此,可以据此来确定学习者的学习精神状态,或对其学习过程进行分析,从而采取相应的学习策略或干预措施。
(二)视线追踪系统的类型及其特点。
人眼的注视点主要由头的方位和眼睛视线决定。头的方位决定了人眼可能注视的范围,眼睛的视线决定了注视点的精确位置。国内外将视觉跟踪技术按照借助的媒介分为硬件和软件两种。以硬件为基础的视线跟踪的基本工作原理是利用图像处理技术,通过摄像机摄入瞳孔反射的红外线记录视线变化,达到视线追踪的目的。视线跟踪装置目前有穿戴式与非穿戴式,接触式与非接触式,如带上专用头盔、眼镜或者头部固定支架,置于头部上的摄像机,这种情形用户使用较不舒适。通过软件实现的视线跟踪方法,对用户没有干扰,首先利用摄像机获取头部、脸部或眼睛图像,再经过软件分析对视线定位与跟踪。由于不需要佩戴任何装置,用户的自由度舒适度较好。
人与计算机交互是研究人与计算机之间沟通的技术,将视线跟踪、语音识别、手势输入、感觉反馈等引入人机交互,提高了交互的自然性和高效性。视线追踪技术同样引发了人机交互系统的改革,鼠标、触控板的消失,及通过追踪人眼视线,用眼神来操作电脑、输入文字、玩游戏。
二、视线追踪技术在AR增强现实研究中的应用
(一)显示技术。
AR的简单定义就是将计算机生成的虚拟数字信息叠加到现实的生活场景中。这个“叠加”是需要通过显示设备作为中介来实现。
增强现实系统中的显示器可以分为头盔显示器(HMD)和非头盔显示设备。目前,一般的增强现实系统主要使用透视式头盔显示器。透视式头盔显示器主要由三个基本环节构成:虚拟信息显示通道、真实环境显示通道、图像融合及显示通道。其中,虚拟信息的显示原理与虚拟现实系统所用的浸没式头盔显示器基本相同;图像融合与显示通道是与用户交互的最终接口,根据其中真实环境的表现方式,可分为基于CCD摄像原理的视频透视式头盔显示器和基于光学原理的光学透视式头盔显示器两类。
光W透视技术是通过安装在设备眼前的光学透镜来呈现出真实和虚拟世界。首先计算机生成的虚拟信息经过光学系统放大后反射后进入视野,透过透镜又能直接看到现实场景,两部分的信息汇聚到人眼的视网膜上实现AR的效果。视频透视技术是借助安装在头显上的摄像头来捕捉获取外部真实环境,计算机将数字模拟信息叠加到摄像机的视频信号上,再将真实场景和虚拟场景进行融合。相比较光学透视技术,它的视角场更大,而且不受外界的强光干扰。不过一旦摄像机与用户的视点不能保持完全重合,会产生一些偏差。
(二)跟踪注册技术。
基于计算机视觉的注册技术主要是指利用计算机视觉获取真实场景的信息后,经过图像处理方面的知识来识别和跟踪定位真实场景。细分可以划为基于传统标志的注册算法和基于自然特征点无标志注册算法。基于计算机视觉的注册技术的精度较高,但是对计算量非常大,而且算法复杂,对系统的要求非常高。
为了取长补短,得到更加精确的注册结果,现在有结合两种技术的混合注册方法。通常是先由跟踪传感器大概估计位置姿态,再通过视觉法进一步精确调整定位。一般采用的复合法有视觉与电磁跟踪结合、视觉与惯导跟踪结合、视觉与GPS跟踪结合等。
三、结论
在国外,增强现实早已在医学、遥操作、制造与维修、可视化与教育培训、娱乐、军事训练等领域取得了成功应用。在国内,不少单位和个人对增强现实中的关键技术和算法进行了研究,并且以牙科医学、设备维修等许多背景得到了初步应用研究。但国内的研究目前仍多限于实验阶段,与国外的应用水平还有一定距离。
目前,随着增强现实的快速发展,出现了许多新的研究方向,如新的显示方式、照片真实感图形绘制、调节现实、基于网络的增强现实和针对户外随身增强现实系统的技术等等。其中涉及到的技术包括基于图像的绘制(IBMR)、多通道信息融合、普适计算技术、显示设备和跟踪设备的随身便携化等。随着系统性能的提高、操作过程的简化和设备成本的降低,增强现实会在越来越多的领域得到广泛应用。
参考文献:
[1]奚惠宁等.视线追踪应用技术的专利分析[J].电视技术,2013(S2)。
【关键词】自动分级;机器视觉;支持向量机
一、概述
烤烟是卷烟工业的原料,其烟叶质量的好坏直接关系到烟草制品的工艺配方和生产质量。烤烟烟叶分级方法是目前评判烟叶质量的主要手段,其分级判断的依据主要是烟叶的外观特征,如颜色、长度、厚度、油分、成熟度,残损等。目前国内外烟草行业对烟叶的分级和检验都是依据分级标准,以人工操作为主,凭借标准样本依靠人的感官进行的。这种传统的人工检验方法容易受人的因素影响,评级定价难以做到公平、公正。而且在我国,每年烟叶收购前,全国各地都会举办培训班,培训分级人员,并准备大量的样本发往各地,这样必然造成人力、物力和财力的巨大消耗。机器视觉技术的发展和国家烟叶等级标准的定量化促进了烟叶分级自动化和智能化的应用与发展,各种图像处理算法和模式识别方法也被应用于烟叶的自动分级中,如2003年,张惠民等人根据提取的烟叶特征参数,建立并优化了烤烟烟叶分级系统的数学模型,构造了符合烤烟烟叶等级空间分布的高斯隶属函数,采用模糊推理机制原理来实现烟叶分级。2011年,张乐明、刘剑君等以红外光谱作为烟叶的特征,采用概率神经网络对11个等级的烟叶进行分组和分级。
二、支持向量机基本原理
支持向量机(Support Vector Machine)简称SVM,是由Vapnik于1995年一种新的机器学习技术。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小化原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误的识别任意样本的能力)之间寻求最佳折中,以期获得最好的推广能力。
1.最优分类面。SVM方法是从线性可分情况下的最优分类面提出的。首先考虑二维两类线性可分的情况,如图1所示,图中实心点和空心点分别表示两类训练样本,H为把两类没有错误地分开的分类线,H1、H2分别为各类样本中离分类线最近的点且平行于分类线的直线。所谓最优分类线就是要求分类线不但能将两类无错误地分开,而且要使两类的分类间隔最大。
三、实验结果及分析
本文首先利用利用图像采集装置得到烟叶的原始图像作为样本并对烟叶图像进行了图像预处理。然后根据烟叶的颜色、外形、纹理特征建立了烟叶分级的支持向量机识别模型;最后利用部分样本进行检验。实验中样本得到了较高的识别率。实验结果说明了SVM分类器算法能够较好地完成样品集的分类,它是在基于结构风险最小化理论之上构建最优分割超平面,使得分类器能够得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界,在实际应用中有较好的优势。
四、结论
支持向量机是是在统计学习理论基础上发展起来的一种新型的机器学习方法。作为一种尚未成熟的技术,支持向量机尽管在核函数的参数的构造和选择上缺乏相应的理论指导,但是由于它在解决小样本学习问题中的优势,使其成为机器学习领域的研究热点,并且被广泛地应用于各行各业。本文将支持向量机的方法运用于烟叶的自动分级系统。取得了较好的分类效果。
参 考 文 献
[1]阎瑞琼,韩立群,陈晋东.计算机技术在烟叶检测与分级领域的应用[J].烟草科技.2001,154(3):13~15
[2]张惠民,韩立群,段正刚.基于图像特征的烟叶分级[J].武汉大学学报.2003(3)
[3]张乐明,申金媛,刘剑君,刘润杰.概率神经网络在烟叶自动分级中的应用[J].农机化研究.2011(12)
关键词: 虚拟现实; 双目视差; 近距显示; 视觉舒适度
中图分类号: TN27?34; TM417 文献标识码: A 文章编号: 1004?373X(2017)01?0140?05
Abstract: The virtual reality technology developed rapidly, and has been widely used in many fields, but the traditional CAVE system is difficult to promote and popularize due to the large floor space, high cost and difficult installation and adjustment, therefore, the research and development of the portable CAVE system has great significance to the popularization and development of the virtual reality technology. According to the features of the portable CAVE system, the visual optical system was designed, the distortion correction of the projected image and random dot stereogram generation algorithm are studied, and the close range stereoscopic display system based on visual optical system adjustment was built. The subjective evaluation experiment of the visual comfort degree was designed and implemented to explore the relationship between the visual fatigue degree and parallax caused by the close range display. The visual comfort degree of the stereoscopic display system based on visual optical system was assessed. This technology provides a reference foundation for the study of the portable CAVE system, and has a certain practical significance to the development of the virtual reality technology and the study of the stereoscopic visual comfort degree.
Keywords: virtual reality; binocular disparity; close range display; visual comfort degree
0 引 言
近年恚虚拟现实技术发展迅速,已经被广泛应用于军事训练、医学实习、娱乐游戏等诸多领域。传统的虚拟现实显示系统虽然技术成熟,但存在一些弊端,因此便携式CAVE系统的概念应运而生。本文搭建了近距立体显示原型系统,通过主观实验,探究了便携式CAVE系统中双目视差的感知深度和单眼聚焦感知深度的差异,以及用户可接受的视觉舒适范围,对基于目视光学系统调节的立体显示系统的视觉舒适度进行评估。
1 立体视觉舒适度的评估方法
1.1 刺激方法的选择
为了避免视差的时间积累效应,实验采用双刺激连续分级法。为控制实验过程中产生的习惯误差,不同视差的立体图按照随机序列交替呈现,且各视差出现的次数相等,整个序列中在前在后的机会相等。
实验的具体刺激方法是:将波纹中心在零视差处的刺激物记为基准图波纹中心在其他位置的刺激物记为待评估图每次施测依次显示三个刺激物,其顺序为或者其目的是强迫用户改变双眼的辐辏角度。每个刺激物显示1.5 s,三个刺激物共显示4.5 s,不同视差的待评估图像随机出现。被试者要独立地进行观测,选出其中一个与其他两个波动方向不同的刺激物,并对该过程的视觉舒适度进行主观评分。同一组图像需随机显示两次以便对评分结果进行一致性检查。
1.2 反应指标的选择
反应指标的选择应依据以下原则:
(1) 无害性。所选取的反应指标不应对被试者产生身体伤害,同时不能对被试者产生负面心理影响,阻碍实验的继续进行。
(2) 无干扰性。所选取的反应指标在测量过程中不能干扰被试者正常观看图像。
(3) 敏感性。所选反应指标应该能够有效地反应出视觉舒适度和视觉疲劳程度。
根据分析,实验主要采用主观评估方法对视觉舒适度进行研究。主观评价方法更适用于对视觉舒适度进行综合评价。舒适度的主观评价方法[1]主要是让被试者在观看立体图像前后根据自身的视觉状况填写问卷,并对问卷的结果进行统计分析。
1.3 主观量表设计方法
主观量是指用户对客观刺激产生的主观度量,又称心理量[2]。在视觉实验中,主观评估方法需对被试者心理量进行测量。主观实验中的心理度量表主要包括:强迫选择度量表、图示度量表和数值度量表。
(1) 强迫选择度量表。强迫选择度量表是在主观评估实验时主试者提供一些对立相反的词语让被试者做出选择。强迫选择度量表可以避免被试者受到他人的影响,但可能会使被试者产生抵触情绪,因为大多数人不愿意让自己处于两难选择的境地。
(2) 图示度量表。图示度量表好比一个温度计,通常用一条直线表示,直线两端具有相反程度的词语。这条直线可以是水平的,也可以是垂直的。实验中被试者需在直线上做标记,实验后主试者用标尺对标记进行度量,将它转换成数字并进行统计。图示度量表的数据统计工作较为复杂和繁琐,本文实验的数据量巨大,因此图示度量表并不适用。
(3) 数值度量表。在数值度量表中,被试者根据事先定义的数字等级进行评定,一般为7级评分或5级评分。在视觉舒适度研究中,可设计度量表如下:非常舒适、舒适、一般、不舒适、非常不舒适。设定等级分值时可以考虑“非常不舒适”为-2分,“不舒适”为-1分,“一般”为0分,“舒适”为1分,“非常舒适”为2分;也可以考虑“非常不舒适”为1分,“不舒适”为2分,“一般”为3分,“舒适”为4分,“非常舒适”为5分。通常情况下不管哪种处理和分析得到的结果是等效的。
本文实验为了使被试者容易理解,考虑一般人的思维模式,将数值度量表等级设计为:“非常舒适”为1分,“舒适”为2分,“一般”为3分,“不舒适”为4分,“极不舒适”为5分。舒适度量表如表1所示。
2 近距立体显示实验系统
2.1 目视光学系统
在便携式CAVE系统中,需要利用目视光学系统调节用户眼睛的调节距离,使人眼不再聚焦于屏幕上。本文实验的目的是研究经过目视光学系统调节后的单眼调节距离和双眼辐辏距离的差异对用户视觉舒适度的影响。实验中需通过改变目视光学系统的屈光度来改变被试者单眼的调节距离。考虑到人眼作为自然界的最高级光学接收系统,具有极强的自我适应和调节能力,因此,本系统选用单片式目镜即可满足基本的成像要求。
2.2 随机点立体图的生成
随机点立体图像对的生成算法如下:
设基面为视差面为
(1) 将基面沿纵方向均分成块,左边第一块区域为原始区,其余各块区域均为重复区域。重复间距为d必须小于瞳距。
(2) 在原始区内画一个随机点
(3) 令得到一新的点如果点在面内,则令如果点不在面内,则令然后在处画出这个新点。
(4) 重复上述步骤(2)、步骤(3),直到图面上布满适当密度的随机点为止。
2.3 投影图像的畸变矫正
本系统应采用侧投影的方式,在这种情况下投影图像会产生畸变,应进行投影图像的畸变矫正。进行投影图像的畸变矫正的模型是将真实投影机的投影图像变换为虚拟投影机的投影图像,从而恢复原始图像[5]。其基本过程是:根据透视变换原理,先计算出投影机图像平面到投影平面的单映矩阵,再将投影机图像平面上的所有像素点乘以这个单映矩阵后进行显示,那么屏幕上获得的图像就是校正后的图像。
3 近距立体显示系统的舒适度评估实验
3.1 实验目的及原理
本实验的主要目的是研究基于目视光学系统调节的近距立体显示系统中单眼感知深度(调节距离)和双眼感知深度(辐辏距离)[5]的差异对用户视觉舒适度的影响。
由式(8)可知,当眼睛到屏幕的距离和瞳距一定时,通过改变立体图像对的水平视差可以改变被试者的双眼感知深度(辐辏距离)。
3.2 被试者筛选及培训
筛选工具:数字化立体视觉检查图(立体视觉检查卡、立体视锐度检查卡)、瞳距测量尺。
本实验被试者的筛选流程如下:
第一步:询问被试者眼部的健康状况、有无色盲、是否做过眼部手术、是否有眼部病史,如结膜炎、眼眶骨折等,筛选出眼睛健康且无病史的被试者。
第二步:进行立体视觉测试,检查被试者的双目立体视觉是否正常,排除立体盲。
第三步:对立体视觉正常的被试者进行立体视锐度测试,筛选出立体视锐度小于60 arcmin的被试者。
第四步:对被试者的年龄、性别、视力、瞳距、有无主观实验经验、是否从事立体视觉相关工作等基本信息进行记录[6]。
榱吮苊獗皇哉哂捎诓皇煜な笛榱鞒毯筒僮鞴程而影响实验结果的准确性,实验前需对被试者进行相关培训和模拟练习。
首先,采用无偏向性的语气向被试者讲解实验目的、评价类型、评价等级和时间限制等内容,使被试者正确透彻地理解评判标准,并向被试者展示舒适度明显不同的若干立体图像示例。
然后,让被试者进行模拟练习,模拟练习的内容与正式的实验过程类似。被试者连续观看三组立体图像后,用选择器输入差异图像的编号并对该组立体图像引起的视疲劳程度进行评分,练习时间为3 min。
培训完成后,被试者即可进行正式的主观视觉舒适度评价实验。
3.3 实验过程
实验1:探究近距显示引起的视觉疲劳与视差的关系
被试者佩戴屈光度为0的目视光学系统,在距离屏幕0.6 m的位置观察随机出现的立体图像,并进行视觉任务测试和主观舒适度评分。实验1设定刺激物的中心到被试者的距离(辐辏距离)分别为0.79 m,0.94 m,1.15 m,1.50 m,2.14 m,3.75 m,且随机出现。调节距离为0.6 m。
实验1共进行36组小测试。每组测试会连续出现3幅立体图像,被试者双眼融像[7]后,可看到立体图像出现正弦波纹的效果,被试者需选出一个与其他两个正弦波动方向不同的立体图像,利用选择器将它的编号输入到主机系统中。然后对该组小测试产生的视觉疲劳症状进行主观评分。
时间安排及流程:三种位置(1,2,3)×6种辐辏距离(0.79 m,0.94 m,1.15 m,1.50 m,2.14 m,3.75 m)×2种显示序列(B?Xi?B或Xi?B?Xi)=36次施测,每次施测时间为1 min×36次=36 min。
实验2:探究基于目视光学系统调节的立体视觉舒适度
被试者随机佩戴屈光度分别为的目视光学系统,在距离屏幕0.6 m的位置依次进行3个亚组的实验,实验2中设定刺激物的中心到被试者的距离(辐辏距离)分别为0.79 m,0.94 m,1.15 m,1.50 m,2.14 m,且随机出现。人眼的调节距离分别为1.09 m,1.50 m,2.40 m。
实验2中每个亚组各进行30组小测试。每组测试会连续出现3幅立体图像,被试者双眼融像后,可以看到立体图像出现正弦波纹的效果,被试者需选出一个与其他两个正弦波动方向不同的立体图像,利用选择器将它的编号输入主机中,然后对该组小测试产生的视觉疲劳症状进行主观评分。
时间安排及流程:3种透镜度数×3种位置(1,2,3)×5种辐辏距离(0.79 m,0.94 m,1.15 m,1.50 m,2.14 m)×2种显示序列(B?Xi?B或Xi?B?Xi)=90次施测,每次施测调节时间为1 min×90+15 min间隔休息×2=120 min。
3.4 实验结果分析
(1) 近距显示引起的视觉疲劳与视差绝对值[8]呈正相关
将实验1中24个被试者的舒适度主观评分根据不同的辐辏距离进行均值统计。当视差取绝对值时,视差绝对值和视觉舒适度主观评分值经过线性拟合后得到两者的关系模型为:
视差绝对值和视觉舒适度主观评分值的线性相关度为具体见图2。实验结果表明,视觉舒适度的主观评分与视差值呈线性关系,也就是说,对于近距立体显示单眼聚焦和双眼辐辏的不一致性所引起的视觉疲劳与立体视差值成正比关系。单眼聚焦和双眼辐辏的差异越大,产生的视疲劳程度越大,这个结果与大部分研究结果相一致。
(2) 主观舒适度与理论值的符合度基本一致
将实验2中24个被试者的视觉舒适度主观评分根据不同的辐辏距离和调节距离进行均值统计,并将每个亚组的理论舒适度和实验获得的主观舒适度进行比较。
目视光学系统的屈光度为0.75D,1.00D,1.25D的实验结果,如图3~图5所示。
实验结果表明,当调节距离一定时,分别为1.09 m,1.5 m,2.4 m,由辐辏距离的改变引起的视疲劳症状与理论计算得到的结果在总趋势上大体一致。在基于目视光学系统调节的立体显示系统中,辐辏距离越小,符合度越好。在相同视差条件下,经过目视光学系统调节后产生更大的不适感。
(3) 视差舒适度曲线
将实验2中三个亚组的所有情况的视差值与主观舒适度评分进行综合统计,绘制舒适度曲线如图6所示。
实验结果表明,基于目视光学系统调节的立体显示系统中,视差绝对值越小,视觉舒适度越高。在同等视差条件下,非交叉视差的舒适度优于交叉视差。与传统立体显示设备相比,舒适视域向非交叉视差方向偏移。
4 结 论
本文在充分了解双目立体视觉原理、视差型立体显示技术原理、立体显示引起视觉疲劳的根本原因等理论知识的基础上,搭建近距虚拟现实显示系统原型作为实验系统,设计实验研究了基于目视光学系统调节的立体显示系统的视觉舒适度问题。对虚拟现实技术的发展和立体视觉舒适度的研究具有一定的实际意义。
参考文献
[1] 张英静,李素梅,卫津津,等.立体图像质量的主观评价方案[J].光子学报,2012,41(5):602?607.
[2] KIM D, CHOI S, SOHN K. Visual comfort enhancement for stereoscopic video based on binocular fusion characteristics [J]. IEEE transactions on circuits and systems for video technology, 2013, 23(3): 482?487.
[3] 王飞,王晨升,刘晓杰.立体显示技术的原理、体视因素和术语[J].工程图学学报,2010(5):69?73.
[4] 李志永.立体视觉基础[J].现代电影技术,2011(1):52?55.
[5] 顾郁莲,蔡宣平.计算机立体视图绘制技术[J].国防科技参考,1998,19(1):63?70.
[6] 敬万钧.虚拟现实中的视觉系统与其实现技术[J].计算机应用,1997,17(3):5?7.