时间:2023-05-30 14:44:54
序论:在您撰写数据分析论文时,参考他人的优秀作品可以开阔视野,小编为您整理的7篇范文,希望这些建议能够激发您的创作热情,引导您走向新的创作高度。
将医院、医疗保健组织等数字化的医疗数据以特定的格式、协议发送到医疗数据分析模块进行分析与疾病预测.医疗数据提取模块:该模块由医院电子病历系统负责实现,我们使用openEHR系统作为医院电子病历系统,并在openEHR中实现医疗数据的提取功能.openEHR系统是一个开源、灵活的电子病历系统,支持HL7卫生信息交换标准.很多医疗健康组织、政府和学术科研单位都使用openEHR进行开发和科研工作.如一种基于openEHR的患者病历数据管理模型、openEHR等许多开源的电子病历平台的对比与评估和基于openEHR的档案建模等.数据交换模块:基于Web服务的数据交换模块使用医疗数据通信协议实现医疗数据分析模块与医疗数据提取模块的数据交换.Web服务是一个平立、松耦合的Web应用程序.由于Web服务的跨平台特性,许多模型与框架是基于Web服务构建的,如基于Web服务集成分布式资源和数据流分析测试等.在本文提出的医疗数据分析模型中,使用Web服务来连接医疗数据分析模块和医疗数据提取模块.医疗数据提取模块作为Web服务的服务端,实现的方法包括存取数据、数据预处理、序列化等,改进后的模型要求实现指定维度,指定属性数据的读取.本文提出的医疗数据分析模块作为Web服务的客户端,通过HTTP服务向数据提取模块请求获取数据,并对数据进行预处理.医疗数据分析模块:我们使用Caisis开源平台作为医疗数据分析与疾病预测系统实现这一模块.Caisis是基于Web的开源癌症数据管理系统,一些临床医学研究使用Caisis系统管理和归档数字显微图像,通过向Caisis系统中添加特征选择和SVM算法,使用SVM算法对医疗数据进行分析和疾病预测,因此使用的特征选择算法需要基于SVM,可以提高数据分析和疾病预测过程的效率和准确度.
2数据分析模块与算法
2.1SVM算法SVM算法最初是由Vapnik等人在1995年提出的一种可训练的机器学习算法.依据统计学习理论、VC维理论和结构风险最小化理论,从一定数目的样本信息在学习能力和复杂度(对训练样本的学习程度)中找到最佳折中,以期望获得最好的推广能力(或称泛化能力).
2.2基于SVM的医疗数据分析模块将SVM分类算法应用到医疗数据分析模块中,进行疾病预测.基于SVM的医疗数据分析模块,通过数据交换模块获取原始组数据(患病病人医疗数据和对照组病人数据).通过特征选择过程输入到SVM分类器中进行训练,训练后可以对新的医疗数据进行分析预测.
3改进的医疗数据交换模块
3.1医疗数据交换模块在原始的医疗数据交换模块中,数据请求原语只由4条通信原语组成.由原始医疗数据分析模型的3个模块构建,其中在医疗数据分析模块与医疗数据提取模块之间的4条通信原语包括2条请求和2条应答.由于医疗数据的维度极大,属性很多,但是在预测某个疾病时,只有很少的一部分属性会对分类预测产生影响.这样的全部维度的数据都需要传输,浪费了时间,降低了数据传输效率,影响了医疗数据分析模块的算法效率.
3.2改进的医疗数据交换模块在改进的医疗数据交换模块中,在数据传输协议中增加了4条原语.在每条原语中不仅有医疗记录条数的要求,还包括对所请求医疗数据维度和属性的具体说明.医疗数据分析模块先请求一小部分全部维度的数据,对这小部分数据进行特征选择.然后医疗数据分析模块只请求特征选择出来的对预测相关的属性的剩余所有医疗数据.最后通过SVM分类算法进行训练和预测.在新的医疗数据交换模块中,大部分数据中只有小部分相关属性被传输到数据分析模块,极大地减少了数据传输总量,也同时增加了分析模块预测算法的效率.
4原始模型与改进模型的对比结果
对于使用数据的动机,除了对数据对象主体的认知识别之外,还有要对数据呈现的显性和隐性规律进行发现,从自然语言上看,脑力活动对数据处理的第一步就是降低数据间的差异化,进行熵减的分析行为。哲学家维特根斯坦认为,对于哲学本质的界定都属无法言说之物,应用到数据分析领域,数据存在一种由内而外的泛化惯性,不断对原有数据形成新的描述,造成数据阵营的扩张,而其信息主体则是稳定的,对描述性数据和活动数据存在吸附力,属于无法言说的本质最边缘。立足于这种思想观点,我们可以认为貌似松散无序的数据间存在一种牢固的血缘数据关系,因为所有数据都是基于信息主体泛化出的描述性和活动性数据,而这种熵减的动作其表现形式可以等同于对数据血缘关系的向上追溯,技术上则表现为一种寻找最大扇出的上层。这样,熵减的技术实现就是通过建立血缘关系而去寻找最大扇出的上层,这种分析法易于在数据发现应用中,通过检索建立模糊入口点去组织发现数据,其与扇出或扇入点的血缘关系越近,入口点对其的吸附力越强、权重越高。但这样会出现另一个无法回避的问题,即通过活动在最外界的数据从体量上看相当可观,由外到内追溯扇出上层的劳动比较沉重,从而会理所当然地采取抽样的方式进行,此项活动的进行必须假定数据世界观上层的有限集合认定上,坚信必定会将血缘关系归集到某几个关键数据表达之上,这样才会使本项活动的实施行为具备基本的意义和价值。从效果上看,对数据进行熵减有利于我们甄别数据关系隐含的内在规律,也有利于我们建立具有良好适应性的数据生态模型,为更好地认识和利用数据打下基础。可以合理畅想一下,当我们就一个焦点议题开展讨论后,熵减让我们迅速聚焦到议题的内核,甚至直面议题背后隐含的现象实质,不必纠缠于不必要的信息干扰,对讨论内核进行强化呈现,智力活动所崇尚的方式也可以在计算活动中得以体现。熵减在某种意义上不是对某一类数据分析所采取的手段,而是对数据认识的宏观行为,其在计算领域内的呈现方式,与我们对事物自然认知而采取的抽象和引申别无二致,如此深入下来,对熵减策略的研究更重要于对熵减活动的归纳,通过对策略模型的推演,可以有效地发挥机器学习的能力,如果在策略模型的研究上实施开展,将会极大降低加工难度。
2建立标签关系的反向工程
当我们框定了熵减的方法体系后,在数据间建立血缘关系则显得尤为重要,由于数据生长动力呈现由内而外的泛化驱动,但是本身这种泛化在信息化过程中很多是无组织的行为,缺少逻辑上预先定义,所以数据生成后,大量的数据关系被衰减掉,从正向渠道难以对数据关系建立血缘,工程极其浩瀚复杂。由于血缘关系无法完全在数据生长中自然形成,正向人工干预又存在操作难度,所以反其道而行之则是唯一通道。数据加工的反向性,优势首先体现在由微观到宏观的加工难度大幅下降,因为其工作处于抽象的最底层,使采用众包模式加工成为可能。其次,这种加工模式,可以在有效建立一种数据关系的闭环管理的同时,不会抑制数据生长的空间和速率,不会因加工效率低而凝固数据资产化的进程。在反向加工的过程中,需要通过标签联结数据关系,这时候我们要关注标签的质量和复用度,由于标签定义存在难度,所以要松绑标签定义来促成数据加工的快速实施,解决的重点则迁移到标签在后期管理中的智能化上。首先,可以通过标签在关系联结中的重复出现进行跟踪,识别是标签二义性还是加工者的活动差异。活动差异标签最基本的处理方法是进行聚合,形成知识归纳;二义标签则需要改进表达。其次,依赖血缘关系建立可视化图谱,从数据结构工程里可以有效识别关系路径的黏合点,即发现重复路径中出现的一个以上的标签,消除由知识结构差异造成的人为误会,对标签进行合并。这样,通过标签的智能化后期管理就可以将加工难度上移,建立分层加工的工厂模式。这种加工存在基本准则,并要建立基本的衡量尺度来保证标签有效性,加工工艺可以从标签质量、使用度、命中率等指标进行测量。其中,质量有赖于标签本身定义成分的内涵,要确认其被受众广泛理解;使用度是在加工活动中的使用次数,是否被数据关系广泛应用,使用度较低的标签要确认其存在价值,通过标签间同时出现概率决定其含义表达是否具备唯一性;命中率则建立在使用者的自然需要基础上,如果某一标签绝少被使用者利用或调度,与整体观测结果是否存在数值上的明显差异。整体上看,通过这些基本准则建立标签管理的异常检测分析,来保证加工质量的方式具备技术的可行性,但同时更需要对后期的数据运行建立领域指标模型来校验。
3利用词条原子化推导入口点
1.1资料来源
AEFI数据来源于中国疑似预防接种信息管理系统。疫苗接种数据来源于中国免疫规划信息管理系统。1.2统计方法采用描述性流行病学方法,运用EXCEL2007进行统计分析。
2结果
2.1地区分布
2013年鞍山市共报告AEFI189例,与2012年相比(35例)上升了440%。县级AEFI报告覆盖率100%。各县(市、区)AEFI报告数与2012年相比上升了55.56%~4200%。
2.2年龄与性别分布
男女性别比为1.49:1。报告例数排前位的年龄组分别是0岁组(101例,占53.44%)、1岁组(51例,占26.98%)、6岁组(23例,占12.17%)。
2.3疫苗和剂次分布
AEFI涉及的疫苗排前位的分别是:百白破疫苗(70例,占37.04%)、麻风疫苗(36例,19.05%)、白破疫苗(23例,12.17%)。接种疫苗第1剂次发生AEFI128例,占67.73%;第2剂次18例,占9.52%;第3剂次17例,占8.99%;第4剂次26例,占13.76%。以疫苗单剂次统计,AEFI涉及的疫苗排前位的分别是麻风疫苗(36例)、第4剂次百白破疫苗(25例)、白破疫苗(23例)、第1剂次百白破疫苗(22例)。
2.4报告发生率
根据国家免疫规划疫苗接种率监测报告数据估算,2013年我市AEFI报告发生率为32.27/10万剂次。国家免疫规划各疫苗AEFI报告发生率波动在3.82/10万剂次~125.28/10万剂次。报告发生率居前位的分别为:麻风疫苗125.28/10万剂次,白破疫苗84.57/10万剂次,百白破疫苗65.17/10万剂次。
3讨论
「关键词人口迁移/户籍制度/市场化改革
改革以来中国发生的大规模人口迁移,是制度变迁和经济转型共同作用的结果。中国传统的计划经济体制是围绕推行重工业优先发展战略而形成的。在资本稀缺的经济中,推行资本密集型重工业优先发展战略,不可能依靠市场来引导资源配置,因而必须通过计划分配的机制把各种资源按照产业发展的优先序进行配置。由此,以资本和劳动力为代表的资源或生产要素,既无必要,也不允许根据市场价格信号自由流动,因此,随着20世纪50年代这种发展战略格局的确定,一系列相关制度安排把资本和劳动力的配置,按照地域、产业、所有制等分类人为地“画地为牢”,计划之外的生产要素流动成为不合法的现象。其中把城乡人口和劳动力分隔开的户籍制度,以及与其配套的城市劳动就业制度、城市偏向的社会保障制度、基本消费品供应的票证制度、排他性的城市福利体制等,阻碍了劳动力这种生产要素在部门间、地域上和所有制之间的流动。在这种制度下,不存在劳动力市场,农村居民没有政府的许可不可能向城市流动,劳动和人事部门通过计划来控制劳动力跨部门流动。
1978年底开始的农村家庭承包制改革,使农户成为其边际劳动努力的剩余索取者,从而解决了制度下因平均分配原则而长期解决不了的激励问题(meng,2000)。与此同时,政府开始对价格进行改革,诱导农民提高农业生产率。在农业剩余劳动力被释放出来后,非农产业活动更高的报酬吸引劳动力转移(cook,1999),从而推动农村生产要素市场的发育,原来主要集中在农业的劳动力开始向农村非农产业、小城镇甚至大中城市流动。
由于各种阻碍劳动力流动的障碍尚未拆除,以及政府鼓励农村劳动力就地转移的政策引导,20世纪80年代前期的劳动力转移以从农业向农村非农产业转移为主,主要是在乡镇企业中就业,即所谓的“离土不离乡”。但随着乡镇企业遇到来自国有企业、“三资”企业和私人企业越来越强劲的竞争,必须提高技术水平和产品质量,因而乡镇企业资本增加的速度逐渐加快,吸纳劳动力的速度相应减缓。农村劳动力面临着越来越强烈的跨地区转移的压力。与此同时,外商投资企业、中外合资企业、私营企业和股份公司等其他非国有部门在东部地区发展较快,扩大了对劳动力需求,并成为消除制约劳动力流动体制障碍的一支重要力量。
随着农村劳动力就地转移渠道日益狭窄,1983年政府开始允许农民从事农产品的长途贩运和自销,第一次给予农民异地经营以合法性。1984年进一步放松对劳动力流动的控制,甚至鼓励劳动力到临近小城镇打工。1988年中央政府则开了先例,允许农民自带口粮进入城市务工经商。到20世纪90年代,中央政府和地方政府分别采取一系列措施,适当放宽对迁移的政策限制,也就意味着对户籍制度进行了一定程度的改革。例如,许多各种规模的城市很早就实行了所谓的“蓝印户口”制度,把绝对的户籍控制变为选择性地接受。此外,1998年公安部对若干种人群开了进入城市的绿灯,如子女可以随父母任何一方进行户籍登记,长期两地分居的夫妻可以调动到一起并得以户籍转换,老人可以随子女而获得城市户口,等等。虽然执行时在一些大城市遇到阻力,但至少在中央政府的层次上为户籍制度的进一步改革提供了合法性依据。城市福利制度的改革也为农村劳动力向城市流动创造了制度环境。80年代后期开始逐步进行的城市经济改革,如非国有经济的发展,粮食定量供给制度的改革,以及住房分配制度、医疗制度及就业制度的改革,降低了农民向城市流动并居住下来和寻找工作的成本。
与其他方面的政策改革相比,户籍制度改革在很长时间里没有实质性的突破,成为劳动力流动的最大障碍。所有在就业政策、保障体制和社会服务供给方面对外地人的歧视性对待,都根源于户籍制度。随着时间推移,两方面的因素变化推动政府对迁移政策进行改革。一是城市户籍制度不再拥有外部或隐含的福利,也就是地方政府不再根据个人的户籍来提供就业、社会福利等各方面保障。这样,城市人口规模扩张不会给地方政府增添额外财政负担。二是地方政府意识到,劳动力流动不仅带来资源重新配置,而且也是城市融资的一个重要来源。这样,市场化发育水平相异的城市根据各自目标来推进城市户籍制度改革。
可见,通过户籍制度及一系列其他阻碍人口迁移的制度因素的改革而推动的劳动力流动,不仅是经济发展的一个重要内容,也是整个经济体制向市场机制转变的重要进程,并且以其他领域改革的进展为前提。这个转变或改革的结果便是劳动力市场的形成与发育,劳动力资源越来越多地由市场来配置。而在整个经济不断市场化的过程中,人口迁移也表现出转轨时期的特点。这是中国转轨时期人口迁移的特殊性所在。本文旨在利用2000年人口普查资料来分析人口流动与市场化之间的关系。
一、转轨时期人口迁移理论
人口和劳动力在地区间的流动,是劳动力市场在空间上从不均衡向均衡转变的过程。发展中国家在其经济发展过程中,伴随着工业化和城市化发展,大量农村人口和劳动力从农村流向城市,从低生产率的农业部门流向生产率较高的工业部门。刘易斯(lewis,1954)认为,发展中国家存在着典型的二元经济结构,农村存在着大量剩余劳动力和隐蔽性失业,农业中劳动力的边际生产力几乎等于零或为负值,农村劳动力从农业部门流出不会对农业产出带来负面影响,反而使留在农业部门劳动力的边际产出不断提高;随着城市中劳动力数量不断增加,城市工资水平开始下降,直至城市部门的工资水平与农业部门的工资水平相等,农村劳动力向城市流动才会停止。在刘易斯的模型中,劳动力在城乡之间可以自由流动,不存在显著的制度。城市现代部门的较高工资水平和传统农业部门的低工资水平,是劳动力在城乡之间流动的驱动力量。在托达罗(todaro,1969;harris和todaro,1970)两部门模型分析中,农村人口和劳动力的迁移取决于城市的工资水平和就业概率,当城市的预期收入水平和农村的工资水平相等时,劳动力在城乡之间分配和迁移都达到均衡。
由于城市经济存在着现代正规部门和非正规部门之分,农村劳动力向城市迁移首先进入非正规部门,然后才有可能进入正规部门就业。城市正规部门就业创造率越大,越有利于将更多的非正规部门劳动力转入正规部门;城乡收入差距越大,从农村流向城市非正规部门劳动力数量越多,城市非正规部门劳动力规模也越大。由于城市正规部门的就业创造率取决于工业产出增长率及该部门的劳动生产率增长率,城市工业的快速增长将有利于提高正规部门的就业创造率,从而减少城市非正规部门的劳动力规模。但是,这个效应有可能被城市工资增长所诱发的大量新增农村劳动力流入所抵消。因此,城市正规部门的就业创造结果带来了城市失业率的上升。
费尔茨(fields,1974)认为,托达罗模型中没有考虑农村劳动力在城市正规部门寻找工作的概率问题。由于非正规部门劳动力获得正规部门就业机会的相对概率较低,流入城市的农村劳动力大多数只能滞留于非正规部门。他们之所以能够接受较低的工资水平,主要是在于他们预期能够从得到的城市正规部门工作机会中获得补偿。在托达罗模型基础上,费尔茨引入了搜寻工作机会的观点,一方面强调了城市制度工资和相对就业概率对迁移过程的影响,另一方面也指出,非正式部门大量不充分就业的劳动力保证了劳动力市场实现均衡时的失业率低于托达罗模型得出的估计。非正式部门大量不充分就业的劳动力存在,在一定程度上缓解了城市的失业问题。
随着劳动力流动,城乡劳动力市场开始相互作用。但是,根据托达罗理论,城市失业率上升将起到减缓人口继续向城市迁移。如果依据费尔茨的观点,城市劳动力市场似乎对农村劳动力流动的影响不大。相比之下,在成熟的市场经济中,城市的失业率是影响劳动力流动的重要因素。托普尔(topel,1986)利用美国人口普查资料研究发现,1970~1980年,美国东部、中部和北部各州的平均失业率相对于全国水平上升了23%,同时西部和西南部各州的失业率却显著下降。同期,人口迁移的空间流向恰好与此相反,人口净流入地区为西部和西南部地区,东部、中部和北部均为人口净流出地区。
中国的人口迁移不仅具有发展中国家的一般特征,而且还有经济体制转型的独特之处。如前所述,中国特有的户籍制度及其改革过程,为人口和劳动力自由流动和择业提供了制度基础,这也是研究其他国家人口迁移的理论没有遇到过的问题。随着时间的推移,包括户籍制度在内的各项市场化改革措施必然对人口与劳动力迁移产生显著影响。同时,城市就业环境变化也为我们观察城乡劳动力市场的相互作用提供了条件。
首先,不仅是城乡之间、地区之间的收入差距驱动人口的迁移,市场化水平在城乡和地区间的差异也直接影响农村劳动力迁移决策,从而形成特定的迁移流向。在经济发展的初期,资本相对稀缺而劳动力相对丰富。因此,中国经济的比较优势在劳动密集型产业。在20世纪80年代以前的经济增长模式下,由于政府采取人为扭曲资金价格的方式,在资金密集型产业上投资过多,抑制了具有比较优势的劳动密集型产业的发展,导致产业结构的扭曲,资源配置效率的损失。经济改革以来,通过一系列制度变革,资源配置逐渐转向劳动力较为密集的产业,较好地发挥了中国劳动力资源丰富的比较优势。产品和生产要素市场的发育带来了资源重新配置效率的改善,对经济增长做出了重要的贡献(cai等,2002)。由于生产要素市场发育上在地区之间不平衡,这种资源重新配置的效果主要体现在沿海地区。2000年,92.1%进出口贸易集中在东部地区,中西部地区分别为4.3%和3.6%.同年,86.5%的外商直接投资集中在东部地区,中西部地区分别为8.9%和4.6%.因此,劳动力迁移在东部地区更为活跃,迁移的流向也以从中西部地区向东部地区为特征。
其次,正如在其他国家观察到的那样,较大的迁移距离增加了交通成本、弱化了社会网络关系和目的地的就业信息,减少了迁移者的收益预期,因此,迁移距离上升降低了迁移发生概率。工作的不稳定性和信息获得的不确定性,不仅造成了迁移流向是一个从县内流向县外,从省内向省外的渐进过程,而且使得亲友等社会网络成为迁移者获得非正规部门就业信息的主要方式。格林伍得(greenwood,1969)认为,迁移存量对人口在地区之间迁移扮演着社会网络的作用。先前的迁移可以为后来者提供信息和其他方面的帮助,减少迁移风险,从而对后期的迁移产生影响。蔡fǎng@①(cai,1999)研究发现,75.8%的省内迁移者、82.4%的跨省迁移者的就业信息获得是通过住在城里或在城里找到工作的亲戚、老乡、朋友获得的。因此,农村劳动力向城市流动通常受到距离所反映出的社会网络强弱的限制,形成分阶段迁移。
第三,尽管户籍制度继续阻隔着农村劳动力向城市迁移,但市场化改革使得城乡劳动力市场开始融合,城市就业环境变化必然对农村劳动力向城市流动带来影响。随着国有企业亏损和非国有部门扩大,越来越多的原国有企业职工开始和迁移者在非正式部门展开就业竞争。在这种情况下,农村劳动力“是走还是留”,取决于正式部门和非正式部门的就业状况,而且其决策通常是暂时的,而不是长期的。这与harris和todaro(1970)模型中所讨论的情况(迁移者在非正式部门临时就业、等待得到正式部门就业机会),以及sethuraman(1981)观察到其他发展中国家的情况(大多数迁移者将他们在非正式部门就业视为永久性的)都有显著差异。一个普遍观察到的现象是,中国农村劳动力向城市和发达地区流动,通常具有季节性特点,最多以年为单位在原住地和迁入地之间往返,呈现出“钟摆式”的流动模式。正如solinger(1999)指出的那样,城市对农村劳动力的大量需求是推进户籍制度改革的必要条件。在非国有经济、特别是外商投资较快的地区,市场力量日益显现,迁移受到鼓励。
二、空间分布特征变化
1990年以来,中国地区收入差距进一步扩大,吸引了中西部地区劳动力向东部地区流动。同时,要素市场发育及资源配置市场化程度,对地区经济增长越来越起着主导性的作用。东部地区不仅对外开放时间早,而且市场发育迅速,较高的市场化水平不断消除了劳动力等要素跨地区间流动的制度,以至成为劳动力流动的主要吸纳地区。而劳动力向东部地区流动反过来也推动了该地区的经济增长,改善了劳动力资源配置效率(cai等,2002)。表1显示了人口迁移空间分布状况的长期变化。1987~2000年,人口迁移的空间分布特征是:地区内部迁移(其中主要是省内迁移)比例始终高于地区间的迁移比例。但地区内部和地区之间的迁移比例则随着时间不断发生变化。东部地区内部迁移比例提高,东部地区流向中西部地区的比例下降。而中西部正好与此相反,中部和西部地区内部迁移比例趋于下降,中部向西部、西部向中部的迁移比例也在下降,而中西部向东部地区流入比例不断上升。
注:(1)从统计口径上看,1987年迁移数量包括迁入时间在半年以上的市、镇和县之间的迁移人口;1990年迁移数量包括迁入时间在1年以上的市、县之间的迁移人口;1995年迁移数量包括迁入时间在半年以上的市,区、县之间的迁移人口;2000年迁移数量包括迁入时间在半年以上的乡、镇、街道之间的迁移人口。(2)全部迁移人口包括地区内部和地区之间的人口迁移,不同年份在迁移时间规定和迁移范围上的差别对地区之间分布会带来一定影响。尽管如此,我们仍可以比较不同年份之间迁移流向的变化。
资料来源:《1987年全国1%人口抽样调查资料》、《1995年全国1%人口抽样调查资料》、《中国1990年人口普查资料》、《中国2000年人口普查资料》。
根据2000年第五次人口普查的10%资料显示,全部迁移人口数量为1246万,占总人口的10.6%,其中省内迁移为7.7%、跨省迁移为2.9%.在总迁移人口中,省内迁移的比重始终很高,为73.4%.当我们描述跨省迁移的流向时,其主要以东部地区为迁移目的地的倾向更加明显。表2给出了三类地区跨省迁移比例的空间交叉分布。2000年,东部地区跨省迁移近65%集中在东部其他各省(市),中部地区跨省迁移超过84%集中在东部地区,西部地区跨省迁移超过68%集中在东部地区。从时间趋势上看,1987~2000年,东部地区内部跨省迁移比例上升了近15%,而中西部地区向东部地区迁移比例上升将近24%,后者比前者高出9个百分点。
从流动的出发地和目的地看,迁移可以被划分为城市到城市的迁移、城市到农村的迁移、农村到农村的迁移和农村到城市的迁移四种主要类型。从这种类型划分来观察地区间迁移的流向,也有助于我们理解转轨时期中国人口迁移的特点。从全国来看,城市到城市的迁移和农村到城市的迁移是目前迁移的主要形式。2000年,两者合计占总迁移人口的77.9%,而且农村到城市迁移的比重(40.7%)大于城市到城市的迁移(37.2%)。农村到农村的迁移比重较低,仅占全部迁移的18.2%.而城市到农村的迁移比例最低,不到总迁移人口的1/25.从时间趋势看,城市到城市的迁移所占比重,在东部、中部和西部三类地区都呈现上升趋势,而农村到城市的迁移比重略呈下降趋势。
三、迁移的决定因素:计量分析
在迁移决定因素的实证分析中,早期的迁移模型将重力迁移模型和就业为目的的迁移模型合二为一,假定迁移数量不仅与迁入地和迁出地的人口和迁移距离有关,而且取决于两个地区之间的工资和失业率的比较。通常,采用下列双对数模型来分析这些因素对迁移流向的影响(lowry,1966;greenwood,1969;fields,1979)。即:。式中,m为迁移率,x为影响迁移流向的各种因素,d为迁移距离,i,j分别为迁出地和迁入地。
舒尔茨(schultz,1982)认为,人口变量反映的是其他影响迁移而没有在模型出现的社会经济变量的作用,它没有行为学上的意义。由于迁移是人口增长的一部分,在迁移实证模型中引入人口规模会带来计量上的共同偏差(fields,1979)。而且,由于迁移存量实际上是人口规模的一部分,如果在实证模型中同时引入这两个变量,将带来严重的多重共线问题,大大降低回归参数估计的效率。因此,通常做法是在实证模型中不引入人口变量。
在回归方程的函数形式选择上,费尔茨(fields,1979)认为,迁移决策本质上是在相互排斥的替代方案之间的一种选择,非对称模型比对称模型对人口迁移具有更强的解释能力。此外,双对数线性回归方程还能够消除奇异值和异方差对估计效率的影响,满足理论上就业机会与工资之间的乘积要求,以及提高回归方程的拟合程度等。他选择了滞后解释变量办法来消除解释变量的内生性问题。我们也采用了所有解释变量数据均为1995年数据的办法来解决迁移模型的内生性问题。
本文数据来自2000年第五次全国人口普查长表资料(10%样本)和微观数据(长表1%样本),1995年全国1%人口抽样调查资料及国家统计局《中国统计年鉴(1996)》。在数据处理上,正式出版的第五次人口普查长表资料没有农村向城市跨省迁移劳动力数量及其失业率数据,我们利用第五次全国人口普查的微观数据计算了这些数据。用于回归分析变量的统计值见表3.
表3用于回归分析变量的统计值
注:*根据微观数据计算。
迁移率的计算,我们采用格林伍得(greenwood,1969)的定义,用1995年11月1日至2000年10月30日从省迁到省的人口数,除以1995年11月1日以前住在省的人口数。根据长表计算得到的迁移率,包括了所有年龄段跨省农村到城市、城市到城市、农村到农村、城市到农村的四种类型迁移人口;用微观数据计算15~64岁农村劳动力向城市的迁移率。按照这种方法计算得到的两个迁移率的平均值都不高(见表3)。
迁移距离为省会之间铁路公里数。中国地域辽阔,铁路是中国跨省迁移的主要交通方式。这点可以从每年春节农民工返乡造成的铁路拥挤状况中得到印证。迁移距离不仅反应了用于直接交通费用的高低,而且在一定程度上代表了迁移所带来的心理成本大小。随着迁移距离增加,迁移带来的不确定性和迁移风险也会上升,迁移成本随之增加(schultz,1982;greenwood,1975)。这在劳动力市场不发达的情况下尤其如此。
直接用城市工工资收入和农村人均纯收入来作为工资率的变量显然不合适。随着收入多元化,相当于实际收入的部分并没有反映到名义收入之中,城乡收入在可比性上也存在一定问题(solinger,1995;jefferson,1992)。奥尼尔(o''''neill,1970)建议采用消费指标来克服收入指标作为工资率变量上的不足。我们利用各省城乡人口作为权重,对城乡居民人均消费支出进行加权平均,作为各省的工资率变量,预期工资率对迁移流向存在两种不同的效应。其中,迁入地为正向效应,而迁出地为负向效应。
1995年全国1%抽样调查和第五次人口普查都对城乡劳动力的就业状况进行了统计。1995年调查问卷中有三项指标用来测度劳动力在调查前一周是否处于失业状态:第一项是从未工作正在找工作,第二项是失去工作正在找工作,第三项是企业停产等待安置的劳动力。2000年人口普查只包括前两项。据此可以计算得到1995年和2000年城乡劳动力的失业率,分别为2.2%和3.6%.由于城乡劳动力的失业率包括了农村劳动力,这低估了城市劳动力市场的就业状况。《中国2000年人口普查资料》公布了分城市、镇和农村的经济活动人口资料,据此计算的城市、镇和农村的失业率分别为9.4%、6.2%、1.2%.利用2000年微观数据计算的城市本地劳动力、城市向城市迁移劳动力、农村向城市迁移劳动力的失业率,分别为9.1%、7.9%和3.6%.如果在迁移模型中忽略了迁移存量,将导致高估其他解释变量对迁移的影响(greenwood,1969)。按照格林伍得的方法,迁移存量应该是以1995年为时点,计算出生在省且居住在省的所有人口。由于中国人口普查资料只提供了出生后一直住在本地和1995年11月1日之前迁入本地等资料,因此,我们采用1995年11月1日之前迁入本地人口指标作为迁移存量的变量。本文中长表的迁移存量包括所有人口,微观数据的迁移存量只包括15~64岁的人口。我们预期迁移存量对人口迁移有正向效应。
在分析地区人均收入差异和经济增长中,贸易开放程度通常被看做是影响地区收入增长的重要因素(barro和sala-i-martin,1995;cai等,2002)。贸易开放程度越高,参与国际市场一体化程度也越高。但是,扭曲的贸易和发展战略也同样起到扩大出口,提高gdp中的贸易份额比重。相比之下,外商直接投资是国外投资者的选择。从长期来看,为了获得最大利润和规避风险,国外企业在其投资过程中要对各地的产品和要素市场发育情况、体制与政策的透明度等因素进行综合考虑,并最终做出投资选择。外资企业进入之后,它利用劳动力市场来解决用人需求,这与国有企业的人事制度形成鲜明对比。因此,我们选择了外商直接投资作为市场化程度的变量,来分析它们对人口迁移的影响。改革以来,虽然所有省份的外商直接投资数量都在增加,但东部地区与中西部地区之间的差异在不断扩大。中国人口迁移流向分布主要集中在东部地区,这与东部地区对市场化改革程度较高是分不开的。四、回归结果与讨论
方程1~3是利用第五次人口普查长表资料得到的回归结果,方程4、5是利用第五次全国人口普查微观数据得到的回归结果。由于海南、重庆、与其他省会之间距离未能得到,在回归中剔除了这3个地区,长表资料中实际用于回归的样本数量为756个。在微观数据中,由于有些省份的迁移率或农村向城市迁移劳动力数量为零,取对数后,这些数据变成缺省值,所以用于回归的样本数量为506个。
从表4回归结果看,利用长表资料得到的回归方程,解释了大约60%的所有人口跨省迁移的行为;用微观数据得到的回归方程,解释了大约30%的跨省农村劳动力向城市迁移的行为。表4的非对称双对数迁移模型估计结果也表明,迁入地社会经济变量对人口迁移的影响大于迁出地这些变量所发挥的作用。
回归方程1~5中大多数解释变量的回归系数t值,如迁移距离、人均消费水平、失业率、迁移存量等,都达到了1%或5%的显著性水平,并且作用方向上与前面的理论预期结果也基本一致。
表4中回归方程1和2的区别是采用了不同的失业率数据,前者是1995年的失业率,后者是2000年的失业率。使用1995年失业率数据虽然有助于克服内生性问题,但方程1中迁出地失业率回归系数的绝对值大于迁入地失业率回归系数的绝对值,这个结果可能与现实情况并不吻合。
1995~2000年,中国城市就业环境发生了急剧变化。伴随着国有企业改革和城市社会福利体制改革,企业大量富余人员被释放出来,城市失业率迅速上升。为了解决本地城市职工就业问题,不少地方政府采取了城市就业保护政策,这势必对以就业为目的的劳动力流动产生较大影响。迁移者是理性的,如果目的地的就业机会较小,迁移者将选择不流动,以减少迁移风险和成本。这样,迁入地的就业机会就显得更为重要。
表4迁移决定因素回归结果
注:(1)采用异方差检验方法(breusch-pagan/cook-weisberg)发现,表中回归方程的依次为:7.85、1.54、1.38、2.80、4.85.我们对回归方程1、5采用robust估计来消除异方差的影响。(2)方程1和5的括号内为robustt值,方程2~4括号内为t值,*代表5%显著性水平,**代表1%显著性水平。
考虑到2000年失业率真实地反映了就业环境的变化,我们以回归方程2为基准,分析不同因素对迁移的影响,并进行比较。在其他条件不变的情况下,迁移距离上升1%,迁移率下降1.08%.受迁移距离的影响,2000年跨省迁移人口比例不到30%,绝大多数迁移人口选择了省内流动。迁移距离在空间位置上是固定的,但改善交通运输条件和制定合理的交通价格有利于减少迁移者的迁移成本,促进劳动力流动。
在做迁移决策时,潜在的迁移者不仅要考虑两地之间直接的收入差距,而且还要考虑到就业机会大小。在回归方程2中,迁入地人均消费水平回归系数在绝对值上是迁出地的近4倍,但迁入地失业率回归系数在绝对值上是迁出地的3倍以上。迁入地失业率对迁移决策较大的边际影响与迁移者面临的选择有关。本地劳动力市场状况是既定的,迁移者对它别无选择。相反,迁移者对迁入地劳动力市场是可以进行选择的,失业率越高的地区,迁入数量就会下降。
目的地的就业信息提供和帮助,对迁移决策有重要作用。迁移存量的回归系数也证实了这一点。社会网络等非正规信息渠道虽然在迁移中发挥着重要作用,但随着人口流动规模扩大,加快劳动力市场信息体系建设就显得非常重要。
将外商直接投资变量引入回归方程2,就得到回归方程3.引入这个变量之后,迁移距离和失业率等解释变量的回归系数及其显著性变化不大,而人均消费水平的回归系数及其显著性发生较大改变。从绝对值来看,方程3中的人均消费水平回归系数小于回归方程2中的回归系数估计值,迁出地人均消费水平的回归系数显著性有所下降,主要是人均消费水平与外商直接投资之间存在较高相关关系导致的结果(注:人均消费水平与外商直接投资的相关系数为0.56.)。跨省人口迁移比例主要分布在东部地区,它与外商直接投资之间存在较强的相关关系(注:外商直接投资与迁移存量之间的相关系数为0.76.),引入外商直接投资变量之后,迁移存量的回归系数数值下降约50%.为了观察城市劳动力市场对农村劳动力迁移决策的影响,我们利用微观数据做进一步分析。回归方程4引入了农村迁移劳动力的失业率,回归结果进一步支持上述发现,即迁入地的就业机会对迁移者来说更为重要。回归方程5引入了城市劳动力失业率。结果表明,城市失业率对于农村劳动力跨省迁移率有显著性影响,其回归系数在绝对值上不仅大于回归方程4中失业率的回归系数,而且大于回归方程2中的回归系数,这说明城市劳动力市场就业形势确实对农村劳动力的迁移决策有重要作用。改善城市就业环境将有利于促进农村劳动力流向城市,起到加速城市化的作用。
五、结论
20世纪80年代以来在中国出现的大规模人口迁移现象,不仅具有发展中国家从落后的农业经济向工业经济转变的一般特征,还具有从计划经济向市场经济转变的特殊性。将二者结合在一起,既有助于考察中国独特的制度特征对人口迁移的影响,又能够通过对中国案例研究来拓展迁移理论。
经济发展水平和市场发育程度在地区之间的不平衡,决定了人口迁移的基本方向不仅是从农村向城市的迁移,而且是从中西部地区向东部地区的迁移。既然中国经济的进一步增长仍然有赖于从生产要素市场发育从而劳动力流动中获得资源重新配置效率(注:约翰森(johnson,1999)认为,在今后30年,如果迁移障碍被逐渐拆除,同时城乡收入水平在人力资本可比的条件下达到几乎相等的话,劳动力部门间转移可以对年经济增长率贡献2~3个百分点。),加快中西部地区市场制度的建设,特别是清除阻碍劳动力市场发育的各种制度,可以引导和规范人口迁移,使其不仅具有微观理性,而且具有更加理性的宏观后果。市场化改革措施(如扩大外商直接投资和对外贸易等)所带来的经济发展将有助于获得“一石二鸟”的功效,也就是讲,它为劳动力流动不断营造同样的发展环境,并在创造就业机会的同时,推进城乡户籍制度改革。
「作者简介蔡昉中国社会科学院人口与劳动经济研究所所长、研究员;王德文中国社会科学院人口与劳动经济研究所,副研究员。
「参考文献
1.中国社会科学院人口研究所(1988):《中国74城镇迁移抽样调查(1986)》,《中国人口科学》编辑部。
2.国家统计局(1988):《1987年全国1%人口抽样调查资料》,中国统计出版社。
3.国家统计局(1997):《1995年全国1%人口抽样调查资料》,中国统计出版社。
4.国务院人口普查办公室(1993):《中国1990年人口普查资料》,中国统计出版社。
5.国务院人口普查办公室(2002):《中国2000年人口普查资料》,中国统计出版社。
6.barro,r.&x.sala-i-martin(1995),economicgrowth.newyork:mcgrawhi,inc.
7.cai,fang(1999),spatialpatternsofmigrationunderchina''''sreformperiod,asianandpacificmigrationjournal,vol.8,no.3.
8.cai,fanganddewenwang(1999),sustainabilityofeconomicgrowthandlabourcontributioninchina,journalofeconomicresearch,no.10.
9.cai,fang,dewenwangandyangdu(2002),regionaldisparityandeconomicgrowthinchina:theimpactoflabormarketdistortions,chinaeconomicreview,13,197-212.
10.cook,sarah(1999),surpluslaborandproductivityinchineseagriculture:evidencefromhouseholdsurveydata,thejournalofdevelopmentstudies,vol.35,no.3:16-44.
11.fields,g.s.(1974),rural-urbanmigration,urbanunemploymentandunderemployment,andjob-searchactivityinldcs,journalofdevelopmenteconomics2,165-187.
12.fields,g.s.(1979),placetoplacemigration:somenewevidence,reviewofeconomicsandstatistics,vol.61,issue1,21-32.
13.greenwood,j.michael(1969),ananalysisofthedeterminantsofgeographiclabormobilityintheunitedstates,reviewofeconomicsandstatistics,vol.51,issue2,189-194.
14.greenwoodj.michad(1975),researchoninternalmigrationintheunitedstates:asurvey,journalofeconomicliterature,vol.13,issue2,397-433.
15.harris,j.,andm.todaro(1970),migration,unemploymentanddevelopment:atwosectoranalysis,americaeconomicreview40,126-142.
16.jefferson,g.h.andt.g.rawski(1992),unemployment,underemploymentandemploymentpolicyinchina''''scities,modernchina,18(1),42-71.
17.johnson,d.gale(1999),agriculturaladjustmentinchina:thetaiwanexperienceanditsimplications,officeofagriculturaleconomicsresearch,theuniversityofchicago.
18.leweis,w.a.(1954),economicdevelopmentwithunlimitedsuppliesoflabor,themanchesterschoolofeconomicandsocialstudies22,139-191,reprintedina.n.agarwalaands.p.singh(eds.),theeconomicsofunderdevelopment.bombay:oxforduniversitypress,1958.
19.lin,j.yifu,fangcai,andzhouli(1996),thechinamiracle:developmentstrategyandeconomicreform,hongkong:chineseuniversitypress.
20.lowry,i.s.(1966),migrationandmetropolitangrowth:twoanalyticalmodels.sanfrancisco:chandlerpublishing.
21.meng,xin(2000),labormarketreforminchina,cambridge,uk:cambridgeuniversitypress.
22.o''''neill,j.a.(1970),theeffectofincomeandeducationoninter-regionalmigration,unpublishedph.d.dissertation,columbiauniversity.
23.schultz,t.paul(1982),lifeiimemigrationwithineducationalstratainvenezuela:estimatesofalogisticmodel,economicdevelopmentandculturalchange,30(3),559-594.
24.solinger,d.(1995),thechineseworkunitandtransientlaborinthetransitionfromsocialism,modernchina,21(2),155-183.
25.solinger,d.(1999),citizenshipissuesinchina''''sinternalmigration:comparisonswithgermanyandjapan,politicalsciencequarterly,vol.114,no.3,455-478.
26.s.v.sethuramaned.(1981),theurbaninformalsectorindevelopingcountries,geneva:internationallaboroffice.
整个系统以广电大数据分析平台为基础构建,系统由数据采集系统、数据分析中心、三个数据应用中心(推荐中心、决策中心和服务中心)组成和系统管理模块组成。
1.1数据采集系统
大数据时代,大数据有着来源复杂、体量巨大、价值潜伏等特点,这使得大数据分析必然要依托计算机技术予以实现.因此从两个方向上加强数据采集统建设,一是侧重于数据的处理与表示,强调采集、存取、加工和可视化数据的方法;二是研究数据的统计规律,侧重于对微观数据本质特征的提取和模式发现,在两个方向上的协同、均衡推进,以此来保障大数据平台应用的稳健成长和可持续发展.广电的网络和用户是其核心资产,而其中流动的数据(包括用户基础数据、网络数据、网管/日志数据、用户位置数据、终端信息等)是核心数据资产.对于广电运营商来说,最有价值的数据来自基础网络,对于基础网络数据的挖掘和分析是运营商大数据挖掘的最重要方向.因此其数据采集的目标包括机顶盒数据、CRM数据、帐务数据、客服数据、运维数据、媒资数据、GIS数据、财务数据和其他手工录入、表格数据.采集频率要求可以实现实时采集和定时批量采集.采集这类数据带来一个问题就是各类数据杂乱无章,会导致数据质量问题越来越严重,通过引进实时质量监控和清洗技术,建设强大的分布式计算和集群能力,提高数据监控和数据采集性能,利用分布式处理技术,实现数据抽取、数据清洗以及相应的数据质量检查工作,保证采集到高质量的数据,将广电大数据中心建设成一个覆盖广电系统全部数据的存储中心,具备采集各类结构化、非结构化海量数据的处理能力.
1.2数据分析中心
广电企业每时每刻都在产生大量的数据,需要对这些数据归集、提炼,广电企业大数据平台建设的意义在于有效掌握规模庞大的数据信息,对这些数据信息进行智能处理,从中分析和挖掘出有价值的信息.在广电大数据分析中需要对直播节目分析、互动业务分析、互联网流量分析、互联网内容分析、广电客户分析、市场收益分析、智能内容推送和广告分析等,通过这类数据分析,能够实时了解广电运营商的经营状况,提供决策支持.因此采用两种方式分析方法对收集到的数据进行分析处理.一是采用在线分析方法技术,使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的.这些信息是从原始数据直接转换过来的,他们以用户容易理解的方式反映企业的真实情况.在线分析策略是将关系型的或普通的数据进行多维数据存贮,以便于进行分析,从而达到在线分析处理的目的.这种多维数据存储可以被看作一个超立方体,沿着各个维方向存贮数据,它允许分析人员沿事物的轴线方便地分析数据,分析形式一般有切片和切块以及下钻、挖掘等操作.二是数据挖掘是从海量、不完全的、有噪声的数据中挖据出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则.这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,可以为经营决策、市场策划和金融预测等方面提供依据.
1.3数据应用中心
在大数据分析平台应用过程中,数据本身并不是数据分析和数据挖掘的重点,重点在于如何应用这些技术去解决企业在运营中实际的商业问题.通过对数据分析和挖掘,了解企业运行过程存在问题,预判企业中各类业务发展走向.对数据分析与挖掘结果来说主要有两个方面,一是将分析结果给客户使用,另一个是将分析结果提供给内部用户使用,因此在大数据分析平台设计中,将数据应用划分为三个应用中心:
1)推荐中心
推荐中心面向收视、宽带使用用户,通过分析使用用户的收视、互联网、消费等行为,将使用用户分群,总结群体特征,向不同群体推荐个性化的电视节目、广告和增值应用服务.从而提升用户的使用体验,提升用户的满意度和粘度.
2)决策中心
决策中心面向广电企业内部决策者、管理者、经营分析人员,通过对企业经营数据的KPI、运营监控、经营盘点,使企业决策者掌握企业运营状况及发展趋势;智能报告协助分析人员自动定位经营中的问题;即席查询在预定义的语义层基础上,实现灵活的自定义查询;通过主题分析满足各部门、岗位的多维度分析需求;通过专题分析就某一具体问题进行深入挖掘,辅助专业分析人员的工作;统计报表满足各部门常规统计需求.
3)服务中心
服务中心面向广电的合作伙伴,比如:电视台、广告商、服务和内容提供商、相关政府职能部门等.通过对使用用户收视行为的实时分析,将电视栏目实时收视率提供给电视台,电视台根据收视率进行在线的问卷调查,提高电视台的影响力,帮助其增强栏目的评价体系.为广告商提供精准的广告投放策略,实时准确的广告投放评估,帮助广告商提升广告到达率、准确度和营销效果.为服务和内容提供商的电影、电视和增值应用等产品提升收视率和使用频率,并进行评估,为其提供受众喜好特征,帮助其推出有针对性的产品.通过用户收视数据、节目反馈等信息,将相关舆情向相关政府部门汇报.
1.4系统管理
系统管理是大数据分析平台一个辅助功能模块,主要是为了系统管理员对大数据平台进行有效的监控和管理,提升大数据分析平台性能使用,包含有如下几个模块:权限管理、数据质量管理、元数据管理、调度管理、系统监控等.
2数据应用分析
移动互联网的发展为传统行业带来了新的思考,如何在互联网时代更好地实现以客户为中心的服务理念,借助大数据分析平台、海量的客户非结构化的行为数据和传统的结构化数据,可以有效提升广电个性化、人性化的服务水平.大数据分析平台通过整合广电网络中多个数据源,并按照主题进行划分,在定义主题的过程中,提供广电业务概念的规范定义.数据模型不偏重于面向某个应用,而是站在企业角度统揽全局,提供可扩展的模型设计,偏范式化的设计使平台在最大程度上保持一致和灵活扩展性.依托某广电网络公司业务开展情况,搭建数据分析平台,具有如图2所示的主题结构,共计8大类53小类,从广电网络运营的各个方面进行了数据分析.
2.1直播节目分析主题
直播电视节目作为广电运营模式中一直沿用的产品类型,对于广电用户的影响和广电运营商运营模式起着至关重要的作用.实时直播节目分析,用户可以实时查看每个时间点上每个节目收视率,以此为据来指导产品定制、节目选择、用户推广等方面的商业应用,对直播节目的多维度分析,运营商可深入分析直播节目收视特性及受众影响规律,以指导运营优化,提高节目的收视率和营收.
2.2多媒体业务分析主题
广电行业的双向网络改造不仅将视频点播、通信及娱乐业务成为可能,同时配备增值业务,如广告、支付、股票、游戏、付费节目等服务.可以明显看到哪类业务最受欢迎,哪类业务的增长趋势良好,哪类业务应用下滑得较快,哪类业务不受用户欢迎,从这样的分析结果中,可以为广电网络以后的业务引进中提供指导,避免引进的业务不受用户欢迎,同时也可以预见性的引进一些代表将来趋势性的业务,提前做好业务储备工作.互动业务的互动特性为广电运营商增加客户粘度、制定产品投放策略、获取最大化收益及市场价值提供了前所未有的空间,通过对互动业务的应用分析,可以分析出用户的行为趋势.利用这样的分析结果改善广电业务引进,提高用户的粘度和ARPU值.
2.3互联网应用分析主题
广电作为政府宣传的喉舌,一个主要的特点就是可管可控,相对此而言,互联网网络一个重要特点就是用户各类行为的不可控性.在三网融合的新环境下,广电网络一个重大改变就是引进了互联网业务,同时通过多屏互动技术使广电终端类型日益复杂,如何对广电网络引进的互联网业务和终端进行有效的管控,成为摆在广电网络运营商面前一个重要课题.运营商可以清晰地看到用户在讨论什么、在看什么,以此来分析用户将来可能采取的行为趋势,进而来引导用户舆论与行为,实现对广电网络的可管可控的最终目的.同时广电网络也可以利用互联网数据从如下两方面做了分析,运营流量及应用优化,节省网络带宽,减少运营费,同时用以提高用户体验度,增加用户粘性;充分利用线上、线下同步运营模式,深入挖掘线上讨论内容,为线下运营提供指导.
2.4广电客户分析主题
在三网融合的环境下,广电网络在逐渐摆脱事业单位模式下经营模式,向“市场驱动”、“客户驱动”经营模式的转变,“以客户为中心”的理念和策略不可或缺,而广电网络拥有的客户群和常规用户分析的客户群体有着本质区别,以往分析往往针对个体用户进行分析,广电网络面向的用户通常是以家庭为单位的,这给广电网络用户行为分析带来不可预料的困难.通过针对用户群体不同年龄、不同时间段的收视行为和上网行为分析,可以区分某一时间段内该家庭用户内个人的行为,可以清晰看到各类用户在各个阶段的变化情况,以及这个变化给广电网络运营带来的变化.从用户信息出发,以用户应用行为为主线,深入挖掘用户关系,为广电用户关系管理提供有效基础数据,提高用户满意度、忠诚度,提高广电网络市场运作的主动性.
2.5市场收益分析主题
三网融合后,广电网络作为一个市场主体,需要适应日趋激烈的市场竞争环境,提升广电运营商的企业核心竞争力,应充分利用业务支撑系统产生的大量宝贵的数据资源,建立广电企业收益分析系统,实现对收益数据的智能化加工和处理,为市场运营工作提供及时、准确、科学的决策依据.利用先进的OLAP技术和数据挖掘技术,帮助企业的经营决策层了解企业经营的现状,发现企业运营的优势和劣势,预测未来趋势;帮助细分市场和客户,指导营销、客服部门进行有针对性的营销和高效的客户关系管理;对决策的执行情况和结果进行客观准确的评估,深受用户的青睐.如图7所示的收益分析结果,可以清晰看出企业各类业务在营收中所占比例,可以明确了解哪类业务是企业的优质业务,哪类业务需要进一步加强开拓市场,同时也可以预测哪类业务会有更大的推广空间,为企业持续开展业务提供指导.
2.6智能内容推送主题
深层次挖掘用户潜在的需求,以用户的需求为导向,向用户推送有针对性的内容.广电运营商通过对用户差异性的运营策略,激发用户参与的热情,让用户有持续的良好体验,提升对用户的吸引力和黏着度.信息精准、智能推送的关键在于把握住用户的行为习惯,同时让每一个用户都可以按自己需求方便、快捷地调整、归类相关信息.大数据分析平台基于用户行为收集分析系统,挖掘出用户潜在需求,充分了解了用户的真实意愿,将有助于广电运营商建立以客户为中心的服务理念,提升社会影响力.
3总结
随着烟草行业信息化推进现代化进程的快速发展,新兴的IT技术、先进的IT技术等已不断融入到烟草行业的生产、营销及管理等过程中,逐渐改变了烟草行业原有的经营管理模式,加快了烟草行业结构调整,完善管理体制,提升市场竞争力。可以说,信息化建设给烟草行业带来了改革与发展。因此,对新兴技术的研究与探索,具有十分重要的意义。尤其是视频监控技术的发展,给烟草行业的带来了较多的好处,烟草从种植、生产、流通、消费的每个环节中,视频监控技术都发挥了重要作用。视频大数据分析技术是近两年兴起的技术,视频大数据分析的应用,在公安视频侦查等中已突显其发展前景,本文将针对烟草行业,讨论视频大数据分析的发展应用。
2视频监控在烟草行业的发展及应用现状
(1)烟田监控:实现对烟田、育苗大棚内实时监控;
(2)烟叶收购站监控:实现对烟草所有站点烟叶收购全流程监控视频调看、查询、巡视、控制的功能;
(3)生产及公用设施区监控:主要用于监控车间内重要设备、生产线运行、物流线路及环境状况,以及动力中心车间内空调、锅炉等重要设备的运行及环境状况,防止灾害和事故的发生。
(4)烟草物流配送中心监控:对物流配送中心进行实时监控;
3视频大数据分析的技术需求
随着视频监控在烟草行业的大规模应用,视频数据量的增加,每天产生的数据量都是以TB(1000GB)级别计算的,若是利用传统的技术手段对每天的视频进行检索和分析,则需要数小时的时间才能够完成,工作量及工作难度可想而知;而对于更高级别的视频数据,如PB(1000TB)级别的视频数据进行分析和检索时间那就是很多天了。视频检索与分析的效率低下,也是目前视频数据利用效率及数据价值低下的首要原因。为此,如何提高视频数据分析与检索的效率,如何针对PB(1000TB)级别甚至EB(1000PB)级别的海量数据进行分析与检索,提升视频监控数据价值,成为了当前用户的首要需求,也成为了当前视频大数据分析技术的难点及关键点之一。同时,在对视频进行检索与分析的过程中,需要考虑检索结果的准确性。由于视频图像信息为非结构化数据,如何合理有效地对非结构化的数据进行检索分析,优化计算机图像识别算法,是提高视频大数据分析准确性关键所在。再者,当完成视频检索与分析后,如何做好视频数据与非视屏数据的整合与关联工作,是后期视频数据应用时重点考虑的内容。
4视频大数据在烟草行业的应用思考
时下,烟田监控、烟叶收购站监控、生产及公用设施区监控、烟草物流配送中心监控等的视频监控数据较多仅仅用作安防视频使用,还未涉及到与烟草业务的关联;随着视频监控建设的完善及视频大数据技术发展,各类监控视频数据量的增加,考虑到投资回报比,是否可以通过视频大数据分析,将烟草业务与视频监控相关联,在海量的视频监控数据中提取有益于烟草行业发展的变革或新技术呢?
4.1安防业务
基于传统视频监控,安防业务是传统业务之一,通过大数据分析,有效快捷的提取安防所需要的视频片段。同时基于视频行为告警策略,及时告警。
4.2安全生产
结合视频大数据分析,将以往多次生产事故监控视频整合,通过对多次生产安全事故的分析,总结出更为安全可靠的生产规则;再则通过视频监控与生产行为的结合,制定安全生产标准,通过声音报警或警示灯报警等技术,在不符合标准视频监控预定义的安全规则情况时,能够及时报警。通过视频监控分析,提升生产的安全性。如采用彩色网络快球摄像机和彩色固定网络枪式摄像机,彩色网络快球摄像机的预制位设置应优先,根据视频大数据分析后,系统可提供不同故障区域或设备的故障信号,各工艺段或设备的操作运行信号,通过系统集成与生产监控实现联动,平常摄像机对正在操作或运行设备进行监控,一旦某个故障点报警,摄像机立刻自动转动到报警点,监控中心的NVR主机开始录像等。
4.3效率生产
结合视频大数据分析,通过分析各个不同烟站或烟厂中的同一种生产行为,结合对海量数据进行智能分析,提取出价值数据片段,形成元数据信息库,再通过人为加工后期数据,总结形成效率生产有用的价值信息,提供生产借鉴,提高生产效率。
4.4创新生产
通过视频大数据分析,将以往的视频通过轨迹分析,得出以往生产过程中各类生产动作中不必要或者多余的部分,简化或者优化生产规则;通过对给类生产行为的总结,提出合理的建议,为生产提出创新性意见或建议,提高生产率。
5结论
系统主要实现软件的模块话设计,包括反射率数据分析模块、速度分析模块、天线运行稳定性分析模块以及雷达组网数据分析模块。
1.1反射率分析模块
反射率的大小体现了气象目标的降水粒子的密度分布及体积大小,在实际气象技术中长期用于表示气象目标的强度,在工作上采用dBZ单位表示。对于空管气象雷达图,数据显示采用PPI(PlanPositionImage)显示方式。该方式决定了一张气象雷达图由圆锥俯视平面上分析空间的回波构成。在设计上简单介绍其设计流程,首先必须读取原始数据,并判断是否首次读取,若为首次读取则对其进行预处理,否则进行坐标转换;其次进行图像绘制并判断是否需要改变仰角。此处需要关注的关键是如何进行数据的预处理。在实现上,对接收的数据进行反射率信息结构体赋值。当然该结构体包括了记录实际仰角角度、数据文件路径存储、雷达波段判断以及相关数据的偏移。通过扫描上述结构体可以实现对雷达数据的预处理。
1.2速度分析模块
多普勒雷达采用了速度退化模糊技术以扩大其对径向风速测量不模糊的区间。结构设计主要考虑数据显示的径向方式,流程设计则与反射模块类似。当然在界面设计上,系统将提供对颜色配置的定义,使其人机交互更为快捷。
1.3天线稳定性分析模块
天线是雷达数据采集的关键部位,长期以来是影响雷达运行的主要关键点之一。其依赖于底下的电机进行旋转,目前大多数进口电机可以保证24小时安全运行。而运行时仰角提升和转速的平稳性直接影响雷达数据的采集。为此,我们通过在径向数据上采用方位角及仰角进行扫描实现曲线图监控。通过选择基数据再进行预处理后绘制相关曲线实现对天线运行状态的评估。其中,曲线图的绘制需要的参数为:纵坐标为气象雷达实际运行的每层仰角均值;横坐标为范围角:0-360°。
1.4雷达组网分析模块
按照民航局的总体规划,未来空管将实现多气象雷达覆盖,在这过程,多个气象雷达的组网将成为气象雷达数据的主要来源。这种模式将使得数据覆盖面更大、数据安全性更高、数据准确性更强。而与此同时带来了雷达数据融合组网的技术难点。设计上,首先模块将定义雷达站点配置信息,并与此同时提供组网雷达可选数据;其次对选择雷达数据进行数据预处理;再之则对雷达数据进行统计平均并做坐标转换;最后进行拼图处理。在这过程中,需要对雷达数据的强度进行自适应调整、显示范围自适应调整。与上述同理,系统核心在于预处理。在C#中定义List数据列表,并在定义其结构为[站点标示][距离][方位角],对于数据读取时,需要进行插值算法处理,此时的单时数据拼接分析可以实现不同仰角和方位角的筛选。为了控制系统数据的准确性可以在前端定义雷达数据方位角表,根据表进行映射处理。通常如若出现非连续数据可以在预处理上对其进行差值补偿。在C#上可以采用反差圆补偿方法。
2.结束语