当前数据挖掘算法的评估

当前数据挖掘算法的评估

一、目前数据挖掘算法的评价(论文文献综述)

李鑫[1](2021)在《铁路机车设备画像理论及关键技术研究》文中研究说明铁路机务专业是铁路运输系统的重要行车专业,主要负责各型机车的运用组织、整备保养和综合检修。作为重要的铁路运输生产设备,机车的运输生产效率、设备质量状态、整备检修能力、安全管理水平等均会对铁路运输生产能力的稳健提升和经营管理工作的稳步发展产生重要影响。随着各种监测检测设备以及各类信息管理系统的广泛应用,围绕机车积累了形式多样的海量数据,数据增量及质量均大幅提升,数据价值日益体现,铁路行业对于完善机车健康管理的需求十分迫切。当前铁路机务专业在进行机车健康管理的过程中,存在分析方法较少、大数据挖掘不足、管理决策科学性较弱、综合分析平台缺失等问题。铁路机车设备画像理论及关键技术研究作为实现机车健康管理的重要手段,致力于加强机车数据资源的整合利用,通过客观、形象、科学的标签体系全面而精准地刻画机车的质量安全状态,并以此为基础深入挖掘潜藏的数据价值,实现机车事故故障关联分析、安全状态预警盯控、质量安全态势预测、检修养护差异化施修、稳健可靠管理决策等目的,支撑起铁路运输生产及质量安全管理工作的科学化、数字化、智能化发展。本文主要对铁路机车设备画像理论及其一系列关键技术进行了研究与应用,取得了以下创新成果:(1)提出了铁路机车设备画像理论。通过梳理机车设备画像的含义及研究意义,明确了构建铁路机车设备画像理论的必要性及其定位。基于此,给出铁路机车设备画像理论的定义与内涵,梳理了符合现阶段机车运输生产管理需要的铁路机车设备画像理论的构成,阐述了关键技术的研究方法及之间的逻辑关系。同时,设计相匹配的应用架构,介绍了其所包含的核心应用、赋能应用、总体目标等6个方面内容。这为系统性地开展机车健康管理相关研究提供了崭新的理论和方法支持。(2)构建了基于设备画像的铁路机车画像标签体系。通过整合利用机车多维度数据,提出了机车设备画像3级标签体系技术架构,全面分析所包含的数据采集层、标签库层和标签应用层,详细阐释各级标签的内容构成,形成机车画像标签体系的构建方法。针对聚类这一标签产生方式,改进K均值(K-means)聚类算法的初始质心选取方法,提高标签获取的精度和稳定性。通过在某铁路局开展机车设备画像实地应用研究,获得了客观、精准、完整、可靠的机车画像。(3)提出了基于Ms Eclat算法的铁路机车事故故障多最小支持度关联规则挖掘方法。针对机车事故故障在关联规则挖掘中具有不同支持度的特点,提出了改进的等价变换类(Eclat)算法——多最小支持度等价变换类(Ms Eclat)算法,以各项目的支持度值为排序依据重新构建数据集,进而运用垂直挖掘思想获得频繁项集;为了进一步提高Ms Eclat算法在大数据分析场景中的执行效率,将布尔矩阵和并行计算编程模型Map Reduce应用于算法的计算过程,得到优化的Ms Eclat算法,设计并阐述了相应的频繁项集挖掘步骤。通过比较,Ms Eclat算法及其优化算法在多最小支持度关联规则挖掘方面有着极大的计算效率优势。通过在某铁路局开展实际应用研究,验证了算法的有效性、高效性和准确性。(4)设计了基于时变概率的PSO+DE混合优化BP神经网络的机车质量安全态势预测模型。通过总结反向传播(BP)神经网络、粒子群优化(PSO)算法和差分进化(DE)算法的原理及优缺点,设计了基于时变概率且融入了防早熟机制的PSO+DE混合优化BP神经网络预测模型,详细阐释了这一预测模型的训练步骤。以某铁路局的机车质量评价办法为依托,选用灰色关联度分析方法选择出运用故障件数、碎修件数等7个评价项点,预测机车未来3个月的质量安全态势。经过实验对比,新提出的预测模型有着更好的收敛能力,对于机车质量评价等级预测及分值变化趋势预测的准确度分别可以达到98%和91%以上。最后开展了实际预测应用及分析,为科学把控机车质量安全态势提供了较好的技术方法。(5)设计了基于铁路机车设备画像理论的铁路机车健康管理应用。通过总结梳理铁路机车健康管理应用与铁路机车设备画像理论及机务大数据三者间的关系,设计了基于铁路机车设备画像理论的铁路机车健康管理应用的“N+1+3”总体架构及其技术架构。基于此,从设备、人员和综合管理3个方面介绍了机车运用组织、机车整备检修、辅助决策分析等7个典型应用场景,并特别给出这些场景的数据挖掘分析思路及框架,为铁路机车设备画像理论的扎实应用奠定了重要基础。最后,将本文所取得的相关研究成果在某铁路局开展实地的铁路机车健康管理应用实践,通过搭建人机友好的应用系统,完成一系列机务大数据挖掘分析算法模型的封装,实现了机车画像标签生成及设备画像分析、机车事故故障关联分析、机车质量评价分析、机车质量安全态势预测分析等多项功能。通过实际的工程应用,实现了铁路机车设备画像理论及其关键技术的创新实践,取得了良好的效果。全文共有图56幅,表21个,参考文献267篇。

王如意[2](2021)在《大学生学业成绩与毕业去向的数据挖掘研究》文中指出

郭昊[3](2021)在《基于AIS数据的轨迹段聚类方法研究》文中研究指明伴随着世界各国间的贸易量增长以及水路运输行业的迅速发展,各类船舶的数量日益增长。有关船舶自动识别系统(Automatic Identification System,AIS)数据挖掘领域的各类研究也呈现出活跃的趋势,对AIS数据进行数据挖掘分析,可以得出大量水路运输的数据特征。同时,数据挖掘分析的准确性与数据源的数据质量关系密切,合理设计数据质量评价方法获取高质量的数据,才能挖掘出更加准确的数据特征。本文在数据质量评价理论与数据挖掘理论的基础上,使用Python语言搭建相应的算法模型。采取了理论研究与实验分析结合的方法,重点研究了基于AIS数据的数据质量评价方法与轨迹聚类方法,主要工作如下:1)为了给后续的数据挖掘研究提供更优质的数据,并且弥补AIS数据缺少一项针对AIS数据应用特性的数据质量评价方法的不足。设计并提出了基于数据处理的船舶数据质量评价方法。通过研究AIS数据应用的场景,确立完整性、连续性、时效性三项数据质量评价指标;通过对AIS数据进行数据处理与数据分析,构建数据质量评价模型,大量分析数据发现数据问题,为后续的轨迹聚类研究提供优质数据。2)为了验证所提基于数据处理的船舶数据质量评价方法的准确性,使用数据质量评价模型分别处理卫星AIS数据与岸基AIS数据,通过分析对比这两类数据的综合质量评分以及数据可视化结果来验证本文所提出的数据质量评价方法的准确性。3)为了解决传统轨迹聚类模型的轨迹相似度度量算法以及典型提取轨迹算法中存在的弊端。设计并提出了基于曲线长度(Curve Length,CL)距离的船舶轨迹段聚类模型。通过寻找航向变化率和航速变化率特征点,压缩与划分轨迹段;研究了当前常用轨迹相似度度量的缺陷并改进了传统轨迹间相似度度量算法,不仅体现了轨迹相似度度量的内部连通性,还提高了运算效率;搭建了轨迹段聚类模型并完成聚类分析;改进了传统典型轨迹提取算法,使得典型轨迹包含更完善的簇内特征。4)为了验证所提基于曲线长度距离的船舶轨迹段聚类方法的准确性与优越性,以长江入海口的一处分叉航线作为实验区域。通过对比电子海图规定航道与该算法的聚类结果以验证其准确性,通过对比该算法与当前常用算法的聚类效果和执行效率以验证其优越性。

相益萱[4](2021)在《非独立同分布下异构数据K-means聚类算法研究》文中认为随着科技的发展,数据挖掘成为一种从大量的数据中提取出有效信息的手段,并且衍生出了很多分支,比如K-means聚类算法:将相似的东西分到一组,不相似的尽量远离,即是一种无监督的问题。它具有快速、简单的特点,但是也存在很多的问题,比如选点的随机性和离群点的影响,但是即使存在上述问题,并不影响它被广泛地应用在各个领域。K-means算法通常都是在独立同分布下进行的研究,但是这种考量是不完备的,完整的考量是非独立同分布(Non-Independent and Identically Distribution,简写Non-IID)下进行的,如果忽略了它们之间的潜在关系,就会影响聚类效果,本文将在非独立同分布下提出针对两种数据类型的K-means算法研究,一种其列全部为数值属性组成的,一种其列由类别属性和数值属性(即具有多个异构属性)组成。本文主要的工作如下:由于传统K-means算法选取初始中心点的敏感性问题,提出一种基于密度的K-means聚类迭代选取中心点的方法(Method for selecting center point iteratively based on density-based K-means clustering,简称DCK)基于密度的思想,通过计算密度参数合理调整高密度区域,并且提出聚类迭代的方法进行选点,选用UCI数据集进行验证,实验结果说明所给的算法能够得到较高的准确率。在数值型数据基础上,为了更好的挖掘其存在的潜在关系,提出一种非独立同分布下基于密度的二次幂耦合K-means聚类算法(A density-based second power coupling K-means clustering algorithm based on non-independent and identical partitions,简称N2-QCK),首先将数据集进行二次幂处理,计算优化后的皮尔森相关系数后得到二次幂耦合后的数据集样本,将样本带入优化后的K-means聚类算法,并且通过UCI数据集进行验证,实验结果显示,相比之前的研究会使得准确率提高。在异构数据的基础上,由于独立同分布思想的局限性,将DCK算法与非独立同分布结合,提出非独立同分布下的基于密度的异构数据K-means优化方法(Density-based K-means optimization method for heterogeneous data under non-independent and identical distribution,简称HN-DCK),通过考虑类别型数据之间的内部与外部耦合,同时结合了数值型数据的内部与外部耦合,将得到的维数转换和特征选择的全局耦合带入优化后的K-means进行验证,实验结果表明,所给算法能够得到较高的准确率。

刘正望[5](2021)在《基于用户行为的根因分析方法研究与设计》文中研究说明随着互联网产品不断发展,产品的用户流量突变问题日益明显,对用户行为流量突变根本原因分析已成为企业发展的关键。本文利用数据挖掘算法实现对用户行为突变的关键指标进行根本原因分析,研究成果可以帮助企业提供更好的决策,促进产品更新迭代。本课题主要研究用户行为关键指标——点击量、展现量等,定位造成关键指标突变的具体人群。本文以用户行为数据为基础,利用相关数据分析方法处理多维用户行为特征,将处理后结果送入多维数据分析算法中降解维度,使用相关排序召回策略,得到多维下具有强解释性的根因集合。本文的主要工作如下:1.使用Adtributor和iDice算法对用户行为根因分析,对影响关键指标突变的根因候选集合进行基本分析。实验表明,在用户行为分析场景,能有效定位关键指标突变发生的人群根因集合。2.实现基于“等效影响”思想Hotspot算法提高根因集合的解释度,为降低算法的时间复杂度,提出使用FP-Growth消减用户维度空间。对用户行为维度分层处理,设置相应根因影响程度阈值分层剪枝消减各维度下根因候选集合,使用蒙特卡洛搜索算法搜索最优根因候选集合。实验表明,根因结果具备较优的解释度,经算法优化之后执行效率提高1.35倍。3.实现Squeeze算法启发式根因分析方法,为降低根因分析结果冗余性,本文提出了启发式根因聚合方法优化算法结果。对每一用户行为维度交叉组合计算其维度变化值,使用聚类算法大致判断根因的个数,对其相应的分裂和排序算法进行求解。最后,使用启发式根因聚合的方法聚合根因候选集合优化Squeeze算法的根因分析结果,得到最简洁的根因集合,降低根因集合的冗余度。实验表明,算法相对主流算法具备更高的解释度,且优化后能有效降低约0.5倍的根因集合数目。

孙聪慧[6](2021)在《非独立同分布下异构数据KNN算法研究》文中研究说明数据挖掘顾名思义就是从海量数据中挖掘出对于企业或者个人来说有用的信息,因为数据挖掘能够为企业创造出更大的利益,所以数据挖掘的相关算法与技术层出不穷,并且已经广泛应用到了许多领域,成为推动大数据发展不可或缺的动力。分类分析是数据挖掘算法中的经典算法之一,其中KNN算法因其原理简单易懂又易于实现等特点被广泛的应用到数据挖掘领域。但因其也存在一些缺陷,如训练样本不均衡问题、冗余特征等会对分类结果产生影响,故而众多学者对其提出改进。然而传统KNN算法及众多改进算法均基于独立同分布,而现实生活中的数据大多数是以非独立同分布的形式存在的,也就是说数据对象之间、数据对象的属性之间以及属性值之间都会存在一定的相互联系,这些相互联系如果被忽略则会错失一些重要信息,从而导致分类结果不准确。因此本文基于非独立同分布思想对KNN算法进行了相关改进。本文的主要研究工作包括以下三点:第一,针对数值型数据,为解决传统KNN算法中因为训练样本不均衡和易受单个属性影响导致分类结果不准确的问题,提出一种基于类隶属度和特征权重的CFW-KNN算法。该算法通过计算数据密度确定球中心点和半径建立最小包围球,并根据训练样本所处位置确定类隶属度,再通过Relief F算法思想进行特征权重的计算,最后根据训练样本的类隶属度和特征权重更新类别决策规则,从而确定待分类样本的类别。实验结果表明,CFW-KNN算法能够使分类结果更加准确,提高分类准确率。第二,针对数值型数据,在改进后的CFW-KNN算法中运用非独立同分布思想,通过对数据集中各类隐含关系的挖掘,提出一种非独立同分布下的NIID_CFW_KNN算法。该算法首先利用改进后的Pearson相关系数公式整合出数据对象的耦合相似度矩阵,将原始数据集转化为具有耦合关系的新数据集,并将新数据集应用于CFW-KNN算法进行分类分析。实验结果表明,NIID_CFW_KNN算法的分类准确率有进一步的提升。第三,针对异构型数据,在NIID_CFW_KNN算法的基础上运用非独立同分布思想对类别型数据和数值型数据进行全局耦合关系分析,提出一种非独立同分布下针对异构型数据的NIID_MCFW_KNN算法。该算法充分挖掘出存在于类别型数据内部、数值型数据内部以及类别型数据和数值型数据之间的耦合关系,并将具有耦合关系的新数据集应用于CFW-KNN算法进行分类分析。实验结果证明,NIID_MCFW_KNN算法对异构型数据具有较好的分类效果。

李茵[7](2021)在《面向医院管理的数据驱动决策研究》文中提出信息技术的快速发展与应用以及大数据战略的深入实施,使得大数据成为科技创新引领与决策支撑的重要战略资源,科学研究与实践正在完成“假设驱动”到“数据驱动”的巨大转变,大数据的深度挖掘与利用能够为社会发展、政府治理、国家安全等提供新的动能。围绕国家大数据战略,丰富和拓展大数据应用创新领域,推动管理升级,给学术界、产业界以及政府部门带来许多新的重要课题。其中面向健康服务供给侧的决策支持、决策引导和决策创新中的数据驱动、数据价值转换问题即是管理学、数据科学的核心科学问题之一,更是情报学应对大数据环境开展智慧型情报服务必须解决的关键问题之一。健康医疗大数据时代的到来,促使医院管理和医院管理者的观念都随之变化。数据驱动对医院精细化、智慧化管理决策具有重要意义。本研究从提升医疗管理决策质量的角度出发,构建数据驱动医院管理决策过程模型,分析数据驱动医院管理决策的影响因素,进而提出面向医院管理的数据驱动决策模型,并展开实证研究,为数据驱动决策领域的研究理论基础和实证研究提供参考依据,为促进医院精细化管理提供对策及建议。基于此,通过界定“数据驱动”、“医院管理”、“医院管理评价”与“数据驱动决策”等相关概念,以回顾数据驱动决策、面向医疗健康领域的数据驱动决策、面向医院管理的数据驱动决策以及数据驱动决策的影响因素研究现状为基础,综合运用文献调研法、半结构访谈法、问卷调查法、扎根理论法、结构方程法、统计分析法、机器学习法分析了面向医院管理的数据驱动决策的过程模型和影响因素模型,并构建了面向医院管理的数据驱动决策模型。围绕面向医院管理的数据驱动决策模型这一核心研究内容,本文第三章在已有BASM模型研究过程的基础上,结合医院管理决策场景的特殊性,探索面向医院管理的数据驱动决策的运行机理,构建面向医院管理的数据驱动决策过程模型,以梳理驱动的路径,理清其中的内在逻辑。该模型由处理过程模型及支持过程模型两部分构成,旨在分别回答面向医院管理的数据驱动决策过程中两个核心问题,一是数据本身如何转化并如何嵌入到医院管理决策过程中,二是医院中能够支持并且推动数据驱动决策的途径是什么。第四章采用扎根理论进行了面向医疗管理领域数据驱动决策的影响因素识别研究,编码面向医院管理者的半结构化访谈资料,经过饱和度测试,最终识别出了四个维度的影响因素。第五章在对影响因素定性研究的基础上利用结构方程模型方法进一步验证影响因素,探讨相关变量的权重和关系。阐述各个因素对医院管理决策的影响关系,验证数据驱动医院管理决策影响因素模型。第六章整合数据驱动医院管理决策过程模型和影响因素模型,构建支持医院管理决策全过程的数据驱动决策模型,探讨过程模型与影响因素模型的内在联系。第七章根据已构建的面向医院管理的数据驱动决策模型,进行基于DRGs分组的医疗服务能力评价和医生绩效评价管理工作的实证研究,修正和完善已构建的模型。具体内容如下:(1)构建面向医院管理的数据驱动决策过程模型。基于现有的数据驱动决策机制模型,结合医院管理实践,构建面向医院管理的数据驱动决策过程模型,该模型由处理过程模型及支持过程模型两部分构成,处理过程模型包括面向医院管理决策的数据处理过程和数据驱动的医院管理决策处理过程。决策处理过程既是数据处理过程的最后阶段,对数据处理的结果进行展示与应用,又会不断地产生新的数据,前推已有数据的老化和错误,补充和修正数据处理过程。而数据处理过程以决策处理过程中的阶段性需求为导向,能嵌入到决策处理过程的所有阶段,为决策处理的全流程服务。支持过程模型主要涉及两用户一技术。两用户包括数据分析人员和管理者,使能技术是创建和改进能够嵌入到操作系统的分析工具,这三个主体不能割裂独立,而可以互相转化并可能同时存在,共同对数据和决策进行处理,支持处理过程模型运转。(2)系统分析了面向医院管理的数据驱动决策影响因素。对主观及客观上影响管理者数据驱动决策的因素进行整合和相关分析,确定四个核心影响因素范畴分别是医疗数据质量,信息技术,医院组织管理和管理者信息素养,构建了影响因素模型,发现数据驱动医院管理决策能受到管理者信息素养、医院组织管理和信息技术的正向影响,其中管理者信息素养最强,其次是医院组织管理和信息技术;医院组织管理对医疗数据质量、管理者信息素养、决策目标均有影响,对医疗数据质量的影响要强于管理者信息素养;医疗数据质量能够对信息技术产生正向影响;信息技术对决策目标具有正向影响。(3)构建了面向医院管理的数据驱动决策模型。将过程模型与影响因素模型有机结合在一起,构成了面向医院管理的数据驱动决策模型。打造数据驱动决策模型,将医院数据质量标准化管理贯穿于医院管理全流程、智能化管理提升医务人员的信息技术、高效化管理增效医院组织三个方面分析模型的实现,提出模型优化建议。(4)基于DRGs的肺癌医疗服务绩效分析实证研究。模拟医院管理中运用DRGs分组工具解决绩效问题的真实场景,应用数据驱动医院管理决策模型,优化DRGs分组,优化绩效管理。研究最终确定性别、年龄、入院途径、离院方式、住院次数、医保付费方式、是否手术、合并症严重情况八个因素为影响肺癌医疗服务费用的因素,构建了8个DRGs分组,其中合并症严重程度、是否手术、住院次数是决策树分组的分类结点变量。选用医疗服务能力的指标(DRGs总权重、CMI)根据获取的数据进行比较,完成绩效评价工作,实现基于数据驱动决策的绩效管理。

韩浪[8](2021)在《高速铁路调度集中系统硬件可靠性分析方法研究》文中进行了进一步梳理调度集中系统作为铁路运输的核心技术装备,在保证列车安全、高速、正点运行方面发挥着举足轻重的作用。硬件设备是调度集中系统的重要组成部分,其可靠性水平直接决定着系统能否安全、可靠、平稳的运行,对硬件进行可靠性分析,研究硬件的故障模式和失效机理,对于提升调度集中系统的可靠性,保证高铁的客运服务质量十分重要。我国调度集中系统硬件组成结构复杂、种类及数量众多,利用既有可靠性数据分析方法对其进行建模研究时存在计算难度大、数据利用不充分等缺点。铁路数字化的发展,使得调度集中系统积累了大量的现场可靠性数据,为数据挖掘技术应用于硬件可靠性分析提供了数据支撑。论文主要工作如下:首先介绍调度集中系统的体系结构和硬件设备,阐述调度集中系统硬件结构复杂、设备种类及数量众多的特点;基于调度集中系统的硬件结构,阐述数据挖掘技术在调度集中系统硬件可靠性分析工作中的实现方案,设计调度集中系统硬件可靠性分析模块的功能和架构;结合数据挖掘的基本步骤和既有可靠性数据分析方法的基本流程,阐述基于数据挖掘的可靠性分析方法的基本流程。其次以车站自律机硬件设备为例,分析自律机硬件故障特性、失效因素特性以及两者之间的不确定性关系;基于调度集中系统体系结构和硬件组成特点,分析车站自律机硬件现场可靠性数据的采集方式;基于铁路大数据应用框架,设计并阐述现场可靠性数据的预处理逻辑框架;通过对比同一型号同一批次自律机硬件设备在京张高铁和京雄高铁上的不同故障表现情况,发现两条线路的自律机硬件设备在设计水平、制造工艺、运行设备状态、安装与调试人员等失效因素相似的条件下,在运行环境因素上存在巨大差异,因此构建了基于环境失效因素的自律机硬件现场可靠性数据集,为基于数据挖掘的自律机硬件故障失效因素分析提供数据支撑。最后根据聚类分析和基于近似不可分辨关系的粗糙集理论之间的联系,结合两者建立车站自律机硬件故障失效因素分析决策模型,选取环境失效因素作为条件属性集,自律机硬件故障次数作为决策属性,对基于环境失效因素的自律机硬件现场可靠性数据集进行等价类划分,从单一环境因素和耦合环境因素两个角度,验证分析环境失效因素与自律机硬件故障的部分近似依赖程度,并给出提升自律机硬件可靠性的施工建议;通过完成基于数据挖掘的可靠性分析方法的所有基本流程,验证基于数据挖掘的调度集中系统硬件可靠性分析方法的可行性和适用性。

何兆贤[9](2021)在《铁路通信承载网智能网管系统功能架构设计研究》文中研究说明随着中国铁路的快速发展,在铁路网规模快速扩大的同时,铁路通信承载网也随之得以发展壮大,铁路通信承载网是服务于铁路运输组织、智能化发展的基础,是铁路各系统间相互联系的纽带,其保障了铁路运输组织各系统运行的可靠性与稳定性,但随着承载网网络的不断扩大,原有的管理技术与方法已经不能完全满足现实管理的需要,网络隐患难以被发现、故障处置时间长、影响范围广等诸多问题逐步体现出来。在现有的技术基础上,铁路运输各系统在智能化、信息化上以铁路通信承载网为基础更加紧密地结合在了一起,承载网网络的故障将对铁路运输造成巨大的干扰和潜在的经济损失,而网络智能化管理技术的缺失无形中放大了发生这一潜在影响的可能性,有可能瞬间、大面积影响铁路运输组织,造成极大安全隐患,带来巨大的经济损失。目前,随着铁路承载网中断对运输干扰事件的愈发突出,铁路承载网的可靠性和网络生存能力变得更为现实与重要。本论文深度分析了铁路承载网的现状,以及智能化方面存在的困难与问题,结合相关辅助系统运用情况,分析了现有网管系统在设备维护中存在的严重不足,并对网络管理者所关注的在资源运用、任务管理、智能运用等方面进行了深入分析,根据需求进行智能化网管系统架构及功能设计,并提出利用数据挖掘算法中的关联规则Apriori等算法对承载网本身的性能数据进行挖掘分析,形成实时性、可视化的设备健康管理呈现机制,提升与改善现有对承载网的在资源配置、任务管理、智能运用方面技术监测与管理方法,使通信承载网的管理更加高效、有针对性,实现对铁路通信承载网的智能化管理。

李佳佳[10](2021)在《基于特征选择的体育运动效果评估方法研究》文中研究表明在互联网技术飞速发展下,来自各行业的数据都呈爆炸式积累趋势。教育、医疗、科学及金融等领域数据的大爆发,已经推动大数据时代下数据挖掘等相关技术的发展。例如,在金融领域,包括金融信贷、信用消费评级、股票预测及信息验证等金融业务场景中已经充分渗透进大数据及其相关技术。由此可以看出,大数据在国家发展的过程中具有重要地位,大数据相关技术的发展及研究是现在时代下的需求和各界的关注热点。伴随数据挖掘和机器学习等技术的快速发展,体育大数据的爆发给体育数据挖掘发展带来了挑战,现有的体育数据挖掘方法主要关注于提取和构造有效的基础体育数据特征,利用统计学方法并结合基础特征对体育数据进行分析研究,或采用早期传统方法来挖掘数据意义。体育运动数据的挖掘不能简单使用数据统计方法进行,如何结合机器学习和数据挖掘技术对体育运动数据进行有效挖掘和分析,从而对大众体育锻炼提供有益的建议,是一个迫切需要研究的问题。而通过特征选择算法进行体育运动效果研究是一种高效的体育数据挖掘研究。体育运动效果评价是分析评价体育运动对身体指标影响情况的客观存在。大量文献研究显示,大部分体育运动效果评估技术研究使用的数据集取自于国民体质监测公报,少量研究可通过采用问卷调查等手段获得。由于国民体质监测报告是在全国范围内同一时间通过抽样调查监测并分析研究国民体质的整体状况,该报告最终获得的数据是截面数据,以此数据作体质研究常常存在无法科学分析个体差异性的问题。另外,国民体质监测时间长,短期内获得的数据被重复使用进行研究,容易出现科研创新性不高的情况。因此,数据集的获取是体育运动效果研究需要解决的问题。围绕上述体育运动效果研究存在的难点问题,鉴于现有数据集和传统研究方法的局限性,本文从数据挖掘算法入手,构建了体育运动效果评价数据库,并基于特征选择思想,利用弹性网络算法、随机森林算法,开展了体育运动对身体指标影响效果的研究。本文的主要工作内容包括:1.构建了一个体育运动效果评价数据库。与体质研究所根据国民检测报告内容不同,本文选取785名青少年作为研究对象进行体育锻炼研究,收集真实训练数据,进行数据预处理、数据整理及数据标注工作,构建了体育运动对身体指标影响评估数据库SED(Sports Effect Datasets)。与现有数据相比,本文提出的数据库比国民体质监测报告具有更高的复杂性,有效地考虑了个体数据的差异性。同时,该数据库的发布,可为今后体育运动效果评价甚至体育运动数据挖掘方面提供数据研究基础。2.提出了一种基于弹性网络的体育运动效果评估算法。与传统体质研究方法相比,该评估算法引入了机器学习算法和特征选择算法来指导体育运动效果评价研究。在研究体育运动效果评价问题时,依据构建的体育运动效果评价数据库,加入弹性网络算法进行正则化优化实现特征选择,使得体质研究更具科学性,能够尽可能的揭示体育运动的效果情况。实验结果表明,选择出的特征和Ground-truth利用评价指标分析研究,与基准线方法相比,该算法具有较好的准确性。3.提出了一种基于随机森林的体育运动效果评估算法。与传统研究方法相比,该算法将特征选择算法运用到体育运动健身功效的影响研究中。在研究算法的特征选择能力时,使用信息增益指标进行特征重要性程度排序,可以科学准确地获得体育运动对不同身体指标的影响程度,能较全面地研究体育运动效果情况。本文选取SED数据库训练评估模型,实验结果表明,本文提出的评价方法与基于现有经典特征选择的评估方法相比,具有较好的评估性能及较高的准确度。

二、目前数据挖掘算法的评价(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、目前数据挖掘算法的评价(论文提纲范文)

(1)铁路机车设备画像理论及关键技术研究(论文提纲范文)

致谢
摘要
ABSTRACT
前言
1 绪论
    1.1 研究背景及意义
    1.2 必要性及可行性分析
        1.2.1 必要性
        1.2.2 可行性
    1.3 本文拟解决的主要问题
    1.4 本文研究的主要内容
    1.5 本文组织架构及技术路线
    1.6 本章小结
2 国内外研究现状及发展趋势
    2.1 机务大数据研究及应用
        2.1.1 国外
        2.1.2 国内
    2.2 机车检修现状
    2.3 设备画像
        2.3.1 画像的概念
        2.3.2 构成要素
        2.3.3 模型与方法
    2.4 标签技术
        2.4.1 画像标签的定义
        2.4.2 标签分类
        2.4.3 标签构建原则
        2.4.4 标签构建方法
    2.5 设备健康管理
        2.5.1 国外设备健康管理现状
        2.5.2 国内设备健康管理现状
        2.5.3 我国铁路机务专业PHM技术发展差距
    2.6 本章小结
3 铁路机车设备画像理论
    3.1 机车设备画像概述
    3.2 铁路机车设备画像理论构建
        3.2.1 铁路机车设备画像理论的定义与内涵
        3.2.2 铁路机车设备画像理论的构成
        3.2.3 铁路机车设备画像理论的应用架构
    3.3 本章小结
4 基于设备画像的铁路机车标签体系构建
    4.1 问题概述
    4.2 面向设备画像的标签技术
    4.3 机车画像标签体系构建
        4.3.1 机车画像标签体系技术架构
        4.3.2 机车画像标签体系
    4.4 基于聚类的机车第三级标签获取方法
        4.4.1 K-means算法
        4.4.2 K-means算法的改进
        4.4.3 K-means算法与改进算法的比较验证
    4.5 机车画像标签体系构建实例
        4.5.1 K-means改进算法的应用
        4.5.2 机车完整标签体系的产生
    4.6 本章小结
5 基于MsEclat算法的铁路机车事故故障多最小支持度关联规则挖掘
    5.1 问题概述
    5.2 MsEclat算法的背景知识
        5.2.1 垂直格式数据集
        5.2.2 支持度、置信度与提升度
        5.2.3 概念格理论
        5.2.4 多最小支持度下的频繁项集判定
        5.2.5 面向有序项目集合的最小支持度索引表
        5.2.6 基于等价类的可连接性判定
    5.3 MsEclat算法原理
        5.3.1 Eclat算法简述
        5.3.2 改进的Eclat算法—MsEclat算法
    5.4 优化的Ms Eclat算法
        5.4.1 基于布尔矩阵的T_(set)位运算求交
        5.4.2 基于MapReduce的等价类并行运算
        5.4.3 大数据场景下优化的MsEclat算法的频繁项集挖掘步骤
    5.5 算法比较验证
        5.5.1 MsEclat算法与水平挖掘算法的对比
        5.5.2 MsEclat算法与其优化算法的对比
    5.6 机车事故故障关联规则挖掘分析
        5.6.1 待分析项目的选取
        5.6.2 关联规则挖掘结果分析
    5.7 本章小结
6 基于PSO+DE混合优化BP神经网络的铁路机车质量安全态势预测
    6.1 问题概述
    6.2 机车质量等级评价
    6.3 基于机车质量评价项点的特征选择
        6.3.1 灰色关联度分析
        6.3.2 机车质量等级的比较特征选择
    6.4 PSO+DE混合优化BP神经网络
        6.4.1 BP神经网络原理
        6.4.2 PSO算法原理
        6.4.3 DE算法原理
        6.4.4 基于时变概率的PSO+DE混合优化BP神经网络预测模型
    6.5 机车质量安全态势预测分析
        6.5.1 预测模型训练
        6.5.2 预测模型训练结果分析
        6.5.3 预测模型应用分析
    6.6 本章小结
7 基于铁路机车设备画像理论的铁路机车健康管理应用总体设计
    7.1 机务大数据与机车健康管理
    7.2 铁路机车健康管理应用设计
        7.2.1 设计目标及定位
        7.2.2 总体架构设计
        7.2.3 技术架构设计
    7.3 铁路机车健康管理应用的典型应用场景分析
        7.3.1 设备质量综合分析
        7.3.2 人员运用综合把控
        7.3.3 运输生产综合管理
    7.4 本章小结
8 某铁路局机车健康管理应用实践
    8.1 应用开发方案
        8.1.1 系统开发环境
        8.1.2 数据调用方式
        8.1.3 分析模型定时任务调用方式
    8.2 机车数据管理功能
        8.2.1 基本数据管理
        8.2.2 视频数据管理
        8.2.3 机务电子地图
    8.3 机车画像标签生成及分析功能
        8.3.1 机车画像标签管理
        8.3.2 单台机车画像分析
        8.3.3 机车设备画像分析
    8.4 机车事故故障关联分析功能
    8.5 机车质量评价分析功能
        8.5.1 单台机车质量安全分析
        8.5.2 机务段级机车质量安全分析
        8.5.3 机务部级机车质量安全分析
        8.5.4 全局机务专业质量安全综合分析
    8.6 机车质量安全态势预测分析功能
    8.7 本章小结
9 总结与展望
    9.1 本文总结
    9.2 研究展望
参考文献
图索引
FIGURE INDEX
表索引
学位论文数据集
TABLE INDEX
作者简历及攻读博士学位期间取得的科研成果

(3)基于AIS数据的轨迹段聚类方法研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景和研究意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 国内外研究现状
        1.2.1 AIS数据应用的研究现状
        1.2.2 数据质量评价的研究现状
        1.2.3 轨迹聚类的研究现状
        1.2.4 当前存在问题
    1.3 本文主要研究内容及创新点
    1.4 本章小结
第二章 AIS系统、数据质量评价及轨迹聚类基础理论
    2.1 AIS系统概述
        2.1.1 AIS通信系统
        2.1.2 AIS数据组成
    2.2 数据质量评价概述
        2.2.1 数据质量评价指标
        2.2.1.1 定量指标
        2.2.1.2 非定量指标
        2.2.2 数据质量评价方法
    2.3 轨迹聚类概述
        2.3.1 主要聚类方法概述
        2.3.2 轨迹间相似度度量概述
    2.4 本章小结
第三章 基于数据处理的船舶数据质量评价方法研究
    3.1 引言
    3.2 基于数据处理的船舶数据质量评价模型
        3.2.1 数据预处理
        3.2.1.1 剔除时间乱码及异常经纬度
        3.2.1.2 数据抽稀
        3.2.2 完整性指标
        3.2.3 连续性指标
        3.2.4 时效性指标
        3.2.5 综合质量评分
    3.3 数据质量评价实验结果与分析
        3.3.1 实验结果展示
        3.3.2 实验结果分析
        3.3.2.1 卫星AIS 数据与岸基AIS 数据质量的对比分析
        3.3.2.2 数据可视化对比分析
    3.4 本章小结
第四章 基于曲线长度距离的船舶轨迹段聚类方法研究
    4.1 引言
    4.2 基于曲线长度距离的轨迹聚类模型
        4.2.1 轨迹聚类数据预处理
        4.2.2 轨迹压缩与划分
        4.2.3 轨迹段相似度度量
        4.2.3.1 曲线长度距离
        4.2.3.2 航向距离和航速距离
        4.2.3.3 基于曲线长度距离的综合相似度度量
        4.2.4 轨迹段聚类
        4.2.5 典型轨迹提取
    4.3 轨迹聚类模型实验结果与分析
    4.4 本章小结
第五章 总结与展望
    5.1 本文总结
    5.2 研究展望
致谢
参考文献
作者简介

(4)非独立同分布下异构数据K-means聚类算法研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 研究的背景和意义
    1.2 K-means研究现状
    1.3 论文的主要研究内容
    1.4 论文的组织结构
第2章 相关技术综述
    2.1 数据挖掘步骤相关概述
        2.1.1 数据挖掘步骤
        2.1.2 数据挖掘研究应用
    2.2 聚类分析相关概述
        2.2.1 聚类分析的数据结构
        2.2.2 聚类分析的评价方法
    2.3 聚类分析方法介绍
        2.3.1 基于划分的聚类算法
        2.3.2 基于密度的聚类算法
        2.3.3 基于层次的聚类算法
        2.3.4 基于网格的聚类算法
        2.3.5 基于模型的聚类算法
    2.4 非独立同分布
        2.4.1 非独立同分布相关概念
        2.4.2 非独立同分布耦合的现实意义
        2.4.3 非独立同分布思想
        2.4.4 非独立同分布层次框架
        2.4.5 基于非独立同分布的相关研究
    2.5 本章小结
第3章 DCK算法设计
    3.1 传统K均值算法介绍
    3.2 相关初始聚类中心的选取方法
    3.3 DCK算法设计
        3.3.1 聚类迭代选取初始中心点
        3.3.2 算法描述
    3.4 仿真实验与分析
        3.4.1 验证聚类准确率的提升
        3.4.2 参数的选择
        3.4.3 复杂度的分析
        3.4.4 聚类分析对比
    3.5 本章小结
第4章 N2-QCK算法设计
    4.1 非独立同分布下二次幂耦合介绍
        4.1.1 生成属性间具有平方交互关系的数据集
        4.1.2 内部耦合属性的计算方法
        4.1.3 外耦合属性的计算方法
        4.1.4 对象的耦合表示
    4.2 仿真实验
        4.2.1 验证聚类准确率的提升
        4.2.2 参数的选择
        4.2.3 复杂度的分析
        4.2.4 聚类效果分析对比
    4.3 本章小结
第5章 HN-DCK算法设计
    5.1 异构数据的研究背景
        5.1.1 相关工作
        5.1.2 相似性度量思想
    5.2 异构属性实例
        5.2.1 类别属性的耦合思想
        5.2.2 数值属性转换为类别属性
        5.2.3 Calinski-Harabasz有效性指数
        5.2.4 类别属性的相似性度量方法
        5.2.5 耦合属性值相似度
        5.2.6 属性内耦合属性值相似度
        5.2.7 属性间外部耦合相似度
        5.2.8 耦合上下文
        5.2.9 数值和类别属性的耦合
        5.2.10 数值数据的属性耦合
        5.2.11 PCA
    5.3 HN-DCK算法流程
    5.4 实证研究
    5.5 本章小结
第6章 总结与展望
    6.1 本章总结
    6.2 未来展望
参考文献
致谢
在学期间主要科研成果
    一、发表学术论文
    二、获奖情况

(5)基于用户行为的根因分析方法研究与设计(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 研究现状
    1.3 研究内容
    1.4 论文组织安排
第二章 根因分析相关理论及技术
    2.1 异常检测
    2.2 数据挖掘技术
        2.2.1 数据挖掘技术概述
        2.2.2 相关数据挖掘算法
    2.3 根因分析
    2.4 本章小结
第三章 基于用户行为常用根因分析方法研究
    3.1 引言
    3.2 Adtributor和iDice基本原理
        3.2.1 Adtributor算法基本原理
        3.2.2 iDice算法基本原理
    3.3 基于用户行为根因分析方法应用
        3.3.1 数据预处理
        3.3.2 算法应用
    3.4 本章小结
第四章 基于用户行为根因分析Hotspot方法研究
    4.1 引言
    4.2 算法整体设计
        4.2.1 指导思想
        4.2.2 算法整体框架介绍
    4.3 算法详细设计
        4.3.1 数据预处理
        4.3.2 维度价值求解
        4.3.3 蒙特卡洛搜索
        4.3.4 分层剪枝
        4.3.5 排序输出
    4.4 优化策略
    4.5 实验及结果分析
        4.5.1 实验数据
        4.5.2 实验环境和评价指标
        4.5.3 结果分析
    4.6 本章小结
第五章 基于用户行为根因分析Squeeze方法研究
    5.1 引言
    5.2 算法整体设计
        5.2.1 指导思想
        5.2.2 整体框架
    5.3 算法详细设计
        5.3.1 数据预处理
        5.3.2 聚类确定根因簇
        5.3.3 簇内求解
        5.3.4 簇间比较
    5.4 优化策略
    5.5 实验及结果分析
        5.5.1 实验数据
        5.5.2 实验环境和评价指标
        5.5.3 结果与分析
    5.6 本章小结
第六章 总结与展望
    6.1 研究工作总结
    6.2 未来工作展望
参考文献
缩略语
致谢
攻读学位期间发表的学术论文目录

(6)非独立同分布下异构数据KNN算法研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文主要内容
    1.4 论文组织结构
第2章 分类方法概述与分析
    2.1 数据挖掘概述
    2.2 分类分析技术概述
    2.3 决策树分类
    2.4 贝叶斯分类
        2.4.1 朴素贝叶斯分类法
        2.4.2 贝叶斯信念网络
    2.5 支持向量机分类
        2.5.1 线性可分支持向量机
        2.5.2 非线性可分支持向量机
    2.6 KNN分类算法
        2.6.1 KNN分类算法的三大要素
        2.6.2 KNN分类算法的主要流程
        2.6.3 KNN分类算法的优缺点
    2.7 人工神经网络
        2.7.1 人工神经元
        2.7.2 人工神经网络结构
        2.7.3 学习过程
    2.8 本章小结
第3章 非独立同分布学习的相关知识
    3.1 非独立同分布思想概述
    3.2 非独立同分布学习框架
    3.3 非独立同分布方法的相关研究
    3.4 非独立同分布下的KNN算法
    3.5 本章小结
第4章 CFW_KNN算法
    4.1 CFW_KNN算法基本思想
    4.2 CFW_KNN算法实现
        4.2.1 计算类隶属度
        4.2.2 计算特征权重
        4.2.3 更新类别决策规则
    4.3 CFW_KNN算法描述
    4.4 实验结果与分析
        4.4.1 算法评价指标
        4.4.2 实验数据
        4.4.3 实验结果分析
    4.5 本章小结
第5章 NIID_CFW_KNN算法
    5.1 非独立同分布下数值型数据耦合关系表示
        5.1.1 改进Pearson相关系数公式
        5.1.2 属性的内耦合表示
        5.1.3 属性间耦合表示
        5.1.4 数据对象的耦合表示
    5.2 NIID_CFW_KNN算法描述
    5.3 实验结果与分析
        5.3.1 算法评价指标
        5.3.2 实验数据
        5.3.3 实验结果分析
    5.4 本章小结
第6章 NIID_MCFW_KNN算法
    6.1 非独立同分布下异构数据耦合关系表示
        6.1.1 类别型数据的属性耦合表示
        6.1.2 类别型属性与数值型属性的耦合表示
        6.1.3 异构型数据对象的耦合表示
    6.2 NIID_MCFW_KNN算法描述
    6.3 实验结果与分析
        6.3.1 算法评价指标
        6.3.2 实验数据
        6.3.3 实验结果分析
    6.4 本章小结
第7章 总结和展望
    7.1 全文总结
    7.2 工作展望
参考文献
致谢
在学期间主要科研成果
    一、发表学术论文
    二、获奖情况

(7)面向医院管理的数据驱动决策研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 研究背景
    1.2 研究目的与意义
        1.2.1 研究目的
        1.2.2 研究意义
    1.3 国内外研究现状
        1.3.1 数据驱动决策的研究现状
        1.3.2 数据驱动医疗健康领域决策的研究现状
        1.3.3 数据驱动医院管理决策的研究现状
        1.3.4 数据驱动决策的影响因素研究现状
        1.3.5 研究现状述评
    1.4 研究框架与研究内容
        1.4.1 研究框架
        1.4.2 主要研究内容
        1.4.3 拟解决的关键问题
    1.5 研究方法和技术路线
        1.5.1 研究方法
        1.5.2 技术路线
第2章 相关基础理论和方法
    2.1 医院管理相关概念
        2.1.1 医院管理
        2.1.2 医院管理评价
        2.1.3 医院管理者
    2.2 决策支持相关理论
        2.2.1 西蒙决策理论
        2.2.2 数据驱动决策相关理论
    2.3 信息链理论
        2.3.1 信息链与信息技术
        2.3.2 “信息”上溯到“数据”带来的变化
        2.3.3 信息链视域下的数据驱动医院管理决策
    2.4 BASM模型
        2.4.1 BASM模型的产生
        2.4.2 BASM模型的研究现状
        2.4.3 基于BASM模型的数据驱动医院管理决策研究
    2.5 相关研究方法
        2.5.1 扎根理论
        2.5.2 结构方程模型
        2.5.3 决策树算法--CHAID
    2.6 相关应用场景
        2.6.1 医疗服务绩效
        2.6.2 DRG在医疗服务绩效管理中的应用
    2.7 本章小结
第3章 面向医院管理的数据驱动决策过程模型构建
    3.1 面向医院管理决策的数据驱动过程模型
        3.1.1 数据驱动决策模式运行机制
        3.1.2 BASM的过程模型
        3.1.3 基于BASM过程模型的数据驱动医院管理决策过程模型构建
    3.2 面向医院管理的数据驱动决策过程模型要素分析
        3.2.1 驱动要素
        3.2.2 需求要素
        3.2.3 支持要素
        3.2.4 要素间关系
    3.3 数据驱动的医院管理决策中数据处理过程
        3.3.1 医疗数据存在的问题
        3.3.2 面向医院管理决策的数据处理原则
        3.3.3 面向医院管理决策的数据处理过程
    3.4 面向医院管理的数据驱动决策过程模型运行机制
        3.4.1 面向医院管理决策的信息链转化过程
        3.4.2 数据驱动的医院管理决策制定过程
    3.5 本章小结
第4章 基于扎根理论的数据驱动医院管理决策的影响因素分析
    4.1 研究问题与研究程序
        4.1.1 研究问题
        4.1.2 研究方法
        4.1.3 研究程序
    4.2 研究设计
        4.2.1 研究对象选取
        4.2.2 资料收集
        4.2.3 信效度检验
    4.3 编码分析
        4.3.1 开放式编码
        4.3.2 主轴编码
        4.3.3 选择性编码
        4.3.4 理论饱和度检验
    4.4 数据驱动医院管理决策影响因素理论模型与阐释
        4.4.1 影响因素理论模型构建
        4.4.2 影响因素分析
        4.4.3 影响因素关系分析
    4.5 本章小结
第5章 数据驱动医院管理决策的影响因素模型构建
    5.1 数据驱动医院管理决策影响因素变量选择与界定
        5.1.1 医疗数据质量维度
        5.1.2 信息技术维度
        5.1.3 医院组织管理维度
        5.1.4 管理者信息素养维度
        5.1.5 数据驱动医院管理决策维度
    5.2 相关研究假设
        5.2.1 医疗数据质量
        5.2.2 信息技术
        5.2.3 医院组织管理
        5.2.4 管理者信息素养
    5.3 调查问卷的编制与问卷修正
    5.4 数据获取与统计分析
        5.4.1 研究对象
        5.4.2 样本量的选择
        5.4.3 信度分析
        5.4.4 样本分布
        5.4.5 样本数据相关性
    5.5 效度分析
        5.5.1 探索性因子分析
        5.5.2 验证性因子分析
    5.6 基于结构方程的影响因素模型构建与检验修正
        5.6.1 影响因素模型构建
        5.6.2 模型基本适配评估
        5.6.3 假设检验的结果
    5.7 结构方程模型检验结果分析
        5.7.1 影响因素强度分析
        5.7.2 医疗数据质量对信息技术影响的验证结果分析
        5.7.3 信息技术对数据驱动医院管理决策影响的验证结果分析
        5.7.4 医院组织管理对医疗数据质量影响的验证结果分析
        5.7.5 医院组织管理对管理者信息素养影响的验证结果分析
        5.7.6 医院组织管理对数据驱动医院管理决策影响的验证结果分析
        5.7.7 管理者信息素养对医疗数据质量影响的验证结果分析
        5.7.8 管理者信息素养对信息技术影响的验证结果分析
        5.7.9 管理者信息素养对数据驱动医院管理决策影响的验证结果分析
    5.8 本章小结
第6章 面向医院管理的数据驱动决策模型研究
    6.1 数据驱动医院管理决策模型构建
    6.2 面向医院管理的数据驱动决策模型的驱动机制
        6.2.1 面向医院管理的数据驱动决策模型的驱动目标
        6.2.2 面向医院管理的数据驱动决策模型的驱动特征
        6.2.3 面向医院管理的数据驱动决策模型的驱动过程
    6.3 数据驱动医院管理决策模型影响因素的作用机制
        6.3.1 医疗数据质量在数据驱动决策模型中的影响机制
        6.3.2 信息技术在数据驱动决策模型中的影响机制
        6.3.3 医院组织管理在数据驱动决策模型中的影响机制
        6.3.4 管理人员素养在数据驱动决策模型中的影响机制
    6.4 数据驱动医院管理决策模型对医院管理的提升策略
        6.4.1 提升医疗数据质量
        6.4.2 发挥信息技术使能作用
        6.4.3 发挥医院组织管理支持作用
        6.4.4 提高管理人员信息素养
    6.5 本章小结
第7章 面向医院管理的数据驱动决策的实证研究
    7.1 资料来源与研究对象
    7.2 原发性肺癌患者的DRGS分组
        7.2.1 数据基础
        7.2.2 数据纳入
        7.2.3 术语映射
        7.2.4 DRGs分组结果对比
    7.3 基于DRGS细分组的医疗服务绩效评估
        7.3.1 基于决策树的原发性肺癌患者DRGs细分组模型
        7.3.2 基于DRGs细分组的医疗服务绩效评估指标
        7.3.3 医生医疗服务绩效指标统计结果
        7.3.4 科室医疗服务绩效指标统计结果
    7.4 讨论
        7.4.1 数据驱动医院管理决策过程
        7.4.2 数据驱动医院管理决策影响因素
    7.5 本章小结
第8章 结论与创新
    8.1 结论
    8.2 研究创新点
    8.3 研究局限
参考文献
附录1 病案组DRGS分组情况
附录2 医生组DRGS分组情况
附录3 访谈提纲
附录4 调查问卷
作者简介及在学期间所取得的科研成果
后记与致谢

(8)高速铁路调度集中系统硬件可靠性分析方法研究(论文提纲范文)

致谢
摘要
ABSTRACT
1 绪论
    1.1 研究背景及意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 研究现状
        1.2.1 调度集中系统硬件可靠性分析研究现状
        1.2.2 数据挖掘可靠性分析研究现状
    1.3 研究内容及技术路线
        1.3.1 技术路线
        1.3.2 研究内容
2 基于数据挖掘的调度集中系统硬件可靠性分析方法
    2.1 调度集中系统的体系结构及硬件设备
    2.2 调度集中系统的硬件可靠性分析方法
    2.3 基于数据挖掘的可靠性分析方法的基本流程
    2.4 本章小结
3 车站自律机硬件故障的失效因素和现场可靠性数据
    3.1 车站自律机硬件故障的失效因素
        3.1.1 硬件故障和失效因素
        3.1.2 硬件故障可靠性问题说明
        3.1.3 硬件故障和失效因素间的不确定性关系
    3.2 车站自律机硬件现场可靠性数据
        3.2.1 数据采集
        3.2.2 数据预处理
    3.3 基于环境失效因素的自律机硬件现场可靠性数据集
    3.4 本章小结
4 基于聚类分析的自律机硬件故障失效因素分析决策模型
    4.1 理论基础
        4.1.1 聚类分析
        4.1.2 粗糙集理论
        4.1.3 基于近似不可分辨关系的粗糙集理论和聚类分析的联系
    4.2 自律机硬件故障失效因素分析决策模型
        4.2.1 基于聚类分析的等价类划分
        4.2.2 基于近似不可分辨关系的粗糙集决策模型
    4.3 环境失效因素分析
        4.3.1 单一因素分析
        4.3.2 耦合因素分析
        4.3.3 验证分析
    4.4 本章小结
5 结论与展望
    5.1 研究结论
    5.2 研究展望
参考文献
图索引
表索引
作者简历及攻读硕士学位期间取得的科研成果
学位论文数据集

(9)铁路通信承载网智能网管系统功能架构设计研究(论文提纲范文)

致谢
摘要
ABSTRACT
第1章 引言
    1.1 研究背景
    1.2 国内外研究情况
    1.3 研究解决的主要问题及关键技术分析
        1.3.1 解决的主要问题
        1.3.2 关键技术分析
    1.4 研究路线与研究方法
        1.4.1 研究路线
        1.4.2 研究方法
    1.5 工程价值与意义
    1.6 本论文的主要工作
    1.7 有待深入研究的问题
    1.8 论文的研究内容与结构
第2章 承载网技术概述
    2.1 承载网光纤技术
        2.1.1 光纤结构
        2.1.2 光的传输原理
    2.2 承载网设备原理
        2.2.1 MSTP原理
        2.2.1.1 SDH的帧结构及复用
        2.2.1.2 映射、定位和复用
        2.2.2 OTN设备原理
        2.2.3 数据网设备原理
    2.3 本章小结
第3章 承载网网络有效管理问题
    3.1 概述
    3.2 铁路承载网网管现状
    3.3 铁路承载网专业网管存在的问题
        3.3.1 设备运行性能分析功能单一
        3.3.2 资源统计无法进行定制
        3.3.3 任务管理未实现自动化
        3.3.4 智能运用功能不足
    3.4 铁路承载网智能化建设问题
    3.5 本章小结
第4章 承载网设备性能数据挖掘
    4.1 网络数据概述
        4.1.1 告警的关联性
        4.1.2 设备性能的渐变性
    4.2 数据挖掘目标
    4.3 数据挖掘理论
    4.4 数据挖掘算法
        4.4.1 决策树算法
        4.4.2 关联规则
        4.4.3 粗糙集
        4.4.4 人工神经网络算法
        4.4.5 遗传算法
        4.4.6 聚类分析
    4.5 关联规则表述
        4.5.1 Apriori算法介绍
    4.6 性能数据归类
    4.7 本章小结
第5章 智能网管系统功能架构设计
    5.1 概述
    5.2 系统需求分析
        5.2.1 用户用例分析
        5.2.2 系统功能需求
    5.3 资源管理
        5.3.1 资源的分类
        5.3.2 铁路通信承载网源现状
        5.3.3 资源模块
    5.4 任务管理
        5.4.1 设备巡检
        5.4.2 工单管理
    5.5 智能运用
        5.5.1 网络架构验证
        5.5.2 业务等级管理
        5.5.3 差异化告警管理
        5.5.4 告警集中管控
    5.6 设备健康度分析
    5.7 应用验证
    5.8 本章小结
第6章 结论与展望
    6.1 研究总结
    6.2 研究展望
参考文献
作者简历及攻读学位期间取得的科研成果
学位论文数据集

(10)基于特征选择的体育运动效果评估方法研究(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究背景与意义
        1.1.1 特征选择研究
        1.1.2 体育运动效果研究
        1.1.3 研究意义
    1.2 相关工作
        1.2.1 特征选择的相关工作
        1.2.2 体育运动效果评估的相关工作
    1.3 论文的主要研究内容
    1.4 论文的组织结构
第2章 SED数据库建立
    2.1 数据获取
    2.2 数据预处理
    2.3 数据库建立
    2.4 本章小结
第3章 基于弹性网络的体育运动效果评估技术
    3.1 引言
    3.2 相关理论介绍
        3.2.1 l_1正则化
        3.2.2 l_2正则化
        3.2.3 弹性网络
    3.3 基于弹性网络的体育运动效果评估技术
    3.4 实验结果与分析
        3.4.1 实验设置
        3.4.2 结果与分析
    3.5 本章小结
第4章 基于随机森林的体育运动效果评估技术
    4.1 引言
    4.2 相关理论介绍
        4.2.1 信息增益
        4.2.2 随机森林
    4.3 基于随机森林的体育运动效果评估方法技术
        4.3.1 构建决策树
        4.3.2 基于随机森林的评估方法
    4.4 实验结果与分析
        4.4.1 实验设置及评价标准
        4.4.2 结果与分析
    4.5 本章小结
第5章 总结与展望
    5.1 研究总结
    5.2 研究展望
参考文献
攻读学位期间取得的学术成果
致谢

四、目前数据挖掘算法的评价(论文参考文献)

  • [1]铁路机车设备画像理论及关键技术研究[D]. 李鑫. 中国铁道科学研究院, 2021(01)
  • [2]大学生学业成绩与毕业去向的数据挖掘研究[D]. 王如意. 东北农业大学, 2021
  • [3]基于AIS数据的轨迹段聚类方法研究[D]. 郭昊. 南京信息工程大学, 2021(01)
  • [4]非独立同分布下异构数据K-means聚类算法研究[D]. 相益萱. 齐鲁工业大学, 2021(10)
  • [5]基于用户行为的根因分析方法研究与设计[D]. 刘正望. 北京邮电大学, 2021(01)
  • [6]非独立同分布下异构数据KNN算法研究[D]. 孙聪慧. 齐鲁工业大学, 2021(10)
  • [7]面向医院管理的数据驱动决策研究[D]. 李茵. 吉林大学, 2021(01)
  • [8]高速铁路调度集中系统硬件可靠性分析方法研究[D]. 韩浪. 中国铁道科学研究院, 2021(01)
  • [9]铁路通信承载网智能网管系统功能架构设计研究[D]. 何兆贤. 中国铁道科学研究院, 2021(01)
  • [10]基于特征选择的体育运动效果评估方法研究[D]. 李佳佳. 山东财经大学, 2021(12)

标签:;  ;  ;  ;  ;  

当前数据挖掘算法的评估
下载Doc文档

猜你喜欢