海量实时数据的信息检索算法

一、一种面向海量实时数据的信息检索算法（论文文献综述）

陈秋瑾^[1]（2021）在《基于微服务架构与知识图谱技术构建无人机知识库系统》文中研究说明近年来,随着无人机技术的飞速发展以及逐年上涨的市场需求,无人机在各领域得到广泛应用且发挥着重要作用。随着“互联网+”时代的到来以及大数据技术的迅速发展,互联网中信息数据呈现指数增长趋势,如何在信息爆炸的时代获取所需的有效信息成为亟待解决的问题。本文采用B/S服务器模式,以分布式微服务架构为基础,基于分布式及增量式爬虫技术获取互联网中与无人机等应用领域相关的海量数据,采用自然语言处理、知识图谱、机器学习等算法从海量的非结构化文本数据中提取挖掘隐含及潜在价值知识,并利用Echarts组件及知识图谱等算法进行可视化分析,最后形成定制化的无人机知识库。主要研究内容如下:（1）知识获取及存储技术。系统以Scrapy为爬虫框架,采用分布式结合增量式爬虫技术从互联网中高效地获取无人机行业相关的海量数据;采用Redis高速缓存数据库存储爬取的URL网址,结合My SQL关系型数据库稳定地存储最终得到的结构化数据。（2）系统构建流程及架构设计。利用云计算技术的大数据管理平台,基于分布式服务器与大数据技术搭建系统,采用自底向上为主、自顶向下为辅的方式构建知识库;由于系统爬取任务量的增加及分布式服务器的需求,系统的架构也由最初的SMM单体式架构优化升级为Spring Cloud分布式微服务架构,以提高系统的扩展性及移植性。（3）数据提取及知识抽取技术。采用类机器学习机制半自动化地提取非结构化文本数据,通过构建自定义的规则库训练样本数据,提取出标签以匹配提取出的结构化数据;并利用自然语言处理等算法从获取的文本数据中提取关键句并生成文章的摘要信息;通过知识图谱等算法实现对获取的文本数据的知识抽取,最终抽取出结构化的知识元加入进知识库中,以实现知识库的知识发现与知识挖掘功能。（4）知识表示及数据可视化分析。采用知识树形式进行知识表示,并采用Echarts技术、知识图谱等可视化技术对获取及处理后的数据进行数据可视化分析,并以各类统计图表、关键字云图、机构同现及作者同现图等形式展现,直观清晰地展示无人机等行业领域的研究现状与发展趋势。

曹越^[2]（2021）在《移动O2O情境下用户信息搜寻行为研究》文中研究说明数字经济背景下,数据驱动的新技术与新模式不断涌现,信息已成为社会发展进程中不可或缺的基础性和战略性资源。随着移动互联网与手机等智能终端的全面普及,各类移动应用给人们的生活方式带来了颠覆性变革,人们获取信息的主要渠道开始由PC端向移动端迁移,因此移动情境下的用户信息行为成为当前的热点研究领域。与此同时,移动互联网与线下实体经济的联系日益紧密,线上线下融合趋势明显,本地生活O2O服务成为继电子商务之后新一个万亿级市场,移动O2O开始全面融入人们的日常生活,并拓展到教育、医疗、养老、城市管理、社区服务等诸多领域,大大加速了全社会的整体数字化进程。作为一种基于移动网络和线上线下交互的新型商业模式,移动O2O能够充分发挥手机的便携性、位置的可追踪性、高互动性等优势,渗透到居民生活的每个角落,随时随地为用户提供个性化、场景化的优质服务。技术进步带来了信息资源的爆炸性增长和信息异质性、复杂性的激增,然而个体的认知容量和信息处理能力却是有限的,二者之间的矛盾导致当代网络用户面临着严重的信息超载问题以及巨大的信息搜寻压力,因此如何提高信息搜寻效果、改善信息搜寻体验成为学术界和产业界共同关注的焦点问题。与传统的基于PC端的网络信息搜寻相比,移动O2O情境下的信息搜寻场景和内容更加复杂,且在用户的需求动机、搜寻渠道、方式与策略等方面均存在显着性差异,表现出独特的行为特征与内在逻辑,可见有必要对其展开针对性研究。然而,对于这种融入了线下场景的移动O2O情境下的用户信息搜寻行为,目前学者们尚未给予足够的的关注和重视,相关理论成果有待补充。故而,本研究以移动O2O情境为切入点,将用户线上与线下的信息搜寻行为有机融合,在综合运用多种研究方法与研究理论的基础上,针对移动O2O情境下的用户信息搜寻行为的整体理论模型及行为的“动机—过程—结果”展开系统性研究,以揭示移动O2O情境下用户信息搜寻行为的特征与规律,探寻其影响因素及相应的作用机制,从而针对性地提出移动O2O情境下用户信息搜寻行为的引导和优化策略,为移动O2O平台和商家改进信息服务及推荐系统、构建“以用户为中心”的信息服务体系提供参考与借鉴。本研究主要开展了以下几方面的工作:（1）在全面梳理信息搜寻经典理论、模型与现有研究成果的基础之上,基于扎根理论与深度访谈法对移动O2O情境下用户信息搜寻行为的过程、内在机理与影响因素进行了探索性研究,从全局视角出发,构建了移动O2O情境下用户信息搜寻行为的理论模型。该模型描述了移动O2O情境下用户从产生信息需求到结束信息搜寻行为的全过程及行为机理,包括信息需求认知、信息搜寻渠道选择、信息搜寻策略选择、信息筛选与评价和信息搜寻结果五个阶段;并总结归纳了会对该过程产生影响的各方面因素,包括个体特征、信息素养、感知成本、感知风险和情感因素等主观影响因素,以及情境因素、技术因素、社群影响、任务特征和产品特征等客观影响因素。新模型能够较好地体现移动O2O情境下用户信息搜寻行为的特征与规律,拓展了信息搜寻研究情境,是对用户信息行为研究的有益补充,也为后续定量研究的开展提供了理论支撑。（2）从搜寻动机角度出发,采用结构方程模型方法对移动O2O情境下用户信息搜寻行为的驱动因素进行了实证研究,从而挖掘用户行为的内在心理动机、外生影响因素以及相应的影响机制。在对移动O2O情境下用户信息搜寻行为的特征进行总结分析的基础之上,以“动机、机会、能力”（MOA）模型和技术接受与使用统一理论（UTAUT）作为参考,引入信息需求、感知成本、感知风险、情感因素等新变量,构建移动O2O情境下用户信息搜寻行为驱动因素模型,然后通过问卷调查采集数据,借助SPSS 21.0,Smart PLS 3.0等软件进行数据分析与模型检验。实证研究结果表明:绩效期望、信息需求、努力期望、情感因素和社会影响对移动O2O情境下用户信息搜寻意向的正向影响显着,而感知风险则对其有显着负向影响;搜寻意向、便利条件和搜寻能力三个变量之间存在交互关系,只有在三者兼备的条件下,信息搜寻行为才会发生。（3）从搜寻过程角度出发,通过用户实验方法探索了个体特征与任务特征对移动O2O情境下用户信息搜寻行为过程的影响。采用半受控形式的用户实验方法,在尽量还原真实移动O2O情境的前提下,邀请了48位被试者完成4个模拟情境下的信息搜寻任务,并通过屏幕录制软件（录屏大师APP）辅以出声思考法采集信息搜寻行为数据。然后以个体特征和任务特征作为自变量、信息搜寻行为指标作为因变量采集相应数据进行量化分析,考察在不同任务情境下、具有不同个体特征的用户如何选择信息搜寻的渠道、方式和策略,探索相应的行为规律。其中个体特征通过大五人格特征量表（NEO-FFI）进行测度,包括神经质、外向性、开放性、宜人性与尽责性五个维度,任务特征则通过复杂性和紧迫性两个维度进行分类。研究结果有助于移动O2O平台与服务提供商针对不同任务情境和用户群体改进搜索系统和交互界面、优化信息资源提供方式,实现更加精准高效的信息推荐以及更具个性化的信息服务。（4）从搜寻结果角度出发,基于信息增益理论和支持向量机（SVM）算法对移动O2O情境下用户信息搜寻满意度的关键影响因素进行了识别。在文献回顾与用户访谈的基础上,对移动O2O情境下用户信息搜寻满意度的影响因素进行整理和归纳,最终提取出涵盖用户、信息、技术、环境与渠道五个维度的一共57个影响因素,以此为依据设计调查问卷并收集数据,得到313个有效样本。然后运用信息增益理论对各个影响因素与用户信息搜寻满意度之间的关联程度进行量化分析,借助SQL软件计算各因素的信息增益值并进行排序,由此识别出移动O2O情境下用户信息搜寻满意度的16个关键影响因素（包括便捷性、信息有用性、个性化需求满足、位置相关性、经济性、需求认知能力、产品/服务差异性、信息筛选能力、信息时效性、信息技术能力、周边环境、商家服务态度、渠道信任度、界面友好性、可操作性和信息形式）。在此基础上利用SVM算法构建移动O2O情境下用户信息搜寻满意度预测模型,数据检验结果显示,该模型在测试集中的分类精确度达到了86.79%,说明模型具有较高的预测能力,由此也验证了通过信息增益理论识别出的关键影响因素的合理性和有效性。（5）在前述研究的基础上,重点从移动O2O平台和实体商家角度出发,兼顾用户、政府和行业监管方等多个视角,分别提出了移动O2O情境下用户信息搜寻行为的引导策略和优化策略,以期为促进移动O2O情境下用户信息搜寻行为、提升移动O2O情境下用户信息搜寻效果提供一些切实可行的建议和参考。

王益成^[3]（2020）在《数据驱动下科技情报智慧服务模式研究》文中提出从“信息时代”到“数据驱动”的智慧服务时代,多源异构且海量的数据资源成为人们解决问题的出发点。将多源异构且海量的数据资源纳入科技情报智慧服务模式中,不再局限于传统科技情报服务涉及的专利数据、科技文献数据、实地调研数据与科技项目数据等,还应该涵盖更广范围的互联网数据资源、科研社交媒体数据资源、社交网络数据资源与政府开放数据资源等多种来源的数据形式。数据资源驱动着科技情报服务从用户需求感知、科技情报内容获取与科技情报服务场景化推送这三个核心功能实现科技情报智慧服务模式,实现了科技情报服务流程的创新。本研究旨在以新视角探索数据驱动时代科技情报智慧服务模式及其实现,解析科技情报智慧服务构成要素及其特征,以实证分析探索数据驱动时代科技情报服务向智慧服务模式转型的思路,为科技情报机构科学转型提供理论与实践支撑。基于此,通过界定“数据驱动”、“情报、智能与智慧的辩证关系”、“智慧服务”与“科技情报智慧服务”等相关概念,以回顾智慧服务、科技情报服务与科技情报智慧服务研究现状为基础,综合运用文献调研法、问卷调查法、情境实验法、案例分析法与模式构建法分析了科技情报智慧服务的数据环境、驱动模式、创新模式与模式实现以及保障策略的制定。围绕科技情报智慧服务模式这一核心研究内容,本文第三章从科技情报智慧服务模式构成要素及表现特征为出发点对智慧数据、用户需求、智能技术、智慧情报、情报工作者、智慧服务平台与情报分析方法这七个维度进行详细阐述,分析了各构成要素在科技情报智慧服务模式中的地位以及数据驱动各构成要素的融合协作的服务特征;第四章以“数据驱动”视角切入科技情报智慧服务模式构建研究,更多的体现智慧数据服务作为智慧服务的核心构成要素,实现数据驱动科技情报智慧服务,获取用户需求,利用智能技术分析获取情报,实现场景化服务推送与嵌入式的科技情报服务;第五章就如何实现数据驱动科技情报智慧服务进行了详细阐述,从多源数据分析切入科技情报智慧服务模式的实现研究过程,体现了数据驱动作为科技情报服务的新范式与新思想,着重从需求感知、内容获取与服务推送等三个科技情报服务流程构成解析科技情报智慧服务模式实现路径,综合运用用户画像方法、数据挖掘方法与场景分析和需求侦测方法对科技情报智慧服务模式进行解析,并融入科研大数据在此过程中结构、类型与属性分析结果进行解析,探究这些数据在需求感知、内容获取与服务推送中的应用关系,进而实现科技情报智慧服务模式并完善科技情报智慧服务研究体系;第六章采用单案例横向研究方法研究格微软件数据驱动背景下科技情报智慧服务模式的系统优化策略;第七章就如何实现科技情报机构实现智慧服务模式转型升级分析了相关保障策略。具体内容如下:（1）系统分析了科技情报智慧服务模式核心构成要素与特征。构成要素涵盖数据、用户、技术、智慧情报、科技情报工作者、智慧服务平台与方法等七个维度,将从这七个维度进行深入分析,并在此基础上讨论数据驱动下科技情报智慧服务实现的理论与实践基础,进而对科技情报智慧服务的需求敏感性、数据多源性、技术智能性与服务场景化等四个主要特征进行解读。系统分析科技情报智慧服务构成要素是构建科技情报智慧服务模式的基础,在文献调研并借鉴其它领域实践经验的基础上对各个构成要素进行详细分析。数据、用户、技术、内容、科技情报工作者、智慧服务平台与方法等七个维度间相互关联、相互印证,进一步丰富着科技情报智慧服务研究领域的知识体系。（2）构建了数据驱动下的科技情报智慧服务模式。从“数据驱动”视角切入科技情报智慧服务模式构建研究,更多的体现智慧数据服务作为智慧服务的核心构成要素,实现数据驱动科技情报智慧服务,获取用户需求,利用智能技术分析获取情报,实现场景化服务推送与嵌入式的科技情报服务。在此过程中优化传统科技情报服务模式,优化构成科技情报智慧服务的各个构成要素,实现模式最优化并体现科技情报智慧服务的四个特征,通过文献调研法探讨已有服务模式的优劣势,重构科技情报服务模式与流程,重点突出智慧实现流程,数据如何驱动智慧情报服务。（3）分析了数据驱动下科技情报智慧服务的实现路径。以科技情报智慧服务模式实现的三项核心功能为基础,在实现智慧服务核心功能基础上实现科技情报智慧服务,从多源科研大数据分析切入科技情报智慧服务模式的实现研究过程,体现了数据驱动作为科技情报服务的新范式与新思想,着重从需求感知、内容获取与服务推送等三个科技情报服务流程构成解析科技情报智慧服务模式实现路径,综合运用用户画像方法、数据挖掘方法与场景分析和需求侦测方法对科技情报智慧服务模式进行解析,并融入科研大数据在此过程中结构、类型与属性分析结果进行解析,探究这些数据在需求感知、内容获取与服务推送中的应用关系,进而实现科技情报智慧服务模式并完善科技情报智慧服务研究体系。（4）采用单案例横向研究方法研究格微软件数据驱动背景下科技情报智慧服务模式的系统优化策略,在分析格微软件基本概况与发展现状的基础上,进而分析格微软件科技情报智慧服务发展模式,并对其较为超前的实践应用成果进行分析,然后借鉴前述构建的科技情报智慧服务模式及其实现研究,提出格微软件在数据驱动背景下科技情报服务模式优化的策略。（5）制定数据驱动下科技情报智慧服务模式保障策略。以构成数据驱动下科技情报智慧服务模式的构成要素以及智慧服务模式实现过程为主体制定数据驱动下科技情报智慧服务模式保障策略,具体维度包含数据、用户、科技情报工作者、科技情报服务机构、政府部门、技术与方法等维度。如完善数据安全保障机制,完备数据分析技术、方法与工具,科技情报服务人才队伍建设,建立健全相关法律法规等。制定数据驱动下的科技情报智慧服务模式保障策略应依据重点保障关键要素、完备并疏通科技情报智慧服务流程、科技情报智慧服务整体平衡、联合共建共享等四项基本原则。数据驱动时代,传统科技情报服务模式已然无法满足用户崛起的趋势以及内外环境面临的机遇与挑战,界定数据驱动科技情报智慧服务的内涵与外延,探索科技情报智慧服务模式的实现,有利于从方法论认知层面为科技情报智慧服务的转型升级提供理论支撑,本文构建的数据驱动科技情报智慧服务模式也更具实践价值。

许烨婧^[4]（2020）在《多媒体网络舆情信息的并发获取机理与话题衍进追踪研究》文中研究指明大数据技术、云计算技术、人工智能等技术的高速发展大大加持了多媒体、移动媒体、自媒体等各种媒体网络空间的多层次、丰富化、人性化设计,其功能的便捷化、智能化吸引了越来越多网民的关注与使用,各种多样化的互联网络空间承载了网络民众的海量言论与信息行为,这些都对健康网络环境的营造提出了更大的挑战。党的十九大报告提到“加强互联网内容建设,建立网络综合治理体系,营造清朗的网络空间”。网络舆情作为互联网络内容的重要体现之一,对其展开理论与实践研究具有重要意义。网络舆情从广义上讲即是网络民众观点、意见、态度、情绪在网络空间中的集中体现。网民借助强大的互联网络平台进行表达的意愿也越来越强。由此,引发的网络舆情信息获取与管理问题随之出现。而网络舆情信息的科学管理源于对网络舆情信息的有效获取与分析,那么,如何精准、快速获取网络舆情信息成为了亟待解决的问题。根据大量文献调查与研究,可以看出网络舆情受社会环境、客观事实、民众认知、网络媒体等要素综合协同影响而产生。由此,要充分考虑、整合上述诸多影响要素,展开对各种技术支持环境下的网络舆情信息获取分析。由于网络舆情信息的隐匿性、突变性、多元性、交互性、随机性等特征,加之其信息显性与隐性呈现状态的互相转换,亟需一种系统的定性分析与定量计算相结合的方法,实现舆情信息获取及其获取效果测度,以提高网络舆情信息获取的客观性、精准性、高效性。怀揣对以上问题的深度思考,本文尝试探索多媒体网络舆情信息并发获取机理与话题衍进追踪的相关理论与实践研究,进而提供更为客观科学的网络舆情信息获取路径与方法。目前,多媒体网络舆情信息的并发获取机理与话题衍进追踪的相关研究较少,对于多媒体网络舆情信息并发获取概念、内涵尚无明确界定,有关话题追踪的文献更多的是侧重于相关技术的研究,尚未对舆情话题衍进追踪进行全面而系统的理论与实践分析。鉴于此,本文综合信息学、管理学、情报学、统计学、计算机科学等多种学科优势共同探讨多媒体网络舆情信息的并发获取机理与话题衍进追踪。明确了多媒体网络舆情信息并发获取的概念、特征、流程,深度解析了网络舆情信息并发获取机理,构建了网络舆情信息并发获取模型,探索了网络舆情话题衍进追踪的内涵、过程,详细分析了网络舆情话题的衍进态势,并构建了动态的追踪模型,通过实证研究的方式验证了模型的合理性与可行性,以期从理论与实践两个方面展开网络舆情信息并发获取机理与话题衍进追踪的深度研讨,提高网络舆情信息获取的有效性,从而更好更快响应网络舆情的科学实践管理,进一步丰富网络舆情的基础理论与实践应用研究。本文的主要研究内容包括以下几个方面。第一,通过对国内外相关文献的总结归纳,借鉴当前网络舆情相关理论与方法研究,提出了多媒体网络舆情并发获取的概念、特征、原则,将网络舆情信息并发获取数据源划分为舆情主体、舆情客体、舆情媒体、舆情本体四种类型的数据源,并探讨了多媒体网络舆情信息并发获取的流程。第二,基于前文的基础研究,探寻了多媒体网络舆情信息并发获取的支撑动力,分析了网络舆情信息并发获取的时态属性,从单维时序的角度描述了网络舆情信息并发获取的数据源形成机理、线程管控机理、数据监视累积机理、数据采集存储机理、数据触发机理;从多维态势的角度描述了网络舆情信息并发获取的话题衍进机理、话题衍进追踪机理。最后解析了多媒体网络舆情信息并发获取的机理相互作用关系。第三,根据单维时序的多媒体网络舆情信息并发获取的机理分析,明确了网络舆情信息并发获取的构成要素,综合运用DEMATEL分析法、AHP分析法、FMF分析法构建了网络舆情信息并发获取模型。通过爬虫软件采集数据,根据模型计算过程进行数值计量,最后总结研究结果。第四,参考查阅相关文献信息,阐述了多媒体网络舆情话题衍进追踪的内涵及特性,明确了网络舆情话题衍进追踪过程,从时间变化的角度解析了网络舆情话题衍进的追踪态势,阐明了多媒体网络舆情信息并发获取与话题衍进追踪之间的关联关系,构建了多媒体网络舆情话题衍进追踪概念模型,并分析了舆情话题衍进过程中各时期的追踪特征。第五,在多媒体网络舆情话题衍进追踪理论分析的基础上,明晰多媒体网络舆情话题衍进追踪目标,从抽象---具象化角度对其展开深入探讨,分析了多媒体网络舆情话题衍进追踪的流程,从网络舆情话题衍进指数、强度、关联度、漂移度四个方面构建多媒体网络舆情话题衍进追踪模型。依据构建的模型,采集数据,进行实证分析。第六,根据多媒体网络舆情信息并发获取与话题衍进追踪的研究结论,从网络舆情客体、主体、媒体、本体、情境五个维度提出了较为具体的管控策略,充分分析与利用有效获取的网络舆情信息,为网络舆情的综合治理提供客观、可行的策略支持。本研究拓宽了网络舆情的研究范畴,从多视阈角度融入了新的探索理念,丰富了多媒体网络舆情信息并发获取机理与话题衍进追踪的理论研究。通过数理分析、模型构建、实证研究的方式提供了一套较为完整的网络舆情信息并发获取与话题衍进追踪应用实践量化体系,为大数据环境下多媒体网络舆情的管控治理提供了可行的管理策略,有助于净化网络舆情环境,促进网络舆情走势的良性化。

陈东华^[5]（2020）在《面向决策支持的医学文本语义分析方法研究》文中研究说明随着医疗信息化的快速发展,医疗信息系统中存储着各类医疗数据的体量不断增长,海量异构医疗数据的分析成为推动医疗健康领域管理决策支持的挑战。医学文本信息是推动该领域相关研究的重要数据基础。患者的电子病历中包含了大量症状、诊断、病程、会诊等文本信息,充分利用这些包含丰富临床医学知识的医学文本对医疗健康领域决策支持非常重要。然而,当前这些有价值的医学文本却难以有效地应用在实际医院管理、临床决策支持、个人健康管理、公共卫生决策等实际场景中,原因包括:非结构化医学文本无法精准结构化、医学文本丰富的语义信息致使难以分析、医学文本信息无法脱离具体的医学情境、不一致的医疗信息标准导致信息交换困难、不同医疗机构之间共享数据机制的缺失等。这些问题的根源在于医学文本是特殊的专业领域语言,不仅具有各类语义信息,还包含丰富医学领域知识。有效的医学文本语义分析成为解决这些难题的关键技术。当前语义分析研究更多地是研究面向通用领域的自然语言处理技术,相关技术虽然在方法上进行创新,却无法结合医学场景和领域知识推动医学文本语义的分析,致使无法为机器学习乃至深度学习模型提供高质量训练数据集,降低决策的质量。同时,海量医疗文本在分布式计算环境的分析和处理也成为利用这些数据分析决策的障碍和挑战,现有研究遇到了方法和性能上的瓶颈。本博士研究依托国家自然科学基金重点项目“大数据驱动的智慧医疗健康管理创新”（编号:71532002）,在充分对国内外理论和技术文献综述基础上围绕着面向决策支持的医疗文本语义分析相关方法进行研究,研究内容包括医学场景下的文本语义分析、医疗信息标准化、领域知识建模、机器学习和大数据分析等方法,解决当前医疗信息行业中海量医学文本数据挖掘和分析的难题,为大数据时代下我国医疗信息化发展提供借鉴。研究内容和结果如下:（1）基于自然语言处理的医学文本结构化和标准化方法首先分析现有中文和英文电子病历中存在的医学文本特征和信息结构,建立基于N-Gram的医学文本语义模型。然后,针对非标准化的医学叙述性文本,研究具体的医学文本分析任务,对医学文本进行分词、词性标注、语义关系提取等分析,提出针对中文病历文本的自动结构化处理方法;结合医学场景的语义和语境知识,以中文超声检查报告分析为例,对该类文本关键信息进行分解、标注和重组。结果表明,基于语义分析的医学文本分析方法在医学文本结构化、分词、标注等文本分析任务的性能得到明显提升。（2）基于领域知识库的医学文本语义分析和知识发现方法首先研究医学领域的相关知识库,并分析这些知识库在医学文本数据挖掘和知识发现上的应用前景。然后,为了解决医学文本语义相似度计算方法,提出一种基于加权Levenshtein距离和N-Gram的文本相似度计算方法。为了解决医学概念相似度计算的问题,提出基于UMLS的医学文本相似度和相关性度量的计算方法。结果表明,在融入医学文本语义特征和领域知识库中医学概念文本定义信息后,基于文本相似度和相关性计算的医学文本分析任务能更好地满足实际需求。最后,针对医院中计算机辅助ICD编码的决策支持场景,融合Word Net语义知识库,提出一种基于语义分析的计算机辅助ICD-11编码方法,提高患者诊断信息编码的精确度和ICD编码员的工作效率。（3）面向决策支持的海量医学文本分析方法及应用案例研究在研究内容（1）和（2）基础上研究面向海量医学文本分析的方法和应用案例,并提出大数据分析性能自动优化方法。首先,研究面向具有复杂结构的医学文本的主题建模方法,分析相关机器学习算法在不同场景的应用特点;然后,针对海量医疗文本数据的分析,创新地提出基于Map Reduce分布式计算模型的医学文本处理方法,并以医疗数据的关联操作和自动编码等应用场景,对提出的分布式医学文本分析方法性能进行实验和分析。最终,提出基于无导数优化理论的Map Reduce性能自动调优方法,解决了海量医学文本分析方法在分布式计算环境运行的方法设计和性能自动优化的关键问题。

李泽中^[6]（2020）在《多维数据融合的虚拟知识社区个性化知识推荐研究》文中研究说明大数据环境下,知识数量不断增加,为用户提供参考依据和知识来源的同时,也带来“知识过载”等问题。用户开始逐渐依赖虚拟知识社区以解决知识获取、知识交流的问题。虚拟知识社区具有高密度、高价值的知识来帮助用户满足知识需求,用户可以通过虚拟知识社区平台交流知识、共享知识、接受知识,并参加到知识推荐、知识反馈等知识服务中。虚拟知识社区的服务保障机制可以为用户提供有针对性的知识,营造良好的知识互动氛围,增强用户归属感。虚拟知识社区也存在大量低质、重复的碎片知识,还具有知识内容质量参差不齐、知识信息服务功能较为单一、服务层次较浅、平台的同质化现象严重等问题,原有的知识服务理论方法和方式手段已无法完全适应用户日益增长的多样化需求。用户在社区中生成知识内容、利用知识的同时,也留下了各种形式的行为记录数据,这些多维数据中包含大量的用户行为信息和个性化需求信息,如何利用这些数据开展知识服务、为用户提供更加优质和适配的用户服务内容也成为目前一个重要的研究方向。本文以虚拟知识社区为研究对象,从面向用户需求的视角出发,分析虚拟知识社区用户需求,并根据用户需求对虚拟知识社区数据进行了维度划分及融合,研究基于多维数据融合的虚拟知识社区个性化知识推荐模型,探索虚拟知识社区个性化知识推荐效果评价方法,并提出相应的优化策略和建议。本文主要开展了以下六个方面的研究工作:（1）分析了用户需求的特征,包括需求表达的直接性、间接性、需求接收的实时性、需求服务的高效性以及形成原因,即任务驱动、知识偶遇以及交流互动,以此将用户知识需求划分为知识需求、情感需求以及社交需求三个类型。基于多理论假设,为虚拟知识社区用户知识需求维度划分提供了理论和实证依据。通过社会资本理论,提出网络社会资本、认知社会资本以及结构社会资本三个维度的假设,运用逻辑回归方法进行实证研究。结果表明,这三个维度对虚拟知识社区用户的知识需求具有显着影响。（2）虚拟知识社区的数据实质是一系列交互元素的集合体。虚拟知识社区开发与设计的核心来源于用户需求。基于社会资本理论,结合已有研究,从用户需求的角度对多维数据融合的过程和特征进行分析,在此基础上对多维数据进行维度划分,包括社交网络维度、情感感知维度以及用户画像维度。进一步分析了多维数据融合与知识推荐之间的关系:多维数据融合是知识推荐的基础,多维数据融合的质量是决定知识推荐效果的关键;知识推荐是多维数据融合的目的。（3）分析了虚拟知识社区个性化知识推荐的目标定位,包括知识推荐服务的可用性、知识推荐内容的有用性以及知识推荐结果的适配性。在此基础上,对虚拟知识社区个性化知识推荐的动力进行探讨,包括知识主体的牵引、知识技术创新发展需求的拉动、知识势能差的推动以及知识创新环境发展的必然。分析了虚拟知识社区个性化知识推荐模型的组成要素以及具体的推荐过程,包括知识需求的获取、多维度数据融合、知识生成以及知识推荐和吸收阶段。综合以上分析,从数据采集层、多维数据融合层、知识聚合层以及应用层4个层面构建多维数据融合的虚拟知识社区个性化推荐模型并进行探讨研究,以期通过服务组织模式探索,有效地促进用户服务,真正满足用户需求。（4）鉴于当前关于个性化知识推荐领域研究的热点问题,本文针对虚拟知识社区及其用户的多样化特征,通过引入用户画像、情感感知和社交网络三个维度信息,在多维数据融合的虚拟知识社区个性化知识推荐模型的基础上,完成用户知识需求的可视化;同时利用改进的最大团算法设计了虚拟知识社区个性化知识推荐算法,并且通过选取某虚拟知识社区用户数据进行了实例分析,实现了精准的个性化知识推荐。实例分析结果表明,在虚拟知识社区个性化知识推荐过程中,通过引入这三个维度信息并进行深度融合构建用户知识需求模型,可以使得其个性化知识推荐结果的精准度得到显着的提升。（5）基于多维数据融合的视角构建了虚拟知识社区推荐效果评价指标体系,旨在为虚拟知识社区推荐服务建设提供理论依据和评判标准。本文利用模糊层次分析方法对“虚拟知识社区推荐效果”指标体系进行测评,并选用模糊数学中隶属度函数作为标度系统对国内外6个具有代表性的虚拟知识社区进行实证研究。实证结果表明指标体系具有实际应用价值和较强的可操作性,能更好的指导虚拟知识社区进行推荐服务建设。本文在理论层面构建的评价指标体系为虚拟知识社区推荐服务建设提供新的研究视角;在实践应用层面,通过对推荐服务的评价来提升虚拟知识社区推荐服务质量和效率,从而达到满足用户需求和期望的目标。（6）基于社会资本理论,从用户画像视角、社交网络视角、情感感知视角三个维度入手,提出虚拟知识社区个性化推荐优化策略和建议。在用户画像视角下,满足用户的多层次知识需求,提高用户自身的知识素养,深度运用多维数据融合技术为用户提供更有针对性与价值的知识信息;在社交网络视角下,推动知识共同体的形成和发展,使平台内知识信息更具系统化、结构化、完整化特征,加强虚拟知识社区用户间交流和活动,开发基于虚拟知识社区平台的社交应用,并增加社区意见领袖识别与用户激励机制的设计,促进社区内用户进行知识交流;情感感知视角下,实现个性化知识推荐的精确性,加强知识的权威性和整合性,加强用户的信任和关系密切程度,并利用可视化丰富知识形式,从而更好地发挥个性化知识推荐效果。在虚拟知识社区中,用户通过虚拟知识社区获得知识满足自身的知识需求,也通过虚拟知识社区拓展社交关系、传递情感,并且在使用服务过程中提升愉悦感和归属感。本文基于用户的需求出发,对虚拟知识社区的多维数据进行维度划分,并为用户提供个性化知识推荐,提升用户的虚拟知识社区参与度,促进知识的共享、利用及创新,进而提高虚拟知识社区的知识服务能力和水平,在提高虚拟知识社区影响力和竞争力的同时,也帮助虚拟知识社区健康持续地发展。

成英超^[7]（2020）在《分布式流数据分析与实时机器学习理论与应用研究》文中进行了进一步梳理新的时代正在兴起,复杂机器学习算法的发展以及硬件性能的指数级增长将加速新一代人工智能系统的发展,改变人们对周围世界的感知和互动方式,使人工智能可以在持续和意外变化的对抗环境中工作,并支持保障人类的安全和福祉。除了智能之外,新一代人工智能系统还需要解决至少三个挑战。首先,它们必须实时地做出反应,以支持自动驾驶和智能信息检索等新兴应用。其次,这些系统需要不断地从流数据中学习,以应对其环境的时变性。第三,当这些系统代表人类做出决策时,它们的决定需要具备可解释性。这些挑战涉及数据、模型、算法和硬件等许多层面,需要把系统、统计和优化等知识在机器学习的过程中有机地结合起来。为此,这项研究工作开展了分布式流数据分析与实时机器学习理论与应用研究。研究的策略可以概括为“一个根本,两个面向,三个层次”:“一个根本”就是在线最优化求解。流数据以在线方式提供,这意味着整个数据集不能立即获得,而是单个数据实例按顺序到达。许多传统优化方法不能继续在流数据环境下发挥作用。这项工作通过探索近似算法、自适应学习和基于自然梯度下降的二阶优化方法,来应对流数据环境中产生的三种约束（即对计算成本、查询成本的约束和复杂不等式约束）。实时机器学习的“两个面向”是指面向“特征”的和面向“模型”。”特征”的实时性是指系统实时地输入模型需要的特征数据,使模型总是可以应用最新的特征进行训练。“模型”的实时性主要通过提升模型的稀疏性来实现,强化“模型”的实时性,则可以快速捕获系统级别的全局数据变化和新生成的数据模式。这项工作从数据、算力和算法“三个层次”对实时机器学习理论与应用开展深入研究。（一）在数据层,研究的对象是高速、高维、高通量的流式大数据。（二）在算力层,为了从数据流中实时学习,高性能硬件成为必需。因此,这项工作选择“天河二号超级计算机系统”作为算力平台。然而,流计算的“弹性”本质以及用于解决它的算法都为“天河二号超级计算机系统”带来了重大的算力挑战。（三）在算法层,传统机器学习算法通常不适合实时推断,也难以从新的数据中持续学习。实时机器学习算法则需要考虑实时学习和实时推理带来的约束。研究工作的主要贡献如下:1.深入总结研究工作,建立了以在线最优化为根本,面向机器学习的“模型”和“特征”实时性要求,将数据、算力和算法相结合的系统化研究方法。2.分析并解决了分布式流数据处理中具有复杂约束的多目标资源优化配置与调度问题。为该问题设计了一种基于边际效用最大化原则的启发式的资源最优配置算法HPC2-ARS,并从理论上验证了解的质量。该算法包含一种效用函数设计机制和一种创新的标量化方法,把复杂的多目标优化问题转换成了较易求解的单目标优化问题,并提出了一种高效的弹性资源调度策略。实验证明该算法有效地提升了高维高速高通量流数据处理的实时性和稳定性。3.研究了资源配置和机器学习模型表现之间的相互作用关系。首先,聚焦于实时机器学习系统中异构数据源之间的资源分配问题,分析了求解该问题的条件,研究了多个异构数据源所消耗的资源量对模型训练效果的影响,并给出基于凸优化理论的最优解。然后,对实时机器学习系统的随机性和资源可用性建模,研究了基于马尔可夫决策过程的大规模弹性资源调度动态优化理论;为了解决其中的维度灾难问题,提出了基于近似动态规划的HPC2-ARS-D算法。实验证明,提出的方法可以准确地对实时机器学习系统的时变性进行刻画,高效地反映系统当前资源配置情况对时间累计目标函数的影响。4.在对数据流环境下的带有时间信息的用户/项目交互事件和概念漂移问题进行数学建模和分析的基础上,提出了一种深度贝叶斯推荐网络,解决了实时推荐系统中的随机性和不确定性问题。为了权衡深度推荐模型的实时性（稀疏性）、准确性和可解释性,用平均场近似理论和变分GRU在线逼近用户/项目交互事件的后验概率分布。变分GRU利用连续时间下离散事件的在线变分推断建立了贝叶斯过程与深度因子分解模型在数据流环境下的联系。同时,采用基于克罗内克分解近似曲率（Kronecker-Factored Approximate Curvature,K-FAC）的二阶方法优化深度贝叶斯推荐网络的证据下界。在多个基准数据（Benchmark）上的实验表明,基于实时数据流分析与变分GRU二阶优化的在线深度推荐网络比多个基线算法（Baseline）更能捕获随时间演化的概念漂移,提升推荐的准确率。

罗佳林^[8]（2020）在《面向垂直领域的在线问答系统设计与实现》文中提出伴随着互联网的快速发展和网络信息的急剧增长,作为一项能够帮助人们迅速获取信息的工具,搜索引擎应运而生。传统的搜索系统虽然能够返回与用户搜索关键词相匹配的网页信息,但是搜索结果存在冗余性,往往需要用户花费大量时间与精力进行二次信息加工。与搜索系统不同,问答系统利用自动问答算法直接从相关文档中抽取答案,为用户提供简短和准确的结果。近年来,问答系统已经成为自然语言处理领域的重要问题之一,在学术界和工业界引起广泛关注。问答系统的研究涉及到了信息检索、机器学习、自然语言理解等知识。本文在构建垂直搜索引擎技术的基础上,运用主题爬虫技术、分布式索引技术和机器阅读理解技术,在插件化和分布式的设计原则下,设计并实现了一个面向垂直领域的在线问答系统。本文的主要工作如下:（1）构建了一个垂直领域的网页爬虫、网页解析及网页分类系统,完成了电网领域的网页实时采集。（2）基于Elasticsearch框架,构建了一个电力领域的搜索引擎,对于用户输入的一个问题,采用Elasticsearch检索到包含答案的相关文本。（3）基于一个双向注意力网络,从包含答案的文本中,抽取准确的答案,实现了对用户问题的在线回答。通过搭建一个实际的问答系统系统,验证和测试了系统的功能和性能。实验结果表明,本文设计和实现系统达到了预期目标,可以较快速地完成主题网页抓取,实现高质量的搜索和问答。

胡永奇^[9]（2020）在《招聘信息垂直搜索引擎的设计与实现》文中进行了进一步梳理在信息爆炸的互联网环境中,各个领域的数据和信息呈指数增长,从这些海量无规则数据和强干扰的信息中检索出有价值的数据具有重要的研究意义。海量数据导致通用搜索引擎对专业领域上查询的信息不够准确和全面,而用户对专业领域信息的需求却在与日俱增。对于招聘行业来说,具有可以快速检索招聘信息的垂直搜索引擎至关重要,因此,本文设计并实现了一个面向招聘行业的垂直搜索引擎。本文基于Scrapy-Redis实现分布式爬虫来为招聘信息垂直搜索引擎提供数据支持,通过对分布式爬虫框架的二次开发来实时抓取网络招聘信息,完成了招聘信息的高效采集和结构化信息的准确抽取。在研究爬虫框架源码后,对网页抓取过程中URL去重方法进行改进,通过集成自定义的布隆过滤器解决了原爬虫框架在抓取海量网页数据时内存占用过高的问题,实现了快速抓取海量招聘信息的功能。对于垂直搜索引擎,数据的快速存取和检索非常重要,本文对数据的存储选用了非关系型数据库HBase,并借助全文检索技术来弥补HBase对非主键字段的检索或者多条件的组合查询和模糊查询等方面的的不足。利用全文搜索引擎ES（Elasticsearch）为HBase构建二级索引来将索引和数据分离,借助ES完善的检索服务来实现用户多样化的查询。同时,为了给用户提供实时的检索服务,本文利用HBase的协处理器来将前面分离的数据与索引同步更新。目前数据库中已有千万级的职位数据并还在持续增长中,存储在HBase集群上的海量职位数据还可以用于大数据分析等领域。本文结合分布式爬虫框架、非关系型数据库HBase和全文搜索框架ES设计并实现了一个招聘信息垂直搜索引擎系统,给用户提供全文检索和高级检索两种方式来满足用户的不同检索需求,并提供数据可视化分析功能来帮助用户了解当前的招聘环境,提升用户的交互体验。通过功能测试和性能测试,该垂直搜索引擎可以提供多样化的查询服务和毫秒级别的响应时间。同时,系统的集群服务保证了系统具有良好的扩展性和较高的吞吐率。

李静^[10]（2020）在《基于语义和兴趣的图像/视频检索与认证技术研究》文中提出随着互联网、社交媒体以及移动多媒体终端的迅猛发展,文本、图像、音频、视频等多媒体数据越来越深入地融入到人们的生活、工作、学习中。特别是,随着多媒体应用的日益增多,以图像和视频为主体的多媒体数据的生成、获取、处理和传播变得越来越普及,人们获取信息的载体从传统的文本形式,扩展到了现在以图像和视频为主的多样化的多媒体形式。在当今的信息社会中,图像和视频已经成为了最主要的信息载体,图像和视频检索也逐渐成为人们获取信息的主流途径之一。自从上世纪七十年代图像检索兴起以来,图像和视频检索就一直是信息检索理论研究和实际应用领域中的热点。近年来,随着多媒体技术和各类多媒体应用的蓬勃发展,用户对检索在性能和体验方面的需求不断提升,精准、高效、安全和个性化的检索已经逐渐成为用户的刚性需求。对于一个检索系统来说,从用户确定检索目的、形成查询输入搜索引擎,到检索系统根据查询进行数据的比对匹配,最后检索系统再将数据反馈给用户,构成一个完整、闭合的过程。在整个检索过程中,每一个环节的信息损失和失配都会对检索性能造成影响;因此,本文从目前制约检索性能提升的关键因素出发,针对搜索引擎与数据之间的“语义鸿沟”、用户与查询之间的“意图鸿沟”和数据（或搜索引擎）与用户之间的“信任鸿沟”等三个影响检索性能的关键问题,探讨了解决思路并分别提出了解决方法。从“语义鸿沟”到“意图鸿沟”再到“信任鸿沟”的研究,是满足用户不断提升的检索需求的需要。“语义鸿沟”是指图像和视频的视觉特征与用户对图像和视频理解的语义之间的距离,弥补“语义鸿沟”的目的是能够精准和高效地检索到在主题上与查询匹配的结果。随着用户对检索结果的个性化需求越来越高,对于检索的评价开始从“主题”扩展到“意图”维度上;也就是说,用户希望检索到能够符合其内在搜索意图或者个人兴趣的结果。弥补用户内在的搜索意图与其提交给检索系统的查询之间存在的“意图鸿沟”,就成为了进一步提升检索质量的关键。同时,随着图像和视频的编辑技术越来越普及,图像和视频的伪造和篡改现象越来越严重,致使检索结果的可信性问题逐渐凸显出来。人们对检索结果的信任度与媒体数据自身的可信度之间的差距,即“信任鸿沟”,成为了图像和视频检索领域不得不解决的问题;对检索结果进行可信性认证十分必要。本文针对图像和视频检索中存在的“语义鸿沟”、“意图鸿沟”以及“信任鸿沟”等三个关键问题展开研究,创新性成果主要包括:1、针对“语义鸿沟”问题,以对视频特征的语义表达能力和区分能力要求更高的视频拷贝检测为关注点,提出了一种基于3D CNN的视频拷贝检测方法。该方法采用三维卷积神经网络3D CNN同时捕捉视频空域和时域两个方面的特征,并在降低3D CNN训练过程复杂度和解决数据资源不足两个方面进行了研究。为了降低网络的构建难度和计算复杂度,降低对硬件配置的要求,提出了一种3D CNN组成的并行体系结构,将多分类任务分解为多个二分类任务的组合。由于该并行体系结构中的每个3D CNN仅用作一个二分类器,使得对CNN的训练难度和数据量的要求大大降低。此外,并行3D CNN的网络结构具有对未知类别数据进行分类的能力,并且可以随着新类别的加入而扩展。为了解决数据资源不足的问题,采用等间隔采样的分段方法对视频数据进行了增强处理,保证每个视频段均能最大化呈现视频内容;在测试阶段,只需输入少数视频段就能达到较高的识别率,大大节省了识别时间,为视频分类的实时处理提供了参考。实验表明,该方法在拷贝检测中得到了很好的效果,所提取的视频特征具有很强的语义表达能力。2、针对“意图鸿沟”问题,以对用户意图和兴趣具有高度依赖的电影推荐系统为参考,提出了一种基于电影推荐的用户兴趣计算方法。该方法根据IMDB以图文并茂的形式进行电影介绍的特点,结合面向图文检索的跨媒体学习方法,构建能够同时体现电影图文信息的特征向量;在进行用户兴趣计算的过程中,在用户评分矩阵的基础上,引入时间因子,在综合用户长期兴趣与短期兴趣对兴趣计算影响的基础上,进行用户兴趣的初始化;然后,将电影的特征向量与初始化用户的兴趣向量进行迭代,获得优化后的用户兴趣;最终,根据计算得到的用户兴趣,通过基于用户的协同过滤的评分预测机制进行电影推荐,采用对电影推荐的评价实现对用户兴趣计算性能的评价。通过在Movielens数据集上的电影推荐进行验证表明,该方法在预测用户兴趣的准确性和收敛性上都有明显的提高,有望在缓解图像和视频检索中的“意图鸿沟”问题方面得到应用。3、针对“信任鸿沟”问题,采用主动认证的方式对图像/视频进行内容完整性和真实性认证,提出了一种保证图像质量的认证水印方法。该方法基于人类视觉系统在视觉感知过程中对不同方向的感知灵敏度差异,利用三个低频系数提取包括图像中水平、垂直和对角线信息的复杂方向特征图。同时,利用每个图像DCT块的直流系数和三个低频交流系数分别生成亮度和纹理特征图,将上述三个特征图进行融合,得到最终的视觉显着图。根据该视觉显着图对JND模型进行优化,将优化后的JDN模型应用于调控认证水印的视觉质量。实验结果表明,提出的水印方案在认证方面有较好的性能。

二、一种面向海量实时数据的信息检索算法（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、一种面向海量实时数据的信息检索算法（论文提纲范文）

（1）基于微服务架构与知识图谱技术构建无人机知识库系统（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景及意义

1.1.1 研究背景

1.1.2 研究意义与价值

1.2 国内外研究现状

1.2.1 专家系统及知识库研究现状

1.2.2 知识图谱技术研究现状

1.2.3 Web文本挖掘技术研究现状

1.2.4 无人机技术发展及应用现状

1.3 研究目标与研究内容

1.3.1 研究目标

1.3.2 研究内容

1.4 论文研究技术路线

1.5 论文组织结构安排

第二章理论基础及关键技术

2.1 相关理论基础

2.2.1 知识库

2.2.2 知识发现

2.2.3 知识图谱

2.2 知识获取技术

2.2.1 数据获取技术

2.2.2 数据去重技术

2.2.3 数据提取技术

2.2.4 数据存储技术

2.3 知识抽取技术

2.3.1 实体抽取技术

2.3.2 关系抽取技术

2.3.3 事件抽取技术

2.3.4 实体链接与消岐

2.4 知识表示技术

2.5 自动文摘技术

2.5.1 自动文摘生成原理

2.5.2 TextRank算法

2.6 本章小结

第三章知识库系统的设计与构建

3.1 系统非功能需求

3.2 系统性能设计

3.2.1 系统可靠性设计

3.2.2 系统安全性设计

3.3 系统架构设计

3.3.1 整体架构设计

3.3.2 技术架构设计

3.3.3 分布式微服务架构

3.3.4 Scrapy爬虫框架

3.3.5 基于Swagger框架管理API

3.4 技术路线与实施方案

3.4.1 知识库的构建方式

3.4.2 系统的技术路线

3.4.3 系统的实施方案

3.4.4 开发环境与开发语言

3.5 本章小结

第四章知识图谱的实现与应用

4.1 知识获取

4.1.1 定制化设置关键字

4.1.2 定制化爬取专业网站

4.2 数据提取

4.2.1 半自动化提取数据

4.2.2 自动文摘的提取

4.3 知识抽取

4.3.1 实体抽取(命名实体识别)

4.3.2 实体关系抽取

4.3.3 元事件抽取

4.3.4 实体发现与链接

4.4 知识表示

4.5 文本数据可视化

4.5.1 数据可视化

4.5.2 关键字云图

4.6 本章小结

第五章系统的功能与实现

5.1 系统整体功能结构

5.2 系统前端功能实现

5.2.1 查询信息模块

5.2.2 台风实况模块

5.2.3 数据可视化模块

5.2.4 热门推送模块

5.2.5 关键期刊模块

5.3 系统后台功能实现

5.3.1 用户管理模块

5.3.2 菜单管理模块

5.3.3 采集设置模块

5.3.4 任务管理模块

5.3.5 专家知识模块

5.3.6 外部系统模块

5.3.7 期刊大全模块

5.4 本章小结

第六章结论与展望

6.1 总结

6.2 创新点

6.3 不足与展望

参考文献

致谢

在学期间主要研究成果

附录

附录1 Swagger在微服务架构上的部署与集成

附录2 Echarts组件实现折线图/柱状图形式的数据可视化

附录3 BiLSTM+CRF模型构建过程

附录4 利用TF-IDF进行实体链接关键代码

（2）移动O2O情境下用户信息搜寻行为研究（论文提纲范文）

摘要

abstract

第1章绪论

1.1 研究背景及问题

1.1.1 研究背景

1.1.2 研究问题

1.2 研究目的与意义

1.2.1 研究目的

1.2.2 研究意义

1.3 研究内容与方法

1.3.1 研究内容

1.3.2 研究方法

1.3.3 技术路线

1.4 概念界定

1.4.1 移动O2O

1.4.2 信息搜寻

1.4.3 信息搜索与信息搜寻的区分

1.5 本章小结

第2章理论基础及文献综述

2.1 信息搜寻行为相关理论基础

2.1.1 信息经济学理论

2.1.2 认知理论

2.1.3 人机交互理论

2.2 信息搜寻行为经典理论与模型

2.2.1 问题解决理论

2.2.2 意义建构理论

2.2.3 ASK理论

2.2.4 信息搜寻行为模型

2.3 国内外信息搜寻行为研究综述

2.3.1 国内信息搜寻行为研究热点分析

2.3.2 国外信息搜寻行为研究热点分析

2.3.3 信息搜寻研究述评

2.4 移动O2O研究综述

2.4.1 移动O2O概述

2.4.2 国内外移动O2O研究现状

2.4.3 移动O2O研究述评

2.5 本章小结

第3章移动O2O情境下用户信息搜寻行为模型构建

3.1 研究设计

3.1.1 研究问题分析

3.1.2 研究方法介绍

3.2 数据收集

3.2.1 样本选择

3.2.2 资料收集与整理

3.2.3 数据分析工具

3.3 编码过程

3.3.1 开放性编码

3.3.2 主轴性编码

3.3.3 选择性编码

3.4 理论饱和度检验

3.5 模型构建与阐释

3.5.1 信息搜寻行为过程

3.5.2 信息搜寻行为影响因素

3.6 本章小结

第4章移动O2O情境下用户信息搜寻行为驱动因素的实证研究

4.1 移动O2O情境下用户信息搜寻行为特征分析

4.2 研究模型与假设

4.2.1 “动机、机会、能力”(MOA)模型

4.2.2 技术接受与使用统一理论(UTAUT)

4.2.3 研究模型构建

4.2.4 研究假设提出

4.3 研究方法设计

4.3.1 问卷设计

4.3.2 数据收集

4.4 数据分析与模型验证

4.4.1 描述性统计分析

4.4.2 信度与效度分析

4.4.3 多重共线性与共同方法偏差分析

4.4.4 模型验证

4.5 结果讨论

4.6 本章小结

第5章移动O2O情境下用户信息搜寻过程的实验研究

5.1 研究问题

5.2 研究设计

5.2.1 研究方法

5.2.2 样本选择

5.2.3 实验任务设置

5.2.4 研究变量测度

5.2.5 实验流程设计

5.3 研究结果分析

5.3.1 个体特征对移动O2O情境下用户信息搜寻行为的影响

5.3.2 任务特征对移动O2O情境下用户信息搜寻行为的影响

5.4 结果讨论

5.5 本章小结

第6章移动O2O情境下用户信息搜寻满意度关键影响因素研究

6.1 研究设计

6.2 数据采集

6.2.1 移动O2O情境下用户信息搜寻满意度影响因素集

6.2.2 问卷发放与回收

6.3 基于信息增益理论的关键影响因素识别和模型构建

6.3.1 信息增益值计算

6.3.2 关键影响因素识别

6.3.3 关键影响因素模型构建

6.4 基于支持向量机(SVM)的预测模型构建与精度分析

6.4.1 支持向量机(SVM)建模

6.4.2 预测模型构建与精度分析

6.5 结果讨论

6.6 本章小结

第7章移动O2O情境下用户信息搜寻行为引导与优化策略

7.1 移动O2O情境下用户信息搜寻行为引导策略

7.1.1 触发用户信息需求

7.1.2 提高用户信息素养

7.1.3 改善信息搜寻环境

7.2 移动O2O情境下用户信息搜寻行为优化策略

7.2.1 提高信息质量

7.2.2 提升服务质量

7.2.3 隐私保护与信息安全

7.3 本章小结

第8章研究结论与展望

8.1 研究结论

8.2 研究创新点

8.3 研究局限与展望

8.3.1 研究局限性

8.3.2 未来研究展望

参考文献

附录

附录1 移动O2O情境下用户信息搜寻行为研究过滤式问卷

附录2 移动O2O情境下用户信息搜寻行为研究访谈提纲

附录3 移动O2O情境下用户信息搜寻行为驱动因素调查问卷

附录4 移动O2O情境下用户信息搜寻满意度关键影响因素调查问卷

在读期间所取得的科研成果

致谢

（3）数据驱动下科技情报智慧服务模式研究（论文提纲范文）

摘要

abstract

第1章绪论

1.1 选题背景与研究意义

1.1.1 选题背景

1.1.2 研究意义

1.2 研究内容与创新点

1.2.1 研究内容

1.2.2 研究创新点

1.3 研究方法与技术路线

1.3.1 研究方法

1.3.2 研究技术路线

第2章文献综述与理论基础

2.1 国内外研究现状

2.1.1 智慧服务研究现状

2.1.2 科技情报服务研究现状

2.1.3 科技情报智慧服务研究现状

2.1.4 研究现状述评

2.2 相关理论基础

2.2.1 相关概念界定

2.2.2 信息链理论

2.2.3 用户场景理论

2.2.4 需求层次理论

2.2.5 生命周期理论

第3章科技情报智慧服务构成要素及特征

3.1 科技情报智慧服务构成要素

3.1.1 智慧数据

3.1.2 用户需求

3.1.3 智能技术

3.1.4 智慧情报

3.1.5 科技情报工作者

3.1.6 科技情报智慧服务平台

3.1.7 科技情报分析方法

3.2 科技情报智慧服务模式要素间关联关系

3.3 科技情报智慧服务特征

3.3.1 数据多源性

3.3.2 需求敏感性

3.3.3 技术智能性

3.3.4 服务场景化

3.4 本章小结

第4章数据驱动下科技情报智慧服务模式构建

4.1 多源数据驱动

4.1.1 数据多源性

4.1.2 多源数据融合

4.2 智慧服务模式构建思路

4.3 智慧服务模式核心功能设计

4.3.1 用户需求智慧感知功能

4.3.2 情报服务智慧决策功能

4.3.3 用户服务智能推送功能

4.4 科技情报智慧服务模式

4.5 本章小结

第5章数据驱动下科技情报智慧服务实现

5.1 多源科研数据调研

5.1.1 数据结构

5.1.2 数据类型

5.1.3 数据属性

5.2 基于用户动态画像的科技情报用户需求智慧感知

5.2.1 用户结构分析

5.2.2 用户分层画像

5.2.3 用户动态画像

5.2.4 用户需求模型构建

5.3 基于网络文本挖掘的公众政策感知智慧研究

5.3.1 运用网络文本挖掘分析公众政策感知

5.3.2 人工智能产业政策公众感知的特征

5.3.3 人工智能产业政策公众感知热点主题

5.4 基于向量空间模型的科技情报服务场景化推送

5.4.1 向量空间模型的应用

5.4.2 场景化服务

5.4.3 场景化服务接受效用

5.4.4 场景化服务推送模型

5.4.5 场景化服务推送实验

5.5 科技情报服务智慧反馈机制

5.6 本章小结

第6章案例研究

6.1 格微软件科技情报智慧服务发展现状

6.1.1 基本概况

6.1.2 科技情报智慧服务发展现状

6.2 格微软件科技情报智慧服务发展模式

6.2.1 发展模式分析

6.2.2 实现路径

6.3 格微软件向科技情报智慧服务模式转变的优化

6.3.1 用户维度优化

6.3.2 情报维度优化

6.3.3 服务维度优化

6.4 本章小结

第7章数据驱动下科技情报智慧服务保障策略

7.1 政策保障层面

7.1.1 建立健全法律法规保障体系

7.1.2 优化科技情报机构管理架构

7.2 资源保障层面

7.2.1 完善科研数据安全保障策略

7.2.2 推进科研数据开放保障策略

7.2.3 科技情报数据资源保障策略

7.3 技术保障层面

7.3.1 完善技术体系建设保障策略

7.3.2 完善科技情报服务反馈体系

7.3.3 创新大数据分析方法及工具

7.4 人才保障层面

7.4.1 完善人才队伍建设保障策略

7.4.2 完善科技情报人才教育体系

7.5 本章小结

第8章研究总结与展望

8.1 研究总结

8.2 研究创新点

8.3 研究局限与展望

8.3.1 研究局限

8.3.2 研究展望

参考文献

作者简介与研究成果

致谢

（4）多媒体网络舆情信息的并发获取机理与话题衍进追踪研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 研究背景

1.2 研究目的与意义

1.2.1 研究目的

1.2.2 研究意义

1.3 国内外研究现状综述

1.3.1 国外研究现状

1.3.2 国内研究现状

1.3.3 研究现状述评

1.4 研究内容与研究方法

1.4.1 研究内容

1.4.2 研究方法

1.4.3 技术路线

1.5 研究创新点

1.6 本章小结

第2章相关理论基础

2.1 信息论与全信息理论

2.1.1 信息论

2.1.2 全信息理论

2.2 信息传播的相关理论

2.2.1 信息传播理论

2.2.2 信息生命周期理论

2.3 多媒体网络舆情的相关理论

2.3.1 网络舆情

2.3.2 多媒体网络舆情

2.4 信息获取与追踪的相关理论

2.4.1 信息获取理论

2.4.2 话题追踪理论

2.5 本章小结

第3章多媒体网络舆情信息并发获取的相关分析

3.1 多媒体网络舆情信息并发获取的界定

3.2 多媒体网络舆情信息并发获取目标

3.3 多媒体网络舆情信息并发获取原则

3.3.1 整体与部分相协调原则

3.3.2 主观与客观相结合原则

3.3.3 有限与无限相统一原则

3.3.4 单维时序与多维态势相结合原则

3.4 多媒体网络舆情信息并发获取特征

3.4.1 多媒体网络舆情并发获取运行的非线性

3.4.2 多媒体网络舆情并发获取阶段的自适应性

3.4.3 多媒体网络舆情并发获取任务执行的时序性

3.4.4 多媒体网络舆情并发获取负载技术的均衡性

3.5 多媒体网络舆情信息并发获取数据源分析

3.5.1 舆情主体数据源分析

3.5.2 舆情客体数据源分析

3.5.3 舆情媒体数据源分析

3.5.4 舆情本体数据源分析

3.6 多媒体网络舆情信息并发获取流程分析

3.6.1 多媒体网络舆情信息检索

3.6.2 多媒体网络舆情信息抓取

3.6.3 多媒体网络舆情信息萃取

3.6.4 多媒体网络舆情信息存取

3.6.5 多媒体网络舆情信息智取

3.6.6 多媒体网络舆情主体交互

3.7 本章小结

第4章多媒体网络舆情信息并发获取机理分析

4.1 多媒体网络舆情信息并发获取动力分析

4.1.1 并发获取内源动力

4.1.2 并发获取外源动力

4.1.3 舆情并发获取动力作用模式

4.2 多媒体网络舆情信息并发获取的时态属性

4.2.1 单维时序属性

4.2.2 多维态势属性

4.3 基于单维时序的多媒体网络舆情信息并发获取机理

4.3.1 并发获取数据源形成机理

4.3.2 并发获取线程管控机理

4.3.3 并发获取数据监视累积机理

4.3.4 并发获取数据采集存储机理

4.3.5 并发获取数据触发机理

4.4 基于多维态势的多媒体网络舆情信息并发获取机理

4.4.1 话题衍进机理

4.4.2 衍进追踪机理

4.5 多媒体网络舆情信息并发获取机理关系分析

4.5.1 多媒体网络舆情信息并发获取的数据源与机理关系

4.5.2 多媒体网络舆情信息并发获取的过程与机理关系

4.5.3 多媒体网络舆情信息并发获取的机理间作用关系

4.6 本章小结

第5章多媒体网络舆情信息并发获取模型构建

5.1 多媒体网络舆情信息并发获取模型构建总体思路

5.2 多媒体网络舆情信息并发获取模型构成要素

5.2.1 构成要素解析

5.2.2 构成要素度量方法

5.3 多媒体网络舆情信息并发获取模型

5.3.1 舆情信息并发获取模型构建过程

5.3.2 基于DEMATEL的构成要素识别模型

5.3.3 基于AHP的要素权重模型构建

5.3.4 基于FMF的网络舆情信息并发获取模型

5.4 多媒体网络舆情信息并发获取实证分析

5.4.1 网络舆情数据源获取

5.4.2 网络舆情信息并发获取构成要素识别

5.4.3 网络舆情信息并发获取构成要素权重确定

5.4.4 网络舆情信息并发获取触发值计算

5.4.5 实验结果解析

5.5 本章小结

第6章多媒体网络舆情话题衍进追踪过程及态势解析

6.1 多媒体网络舆情话题衍进追踪的内涵与特性

6.1.1 多媒体网络舆情话题衍进追踪的内涵

6.1.2 多媒体网络舆情话题衍进追踪的特性

6.2 多媒体网络舆情话题衍进追踪过程

6.2.1 网络舆情演进

6.2.2 网络舆情话题衍进态势

6.2.3 网络舆情话题衍进追踪

6.2.4 舆情话题衍进追踪过程

6.3 多媒体网络舆情话题衍进追踪态势分析

6.3.1 舆情话题衍进的运动模式

6.3.2 舆情话题衍进追踪态势解析

6.4 多媒体网络舆情并发获取与话题衍进追踪的关联关系

6.4.1 单维时序关联

6.4.2 多维态势关联

6.4.3 综合关联关系

6.5 多媒体网络舆情话题衍进追踪概念模型构建

6.5.1 模型构建

6.5.2 舆情话题衍进各时期追踪特征

6.6 本章小结

第7章多媒体网络舆情话题衍进追踪模型构建

7.1 多媒体网络舆情话题衍进追踪的总体目标

7.1.1 网络舆情话题衍进追踪的动态表征

7.1.2 网络舆情话题衍进追踪的目标

7.2 多媒体网络舆情话题衍进追踪的抽象-具象化解析

7.2.1 网络舆情话题衍进追踪的抽象化共生作用

7.2.2 基于多维态势的具象化网络舆情话题衍进追踪

7.3 多媒体网络舆情话题衍进追踪的流程

7.3.1 多媒体网络舆情话题衍进追踪的技术分析

7.3.2 多媒体网络舆情话题衍进追踪的方法选取

7.3.3 多媒体网络舆情话题衍进追踪的流程

7.4 多媒体网络舆情话题衍进的最优话题选取

7.4.1 最优舆情话题选取步骤

7.4.2 网络舆情话题衍进期间的数据预处理

7.4.3 网络舆情话题衍进特征词权重计量

7.4.4 网络舆情话题衍进的聚类算法

7.5 多媒体网络舆情话题衍进追踪模型构建

7.5.1 网络舆情话题衍进指数模型构建

7.5.2 网络舆情话题强度模型构建

7.5.3 网络舆情话题关联度模型构建

7.5.4 网络舆情话题漂移度模型构建

7.6 实证研究

7.6.1 多媒体网络舆情话题的选定

7.6.2 多媒体网络舆情话题数据源获取与分析

7.6.3 多媒体网络舆情最优话题数量确定

7.6.4 多媒体网络舆情话题衍进追踪测度分析

7.6.5 研究结果总结

7.7 本章小结

第8章多媒体网络舆情信息并发获取与话题衍进追踪的管控策略

8.1 客体管控策略

8.2 主体管控策略

8.3 媒体管控策略

8.4 本体管控策略

8.5 情境管控策略

8.6 本章小结

第9章研究总结与展望

9.1 研究总结

9.2 研究展望

参考文献

致谢

攻读博士期间取得的主要研究成果

（5）面向决策支持的医学文本语义分析方法研究（论文提纲范文）

致谢

摘要

ABSTRACT

1 引言

1.1 研究背景及研究意义

1.2 研究内容及关键问题

1.3 研究创新点

1.4 技术路线

1.5 章节安排

2 文献综述和相关方法

2.1 文献综述

2.1.1 医学文本分词方法

2.1.2 医学文本结构化方法

2.1.3 语义分析和医学概念抽取

2.1.4 基于医学文本的决策支持

2.2 相关数据与方法

2.2.1 医学领域知识库

2.2.2 机器学习方法

2.2.3 大数据分析方法

2.2.4 评估方法和指标

2.3 本章小结

3 基于自然语言处理的医学文本结构化和标准化方法

3.1 医学文本特征和语义复杂性分析

3.1.1 医学文本数据的来源和特征

3.1.2 医学文本分析的N-Gram语言模型

3.1.3 医学文本语料库的使用及影响分析

3.2 基于医学文本语料库的文本结构化方法

3.2.1 基于字典的机械分词和N-Gram分词方法研究

3.2.2 基于序列标注的医学文本分词方法研究

3.2.3 基于语义理解的医学文本分析方法研究

3.3 中文超声检查报告文本分析和性能评估

3.3.1 专家辅助的超声检查报告文本标注方法

3.3.2 超声检查报告的文本结构化方法

3.3.3 超声检查报告的文本语义分析方法

3.3.4 标注系统的性能评估方法

3.3.5 标注系统的整体性能测试与分析

3.4 本章小结

4 基于医学领域知识的医学文本语义分析和知识发现方法

4.1 面向医学文本的语义相似度计算方法

4.1.1 语义关系与文本特征提取方法

4.1.2 基于加权Levenshtein距离和N-Gram的文本相似度计算方法

4.1.3 评估方法和实验分析

4.2 基于UMLS的医学概念相似度和相关性计算方法

4.2.1 医学文本语义相似度计算方法

4.2.2 医学文本语义相关性计算方法

4.2.3 相关方法的测试和分析

4.3 基于语义分析的计算机辅助ICD-11编码方法

4.3.1 相关知识库

4.3.2 ICD-11编码语义模型

4.3.3 ICD-11编码规则建模方法

4.3.4 ICD-11候选编码相关性计算方法

4.3.5 相关方法的测试和分析

4.4 本章小结

5 面向决策支持的海量医学文本分析方法及应用案例研究

5.1 医学文本主题建模和知识发现方法

5.1.1 基于LDA的医学文本主题建模方法

5.1.2 知识约束下医学文本主题建模和预测方法

5.1.3 相关方法性能的对比分析

5.2 基于大数据分析的典型医学文本分析方法设计和分析

5.2.1 基于Map Reduce模型的大规模数据集连接方法

5.2.2 基于Map Reduce模型的大规模文档相似度计算方法

5.3 面向医疗大数据分析的HADOOP性能自动调整优化方法

5.3.1 Hadoop性能自动调优框架设计方法

5.3.2 基于无导数优化理论的Hadoop最优参数搜索方法

5.3.3 典型Map Reduce算法性能调优和实验分析

5.4 本章小结

6 总结与展望

6.1 总结

6.2 展望

参考文献

作者简历及攻读博士学位期间取得的研究成果

学位论文数据集

（6）多维数据融合的虚拟知识社区个性化知识推荐研究（论文提纲范文）

摘要

abstract

第1章绪论

1.1 研究背景与意义

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状综述

1.2.1 虚拟知识社区研究现状

1.2.2 个性化推荐研究现状

1.2.3 研究现状述评

1.3 研究内容与研究方法

1.3.1 研究内容

1.3.2 研究方法

1.4 技术路线

1.5 本文创新点

第2章相关概念与理论基础

2.1 虚拟知识社区

2.1.1 虚拟知识社区的概念

2.1.2 虚拟知识社区的特征

2.2 多维数据融合

2.2.1 多维数据融合的概念

2.2.2 多维数据融合的方法

2.2.3 多维数据融合的应用

2.3 知识推荐

2.3.1 知识推荐的概念

2.3.2 知识推荐的方法

2.4 社会资本理论

2.4.1 社会资本的定义

2.4.2 社会资本维度划分

2.5 用户需求理论

2.6 本章小结

第3章虚拟知识社区的用户知识需求分析

3.1 虚拟知识社区的用户知识需求特征

3.1.1 需求表达的直接性

3.1.2 需求表达的间接性

3.1.3 需求种类的多样性

3.1.4 需求接收的实时性

3.1.5 需求服务的高效性

3.2 虚拟知识社区的用户知识需求形成原因

3.2.1 任务驱动

3.2.2 知识偶遇

3.2.3 互动交流

3.3 虚拟知识社区的用户知识需求类型

3.3.1 认知需求

3.3.2 情感需求

3.3.3 社交需求

3.4 虚拟知识社区的用户知识需求影响因素

3.4.1 虚拟知识社区的用户知识需求影响因素模型构建

3.4.2 虚拟知识社区的用户知识需求影响因素分析

3.4.3 虚拟知识社区的用户知识需求影响因素结果讨论

3.5 虚拟知识社区的用户知识需求模型

3.6 本章小结

第4章虚拟知识社区多维数据的维度划分

4.1 多维数据的维度划分依据

4.1.1 多维数据的维度划分相关研究

4.1.2 用户知识需求与维度划分

4.2 多维数据的维度构成

4.2.1 用户画像

4.2.2 情感感知

4.2.3 社交网络

4.3 多维数据融合的过程与特征

4.3.1 多维数据融合的过程

4.3.2 多维数据融合的特征

4.4 多维数据融合与知识推荐的关系

4.5 本章小结

第5章多维数据融合的虚拟知识社区个性化知识推荐模型

5.1 多维数据融合的虚拟知识社区个性化知识推荐功能目标定位

5.1.1 知识推荐服务的可用性

5.1.2 知识推荐内容的有用性

5.1.3 知识推荐结果的适配性

5.2 多维数据融合的虚拟知识社区个性化知识推荐动力分析

5.2.1 知识主体的牵引

5.2.2 知识技术创新发展需求的拉动

5.2.3 知识势能差的推动

5.2.4 知识创新环境的发展必然

5.3 多维数据融合的虚拟知识社区个性化知识推荐模型构成要素

5.3.1 主体要素

5.3.2 客体要素

5.3.3 技术要素

5.3.4 环境要素

5.4 多维数据融合的虚拟知识社区个性化知识推荐过程

5.4.1 知识需求获取阶段

5.4.2 多维数据融合阶段

5.4.3 知识生成阶段

5.4.4 知识推荐和吸收阶段

5.5 多维数据融合的虚拟知识社区个性化知识推荐模型构建

5.5.1 多维数据融合的虚拟知识社区个性化知识推荐目标

5.5.2 多维数据融合的虚拟知识社区个性化知识推荐模型框架

5.6 本章小结

第6章多维数据融合的虚拟知识社区个性化知识推荐算法设计

6.1 多维数据的获取与融合

6.1.1 社交网络维度的数据获取

6.1.2 情感感知维度的数据获取

6.1.3 用户画像维度的数据获取

6.1.4 多维数据融合及用户需求表示

6.2 虚拟知识社区知识获取及知识相似性度量

6.2.1 知识获取及知识关联

6.2.2 知识相似性度量

6.3 基于多维数据融合的混合知识推荐算法

6.3.1 最大团算法

6.3.2 算法原理

6.3.3 算法流程

6.4 实验准备

6.4.1 数据来源

6.4.2 实验过程

6.5 实验结果及分析

6.5.1 多维数据可视化

6.5.2 知识推荐结果呈现与比较

6.6 本章小结

第7章多维数据融合的虚拟知识社区个性化知识推荐效果评价

7.1 多维数据融合的虚拟知识社区个性化知识推荐效果评价问题提出

7.2 评价指标体系构建

7.2.1 指标构建原则

7.2.2 初始指标获取

7.2.3 评价指标体系确定

7.3 多维数据融合的虚拟知识社区个性化知识推荐效果实证

7.3.1 推荐评价模型构建

7.3.2 评价指标权重

7.3.3 评价过程

7.3.4 结果讨论

7.4 本章小结

第8章虚拟知识社区个性化知识推荐优化策略

8.1 优化的原则与目标

8.2 用户画像视角的虚拟知识社区个性化知识推荐优化策略

8.2.1 满足用户的多层次需求

8.2.2 提升用户自身的知识素养

8.3 社交网络视角的虚拟知识社区个性化知识推荐优化策略

8.3.1 推动知识共同体的形成与发展

8.3.2 加强虚拟知识社区用户间交流与互动

8.3.3 开发虚拟知识社区的社交功能

8.3.4 社区意见领袖识别与激励机制设计

8.4 情感感知视角的虚拟知识社区个性化知识推荐优化策略

8.4.1 实现个性化知识推荐的精准性

8.4.2 加强知识的整合性与可靠性

8.4.3 利用知识可视化丰富推荐知识的形式

8.5 本章小结

第9章总结与展望

9.1 本文总结

9.2 不足与展望

参考文献

作者简介及在学期间攻读成果

附录

致谢

（7）分布式流数据分析与实时机器学习理论与应用研究（论文提纲范文）

摘要

ABSTRACT

符号列表

第1章绪言

1.1 针对流式大数据的实时机器学习

1.2 历史阶段与发展趋势

1.3 研究内容及其关键科学问题

1.3.1 在线最优化问题

1.3.2 分布式流数据处理中的资源配置与调度问题

1.3.3 实时机器学习在推荐引擎上的应用问题

1.4 研究现状概述

1.4.1 在线最优化求解研究现状

1.4.2 流处理资源组合优化研究现状

1.4.3 基于流数据与深度学习的推荐系统研究现状

1.5 研究思路与本文贡献

1.6 论文组织

第2章分布式机器学习与流数据处理

2.1 引言

2.2 分布式机器学习

2.2.1 基本流程

2.2.2 并行模式

2.2.3 单机优化

2.2.4 通信机制

2.2.5 数据(模型)聚合

2.3 实时流数据及其分布式处理

2.3.1 数据流及其模型

2.3.2 数据流处理架构

2.3.3 数据流处理模式、引擎和工具

2.4 本章小结

第3章流式大数据处理中的算力调度

3.1 引言

3.2 计算资源配置与调度

3.3 多目标资源优化问题的数学建模

3.3.1 分布式流处理资源调度建模

3.3.2 时延估计模型

3.3.3 优化目标

3.4 HPC2-ARS算法框架

3.4.1 资源效用机制设计

3.4.2 基于效用函数的复杂约束标量化方法

3.4.3 资源最优配置算法

3.5 实验评估

3.5.1 基于Apache Storm的执行模型

3.5.2 实验设置

3.5.3 实验用例

3.5.4 效用函数设置

3.5.5 资源最优配置算法实验结果及其分析

3.5.6 超参数敏感度分析

3.5.7 资源弹性调度实验结果及其分析

3.6 本章小结

第4章资源感知的实时机器学习

4.1 引言

4.1.1 资源配置影响机器学习

4.1.2 机器学习指导资源配置

4.2 机器学习中异构数据源的资源配置

4.2.1 资源感知的超参数估计

4.2.2 计算成本和机器学习模型性能的权衡

4.3 自动化弹性资源调度中的随机过程

4.3.1 马尔可夫效用模型

4.3.2 基于马尔可夫决策过程的动态优化

4.4 自动化弹性资源调度算法

4.5 实验评估

4.5.1 资源配置对学习效果的影响

4.5.2 机器学习方法用于弹性资源调度的效果

4.6 本章小结

第5章基于数据流分析的深度贝叶斯推荐引擎

5.1 引言

5.2 深度推荐技术讨论

5.3 数据流环境中的推荐系统建模

5.3.1 用户/项目交互

5.3.2 推荐系统中的概念漂移

5.4 实时深度贝叶斯推荐网络

5.4.1 平均场近似

5.4.2 实时深度变分推断网络

5.4.3 交互事件(评分)预测网络

5.5 变分GRU二阶优化

5.5.1 证据下界ELBO

5.5.2 高斯分布下的梯度估计

5.5.3 变分GRU的费雪信息矩阵

5.5.4 变分GRU自然梯度下降

5.5.5 基于K-FAC的变分GRU二阶优化

5.6 实验评估

5.6.1 基准数据

5.6.2 基线算法

5.6.3 实验结果及其分析

5.7 本章小结

第6章总结与展望

6.1 工作总结

6.2 研究展望

6.2.1 高度分布式架构:SDN、边缘计算与联邦学习

6.2.2 强化学习

6.2.3 深度脉冲神经网络SNN

6.2.4 实时机器学习算法和硬件的协同设计

参考文献

作者简历及攻读学位期间的学术研究成果

致谢

（8）面向垂直领域的在线问答系统设计与实现（论文提纲范文）

摘要

Abstract

第一章引言

1.1 研究背景和意义

1.2 问答系统概述

1.3 本论文的研究内容及章节安排

1.3.1 本文研究内容

1.3.2 论文各章节的安排

第二章相关研究基础

2.1 网络爬虫

2.1.1 网页解析

2.1.2 主题相关性

2.2 文本分类

2.2.1 词的切分

2.2.2 词的表示

2.2.3 分类模型的构建

2.3 信息检索

2.3.1 信息检索算法

2.3.2 Lucene

2.3.3 ElasticSearch

2.4 机器阅读理解

2.4.1 机器阅读理解任务

2.4.2 BiDAF模型

2.5 本章小结

第三章系统需求分析及总体设计

3.1 系统需求分析

3.1.1 系统设计目标

3.1.2 系统用例图和用例描述

3.1.3 功能及性能需求

3.2 系统总体设计

3.2.1 系统架构设计

3.2.2 系统运行流程

3.3 本章小结

第四章在线问答系统详细设计

4.1 数据采集模块

4.1.1 网页下载器

4.1.2 网页解析器

4.1.3 主题相关性计算

4.1.4 数据持久化模块

4.1.5 网页文本内容去重

4.1.6 调度器

4.2 分布式索引模块

4.2.1 哈希分片

4.2.2 文本分词

4.2.3 倒排索引

4.3 信息检索与问答模块

4.3.1 用户交互界面

4.3.2 基于ElasticSearch的文档信息检索

4.3.3 基于Bi-DAF的机器阅读问答

4.4 本章小结

第五章面向电力领域的在线问答系统实现

5.1 环境介绍

5.2 数据采集模块实现

5.3 分布式索引模块实现

5.4 信息检索与问答模块实现

5.5 系统WEB服务功能实现

5.6 本章小结

第六章面向电力领域的在线问答系统测试

6.1 测试环境说明

6.2 功能测试与分析

6.2.1 网页解析功能测试

6.2.2 网络爬虫功能测试

6.2.3 搜索与问答结果测试

6.3 性能测试与分析

6.4 本章小结

第七章总结与展望

7.1 本文工作总结

7.2 未来研究工作展望

参考文献

致谢

（9）招聘信息垂直搜索引擎的设计与实现（论文提纲范文）

摘要

abstract

第1章绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 主要内容和结构安排

第2章垂直搜索引擎相关技术

2.1 搜索引擎技术架构

2.2 网络爬虫

2.2.1 通用网络爬虫

2.2.2 分布式网络爬虫

2.2.3 爬虫框架Scrapy-Redis

2.3 海量数据存储

2.3.1 Hadoop概述

2.3.2 非关系型数据库HBase

2.3.3 HBase协处理框架

2.4 索引技术

2.4.1 全文检索工具库Lucene

2.4.2 分布式搜索引擎ES

2.4.3 Lucene索引与数据库索引

2.5 ECharts数据可视化

2.6 本章小结

第3章系统需求分析与设计

3.1 需求分析

3.1.1 需求背景

3.1.2 系统目标

3.1.3 功能需求

3.1.4 非功能需求

3.2 系统总体设计

3.2.1 系统总体架构

3.2.2 系统总体功能设计

3.2.3 系统体系结构

3.3 数据采集模块的设计

3.3.1 网页抓取的设计

3.3.2 URL任务分发的设计

3.3.3 URL去重的设计

3.4 信息抽取模块的设计

3.5 存储模块的设计

3.6 索引模块的设计

3.6.1 索引构建

3.6.2 索引与数据同步的设计

3.7 检索模块的设计

3.8 数据分析展示模块的设计

3.9 本章小结

第4章系统实现

4.1 数据采集模块的实现

4.1.1 网页抓取的实现

4.1.2 URL任务分发的实现

4.1.3 URL去重的实现

4.2 信息抽取模块的实现

4.3 存储模块的实现

4.3.1 数据存储

4.3.2 数据去重

4.4 索引模块的实现

4.4.1 索引构建

4.4.2 索引与数据同步的实现

4.5 检索模块的实现

4.5.1 服务端检索实现

4.5.2 检索前端界面实现

4.6 数据分析展示模块的实现

4.7 本章小结

第5章系统开发环境与测试

5.1 开发环境及配置

5.1.1 Hadoop集群

5.1.2 HBase集群

5.1.3 ES集群

5.2 功能测试

5.3 性能测试

5.4 本章小结

总结与展望

致谢

参考文献

（10）基于语义和兴趣的图像/视频检索与认证技术研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 选题背景及意义

1.1.1 选题背景

1.1.2 研究意义

1.2 图像和视频检索面临的挑战

1.2.1 语义鸿沟

1.2.2 意图鸿沟

1.2.3 信任鸿沟

1.3 研究内容和贡献

1.4 论文的组织结构

第二章图像和视频检索中的关键问题

2.1 概述

2.2 语义鸿沟的弥补

2.2.1 基于单模态媒体的方法

2.2.2 基于多模态媒体的方法

2.3 意图鸿沟的弥补

2.3.1 基于相关反馈的方法

2.3.2 基于用户信息收集的方法

2.4 信任鸿沟的弥补

2.4.1 主动的认证方法

2.4.2 被动的认证方法

2.5 本章小结

第三章基于3D CNN的视频拷贝检测

3.1 概述

3.2 拷贝检测

3.3 视频特征提取

3.3.1 静态特征

3.3.2 运动特征

3.4 所提出的方法

3.4.1 3D CNN

3.4.2 并行3D CNN

3.4.3 视频数据集

3.5 实验与分析

3.5.1 对完整视频和子视频的分类

3.5.2 对未知类别视频的分类

3.5.3 对不同结构的性能比较

3.6 本章小结

第四章基于电影推荐的用户兴趣计算

4.1 概述

4.2 用户意图与兴趣

4.2.1 意图识别

4.2.2 兴趣计算

4.3 电影

4.3.1 电影预告片

4.3.2 电影描述

4.3.3 电影属性

4.3.4 电影情感的估计

4.4 所提出的方法

4.4.1 电影特征向量建模

4.4.2 用户兴趣向量的建立

4.5 实验与分析

4.5.1 数据集介绍

4.5.2 实验结果评价方法

4.5.3 参数的影响

4.5.4 与基于电影推荐的兴趣计算方法比较

4.6 本章小结

第五章基于数字水印的图像内容认证

5.1 概述

5.2 传统的伪造方法

5.3 深度伪造的方法

5.4 数字认证水印

5.4.1 数字认证水印的基本特性

5.4.2 现有方法介绍

5.5 所提出的方法

5.5.1 视觉显着性模型

5.5.2 基于视觉显着性的JND模型

5.5.3 基于JND的水印量化

5.6 实验与分析

5.6.1 质量评价标准

5.6.2 鲁棒性实验

5.6.3 认证实验

5.7 本章小结

第六章总结与展望

6.1 总结

6.2 展望

攻读博士学位期间发表的学术论文和授权的发明专利

攻读博士学位期间承担和参与的科研项目

致谢

参考文献

四、一种面向海量实时数据的信息检索算法（论文参考文献）

[1]基于微服务架构与知识图谱技术构建无人机知识库系统[D]. 陈秋瑾. 厦门理工学院, 2021(08)
[2]移动O2O情境下用户信息搜寻行为研究[D]. 曹越. 吉林大学, 2021(01)
[3]数据驱动下科技情报智慧服务模式研究[D]. 王益成. 吉林大学, 2020(08)
[4]多媒体网络舆情信息的并发获取机理与话题衍进追踪研究[D]. 许烨婧. 吉林大学, 2020(08)
[5]面向决策支持的医学文本语义分析方法研究[D]. 陈东华. 北京交通大学, 2020(03)
[6]多维数据融合的虚拟知识社区个性化知识推荐研究[D]. 李泽中. 吉林大学, 2020(08)
[7]分布式流数据分析与实时机器学习理论与应用研究[D]. 成英超. 广东工业大学, 2020(02)
[8]面向垂直领域的在线问答系统设计与实现[D]. 罗佳林. 北京邮电大学, 2020(05)
[9]招聘信息垂直搜索引擎的设计与实现[D]. 胡永奇. 西南交通大学, 2020(07)
[10]基于语义和兴趣的图像/视频检索与认证技术研究[D]. 李静. 山东师范大学, 2020(08)

标签：科技论文; 大数据论文; 社区o2o平台论文; 舆情分析论文; 虚拟技术论文;

海量实时数据的信息检索算法

一、一种面向海量实时数据的信息检索算法（论文文献综述）

二、一种面向海量实时数据的信息检索算法（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、一种面向海量实时数据的信息检索算法（论文提纲范文）

（1）基于微服务架构与知识图谱技术构建无人机知识库系统（论文提纲范文）

（2）移动O2O情境下用户信息搜寻行为研究（论文提纲范文）

（3）数据驱动下科技情报智慧服务模式研究（论文提纲范文）

（4）多媒体网络舆情信息的并发获取机理与话题衍进追踪研究（论文提纲范文）

（5）面向决策支持的医学文本语义分析方法研究（论文提纲范文）

（6）多维数据融合的虚拟知识社区个性化知识推荐研究（论文提纲范文）

（7）分布式流数据分析与实时机器学习理论与应用研究（论文提纲范文）

（8）面向垂直领域的在线问答系统设计与实现（论文提纲范文）

（9）招聘信息垂直搜索引擎的设计与实现（论文提纲范文）

（10）基于语义和兴趣的图像/视频检索与认证技术研究（论文提纲范文）

四、一种面向海量实时数据的信息检索算法（论文参考文献）

猜你喜欢