核心期刊网小编回答:
随着计算机技术突飞猛进的发展,研究领域的方向日益增多,各研究方向之间联系日益紧密,新技术层出不穷,造就了新的研究方向大量涌现。硕士论文的摘要和关键词是一篇论文的主题及主要内容的概括,对其进行分析基本就能确定其研究方向。本文通过对大量计算机专业硕士论文的摘要和关键词进行文本数据挖掘,实现硕士论文的自动分类,并做出相关统计,以便供科学研究者和管理者参考,更好把握学科前进的方向和脉搏。
数据挖掘是从大量的不完全的有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先未知的、但又是潜在有用的信息和知识的过程。当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘。
研究生学位论文的摘要和关键词是高度非结构化的文本数据,具有5个特点:文档特征提取时有大量的候选特征、特征语义相关、特征存在多义和同义现象、特征分布稀疏、基本线性可分。
支持向量机方法在硕士论文自动分类中的优势,支持向量机以统计学习理论为基础,采用结构风险最小化准则设计学习机器,较好地解决了非线性、高维数、局部极小点等问题。支持向量机在本文讨论的问题中具有以下特点和优势:1支持向量机具有坚实的理论基础和严格的推证过程,是针对小样本空间进行优化的算法;2支持向量机采用结构风险最小化准则设计学习机器,折衷考虑经验风险和置信范围;3对于非线性问题,通过非线性变换转换到高维的特征空间,在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,巧妙地解决了维数问题;4支持向量机算法归结为一个凸二次规划问题,从理论上说,得到的解将是全局最优解;5支持向量机通过学习,选择出只占训练样本集中部分的支持向量;6少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、剔除大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性;7支持向量机参数的选择影响着支持向量机的性能。以便供科学研究者和管理者参考。结合三级学科目录和某校学科建设规划,本文将计算机学科分为8个研究方向:多媒体应用技术、基于网络的计算机应用技术、计算机仿真、计算机决策支持系统、计算机图形图像处理、计算机信息管理系统、人工智能、信息安全。
从中国优秀博硕学位论文库中随机下载2000篇左右的博硕士论文,提取出每篇论文的中文摘要和关键词,以TXT文件的形式保存。人工打标方式将其分到各个研究方向中:多媒体应用技术190篇、基于网络的计算机应用技术541篇、计算机仿真246篇、计算机决策支持系统236篇、计算机图形图象处理197篇、计算机信息管理系统183篇、人工智能224篇、信息安全181篇。收集的某高校计算机专业最近几年的硕士论文相关数据450篇:02级45篇硕士论文,03级71篇硕士论文,04级99篇硕士论文,05级94篇硕士论文,06级141篇硕士论文。这些数据不参与打标,用来实现自动分类和分析。
|
核心期刊网(www.hexinqk.com)秉承“诚以为基,信以为本”的宗旨,为广大学者老师提供投稿辅导、写作指导、核心期刊推荐等服务。 核心期刊网专业期刊发表机构,为学术研究工作者解决北大核心、CSSCI核心、统计源核心、EI核心等投稿辅导咨询与写作指导的问题。 投稿辅导咨询电话:18915033935 投稿辅导客服QQ: 投稿辅导投稿邮箱:1003158336@qq.com |