本文共 1389 字,大约阅读时间需要 4 分钟。
人类进入信息化时代以后,短短的数年时间,积累了大量的数据,步入了大数据时代,数据技术也就应运而生,成为了一种新的主流技术。而研究数据挖掘技术的理念、方法以及应用领域,将对我国各个领域的未来带来更多的机遇和挑战。
数据挖掘技术的具体流程就是先通过对于海量数据的保存,然后就已有数据中进行分析、整理、选择、转换等,数据的准备工作是数据挖掘技术的前提,也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘,然后对数据进行评估,最后实现运用。因此,数据挖掘能够运用到很多方面。如数据量巨大的互联网行业、天文学、气象学、生物技术,以及医疗保健、教育教学、银行、金融、零售等行业。通过数据挖掘技术将大数据融合在各种社会应用中,数据挖掘的结果参与到政府、企业、个人的决策中,发挥数据挖掘的社会价值,改变人们的生活方式,最大化数据挖掘的 积极作用。 数据挖掘又叫数据库知识的发现,它是一个从数据库中发现并提取隐含的、未知的有用数据。数据挖掘主要包括数据准备、数据挖掘以及结果解释和评价这三个阶段。而在数掘的整个处理过程中,数据挖掘的分析方法是整个过程中最为关键的一个环节。 1、数据准备环节 数据准备是指在有一定的干扰,数据存在形式不一致和有数据缺失的情况下,对数据进行整理、清洗和预处理的一个准备过程。 2、数据挖掘阶段 数据挖掘阶段指的是取数据的模式,即数据准备是从大量庞杂的数据源获得数据挖掘所用的目标数据,由于在数据收集的阶段可能得到脏数据。因此,数据挖掘过程中最关键的一步是使用智能的方法对数据进行提取、分类和聚类等。在此之前,首先需要确定是采用哪种形式的提取模式,然后紧接着就是根据提取模式选择相应挖掘算法的参数,通过这种分析数据的方式才能形成合适的提取知识的模式。 3、结果的解释和评价 通过数据挖掘出来的数据需要根据实际需要转变成为面向用户的数据模型,即用户能够理解的模式,然后跟据其对要解决的决策问题是否有真正的作用得出所获得数据是否具有现实的意义。 北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。 NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。 数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。转载地址:http://qirxx.baihongyu.com/