主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘收集数据的方法。
分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类收集数据的方法,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。
回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征收集数据的方法、数据序列的预测以及数据间的相关关系等。
聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。
关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。
特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。
收集数据时常用的调查方法有哪些?
抽样 整群 抽样 ////////////////////////////// 观察法 观察法是研究者通过感官或一定的仪器设备,有目的、有计划地观察儿童的心理和行为表现,并由此分析儿童心理和行为特征和规律的一种方法。
儿童的心理活动有突出的外显性,通过观察其外部行为,可以了解他的心理特征。因此,观察法是学校心理学研究的最基本、最普遍的一种方法。访谈法 访谈法是研究者通过与儿童进行口头交谈,了解和收集他们有关的心理与行为特征的数据资料的一种研究方法。这种方法在学校心理学的研究,特别是实践中有重要的作用。它的最大特点在于:整个访谈过程是访谈者与儿童相互影响、相互作用的过程。问卷法 问卷法是研究者用统一、严格设计的问卷,来收集儿童心理和行为的数据资料的一种研究方法。其特点是标准化程度比较高,避免了研究的盲目性和主观性,而且能在较短时间内收集到大量的资料,也便于定量分析,是学校心理学研究中常采用的一种收集资料的方法。
个人怎样获取大数据?
谢谢邀请!
大数据的数据来源主要有三个渠道,分别是物联网系统、传统信息处理系统以及互联网应用(Web和App),所以要想获得大数据就要从这三个渠道来获取。
物联网系统产生的数据占据着大数据中的重要比例,物联网产生的数据多以非结构化数据为主,包括视频、音频、传感数据等等。物联网的应用领域众多,比如工业物联网、农业物联网、车联网、智慧城市等都会产生大量的数据,通常情况下这些数据的采集都是有严格要求的,是不能开放给个人的。如果个人要想获得这部分数据,一个比较可行的方案是跟数据采集者进行合作,比如做数据分析等业务。
传统信息系统涵盖的领域非常广泛,有政务系统、企业ERP、教育信息系统、医疗信息系统等等,传统信息系统涵盖的数据多以结构化数据为主,而且往往有较高的精确度和关联关系,这部分数据的价值密度也是相对比较高的。
但是传统信息系统涵盖的数据往往涉及到个人隐私、商业机密等内容,所以这部分内容通常是受到严密保护的。随着大数据技术的发展,业界对于政务系统的数据开放的呼声越来越高,经过脱敏的数据往往并不会对个人隐私构成侵犯,所以未来某些政务系统的大数据会陆续开放出来。
互联网应用也是产生大数据的重要基础之一,包括各种Web应用以及大量的App产品,这部分数据多以半结构化为主,数据内容也存在真假难辨的情况,但是由于这部分数据的价值密度相对还是比较高的,所以现在不少互联网公司就是基于这些数据对用户进行“画像”,从而进行多维度的分类。
随着这些互联网产品采集的数据越来越多,用户的“画像”也会越来越清晰,大数据分析结果也会越来越准确。对于个人用户来说,要想获得这部分数据,有三个办法,一个是自己开发互联网应用,另一个是对目前的互联网数据进行爬取,最后是与互联网公司开展合作,这样也能拿到一部分数据。
虽然现在大数据相关技术已经开始逐渐落地,很多传统信息系统之间也形成了互联互通,但是数据流通依然有大量的环节需要打通,一定程度上的“数据孤岛”现象依然存在。相信随着云计算、大数据和物联网的发展,数据流通将会越来越方便和合理。
作者简介:中国科学院大学计算机专业研究生导师,从事IT行业多年,研究方向包括动态软件体系结构、大数据、人工智能相关领域,有多年的一线研发经验。欢迎关注作者,欢迎咨询计算机相关问题。