热门文章> 大数据采集方法有哪些 >

大数据采集方法有哪些

36氪企服点评小编
2022-11-14 19:39
6139次阅读

| 企服解答

大数据采集方法有:1、实时采集;2、离线采集;3、互联网采集;4、其它方式采集。

大数据采集方法有哪些

1、实时采集

主要用在考虑流处理的业务场景,在流处理场景,数据采集会成为Kafka的消费者,就像一个水坝一般将上游源源不断的数据拦截住,然后根据业务场景做对应的处理,之后再写入到对应的数据存储中。

2、离线采集

在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。

在转换的过程中,需要针对具体的业务场景对数据进行治理。

3、互联网采集

Scribe是Facebook开发的数据(日志)收集系统。又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它支持图片、音频、视频等文件或附件的采集。

4、其它方式采集

对于保密性要求较高的数据,可以通过与数据技术服务商合作,使用特定系统接口等相关方式采集数据。

| 扩展阅读

大数据,可以理解为是数据的集合。

大数据的显著特征是:

1、大量化

2、多样化:不再是单一的文本形式,订单、日志、音频,多种多样。

3、快速化:在海量的数据面前,处理数据的效率有着本质的区别。

4、价值密度低:需要通过强大的算法迅速完成数据的价值提纯。

大数据带来的三大转变:

1、可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不是依赖于随机采样。

2、对数据更高的精确性可使人们发现更多的细节。

3、对数据的研究不再热衷于追求精确度、不再热衷于寻找因果关系,而是事物之间的相关关系。

[免责声明]

文章标题: 大数据采集方法有哪些

文章内容为网站编辑整理发布,仅供学习与参考,不代表本网站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时沟通。发送邮件至36dianping@36kr.com,我们会在3个工作日内处理。

相关文章
最新文章
查看更多
关注 36氪企服点评 公众号
打开微信扫一扫
为您推送企服点评最新内容
消息通知
咨询入驻
商务合作