欢迎您光临本小站。希望您在这里可以找到自己想要的信息。。。

 分类:大数据云计算

频繁项集与关联规则 FP-growth 的原理和实现

频繁项集与关联规则 FP-growth 的原理和实现
本文将介绍机器学习领域经典的 FP-growth(Frequent Pattern Growth)模型,它是目前业界经典的频繁项集和关联规则挖掘的算法。相比于 Apriori 模型,FP-growth 模型只需要扫描数据库两次,极大得减少了数据读取次数并显著得提升了算法效率。您将...

water 2个月前 (05-14) 0℃ 0评论 0喜欢

数据挖掘系列关联规则挖掘基本概念与Aprior算法

数据挖掘系列关联规则挖掘基本概念与Aprior算法
关联规则挖掘在电商、零售、大气物理、生物医学已经有了广泛的应用,本篇文章将介绍一些基本知识和Aprori算法。 啤酒与尿布的故事已经成为了关联规则挖掘的经典案例,还有人专门出了一本书《啤酒与尿布》,虽然说这个故事是哈弗商学院杜撰出来的,但确实能很好的解释关联规则挖掘的原理。我们这...

water 2个月前 (05-14) 0℃ 0评论 0喜欢

Apache Beam 实战指南之基础入门

Apache Beam 实战指南之基础入门
前言:大数据 2.0 时代不期而至 随着大数据 2.0 时代悄然到来,大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。早期的处理模型 (Map/Reduce) 早已经力不从心,而且也很难应用到处理流程长且复杂的数据流水线上。另外,近年来涌现出诸多大数据应用...

water 3个月前 (04-22) 0℃ 0评论 0喜欢

MapReduce和Tez对比

MapReduce和Tez对比
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"。 Tez是Apache开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Re...

water 4个月前 (03-28) 0℃ 0评论 0喜欢

大数据初学者应该这样学!

大数据初学者应该这样学!
很多人都知道大数据很火,就业很好,薪资很高,想往大数据方向发展。但该学哪些技术,学习路线是什么样的呢?用不用参加大数据培训呢?如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么大讲台老师就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系...

water 4个月前 (03-27) 0℃ 0评论 0喜欢

Cloudera CDH 、Hortonworks DHP和MapR比较

Cloudera CDH 、Hortonworks DHP和MapR比较
目前啊,都知道,大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)。 手工部署呢,需配置太多参数,但是,好理解其原理,建议初学这样做,能学到很多。该方式啊,均得由用户执行,细节太多,切当...

water 4个月前 (03-12) 0℃ 0评论 0喜欢

Hadoop之MapReduce的两种任务模式

Hadoop之MapReduce的两种任务模式
MapReduce按照任务大小和设置的不同,提供了两种任务模式: 老一些的版本还有一个JobTracker的实现类,即:classic。用于和MapReduce1.X兼容用的,高一些的版本已经没有这个实现类了。 一,本地模式(LocalJobRunner实现) mapreduce...

water 4个月前 (03-07) 0℃ 0评论 0喜欢

Kafka Connect简介

Kafka Connect简介
Kafka 0.9+增加了一个新的特性Kafka Connect,可以更方便的创建和管理数据流管道。它为Kafka和其它系统创建规模可扩展的、可信赖的流数据提供了一个简单的模型,通过connectors可以将大数据从其它系统导入到Kafka中,也可以从Kafka中导出到其它系统。...

water 11个月前 (09-06) 0℃ 0评论 0喜欢

Hadoop与Spark的区别

Hadoop与Spark的区别
概述        谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。 解决问题的层面不一样 &nbs...

water 1年前 (2018-05-16) 0℃ 0评论 0喜欢

新一代列式存储格式Parquet

新一代列式存储格式Parquet
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Clo...

water 1年前 (2018-05-09) 0℃ 0评论 0喜欢

一文读懂 Apache Kudu

一文读懂 Apache Kudu
前言 Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。本文将为...

water 1年前 (2018-05-09) 0℃ 0评论 0喜欢

HDFS文件系统

HDFS文件系统
HDFS文件系统   一、HDFS设计     HDFS为hadoop的核心组件,为hadoop底层的文件存储系统。它通常运行在商用硬件集群上,用来存储超大文件、大规模文件。     1、超大文件     &q...

water 1年前 (2018-04-28) 0℃ 0评论 0喜欢

如何在hadoop中控制map的个数

如何在hadoop中控制map的个数
    hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map...

water 1年前 (2018-03-06) 0℃ 0评论 0喜欢

CDH安装与配置

CDH安装与配置
需要的安装包:     CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel     CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel.sha1 &...

water 1年前 (2018-02-11) 0℃ 0评论 0喜欢

流式大数据处理的三种框架:Storm,Spark和Flink

流式大数据处理的三种框架:Storm,Spark和Flink
storm、spark streaming、flink都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。 Apache Storm 在Storm中,先...

water 2年前 (2017-12-12) 0℃ 0评论 0喜欢

Apache Kylin 框架介绍

Apache Kylin 框架介绍
1. Apache Kylin 是什么? Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 由eBay开源的一...

water 2年前 (2017-08-04) 0℃ 0评论 0喜欢

Spark和Hadoop对比

Spark和Hadoop对比
取代Hadoop成为最活跃的开源大数据项目。但是,在选择大数据框架时,企业不能因此就厚此薄彼。近日,著名大数据专家Bernard Marr在一篇文章中分析了Spark和Hadoop的异同。 Hadoop和Spark均是大数据框架,都提供了一些执行常见大数据任务的工具。但确切地说,...

water 4年前 (2015-12-01) 0℃ 0评论 0喜欢

大数据之​Hadoop,Spark和Storm分析

大数据之​Hadoop,Spark和Storm分析
大数据(Big Data) 大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Verac...

water 4年前 (2015-07-28) 0℃ 0评论 0喜欢

大数据架构师基础:hadoop家族,Cloudera系列产品介绍

大数据架构师基础:hadoop家族,Cloudera系列产品介绍
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。 我们可以带着下面...

water 4年前 (2015-07-28) 0℃ 0评论 0喜欢