分类：大数据云计算

HBase rowkey与预分区知识点

一、引言 HBase其存储和读写的高性能，作为Nosql数据库的一员，HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录)，Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能...

water 4年前 (2022-09-08) 3005℃ 0评论 1喜欢

Superset介绍及使用说明

Superset介绍及使用说明Superset简介Apache Superset是Airbnb开源的数据挖掘平台。支持丰富的数据源连接，多种可视化方式，并能够对用户实现细粒度的权限控制。该工具主要特点是可自助分析、自定义仪表盘、分析结果可视化（导出）、用户/角色权限控制，还集成...

water 5年前 (2021-11-29) 4000℃ 0评论 2喜欢

数据仓库DW、ODS、DM概念及其区别

在具体分析数据仓库之前先看下一下数据中心的整体架构以及数据流向 DB 是现有的数据来源，可以为mysql、SQLserver、文件日志等，为数据仓库提供数据来源的一般存在于现有的业务系统之中。ETL的是 Extract-Transform-Load 的缩写，用来描...

water 5年前 (2020-12-31) 3541℃ 0评论 4喜欢

CDH集群中，服务器启动spark2-shell命令行注意事项

1、环境 cdh5.12.3 spark2 2.3.0 2、需要本地地洞spark2-shell用于环境测试错误一： Error: A JNI error has occurred, please check your installation ...

water 6年前 (2020-05-19) 3192℃ 0评论 6喜欢

大数据文件格式揭秘：Parquet、Avro、ORC

Parquet、Avro、ORC格式相同点基于Hadoop文件系统优化出的存储结构提供高效的压缩二进制存储格式文件可分割，具有很强的伸缩性和并行处理能力使用schema进行自我描述属于线上格式，可以在Hadoop节点之间传递数据不同点 ...

water 7年前 (2019-09-04) 4922℃ 0评论 2喜欢

什么样的大数据平台架构，才是最适合你的？

技术最终为业务服务，没必要一定要追求先进性，各个企业应根据自己的实际情况去选择自己的技术路径。　　它不一定具有通用性，但从一定程度讲，这个架构可能比BAT的架构更适应大多数企业的情况，毕竟，大多数企业，数据没到那个份上，也不可能完全自研，商业和开源的结合可能更好...

water 7年前 (2019-09-03) 3190℃ 0评论 1喜欢

云计算和虚拟化

作者：Bright Liao链接：https://www.zhihu.com/question/35425470/answer/62993113来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。 1. 基于虚拟机的虚拟化和基于容器的...

water 7年前 (2019-08-27) 3278℃ 0评论 1喜欢

如何看待yandex开源clickhouse这个列式文档数据库?

欧阳辰《Druid实时大数据分析》作者，”互联居”作者编辑推荐144 人赞同了该回答作者：欧阳辰链接：彪悍开源的分析数据库-ClickHouse – 互联居 – 知乎专栏来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商...

water 7年前 (2019-08-27) 4443℃ 0评论 2喜欢

频繁项集与关联规则 FP-growth 的原理和实现

本文将介绍机器学习领域经典的 FP-growth（Frequent Pattern Growth）模型，它是目前业界经典的频繁项集和关联规则挖掘的算法。相比于 Apriori 模型，FP-growth 模型只需要扫描数据库两次，极大得减少了数据读取次数并显著得提升了算法效率。您将...

water 7年前 (2019-05-14) 4875℃ 0评论 1喜欢

数据挖掘系列关联规则挖掘基本概念与Aprior算法

关联规则挖掘在电商、零售、大气物理、生物医学已经有了广泛的应用，本篇文章将介绍一些基本知识和Aprori算法。啤酒与尿布的故事已经成为了关联规则挖掘的经典案例，还有人专门出了一本书《啤酒与尿布》，虽然说这个故事是哈弗商学院杜撰出来的，但确实能很好的解释关联规则挖掘的原理。我们这...

water 7年前 (2019-05-14) 3660℃ 0评论 0喜欢

Apache Beam 实战指南之基础入门

前言：大数据 2.0 时代不期而至随着大数据 2.0 时代悄然到来，大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。早期的处理模型 (Map/Reduce) 早已经力不从心，而且也很难应用到处理流程长且复杂的数据流水线上。另外，近年来涌现出诸多大数据应用...

water 7年前 (2019-04-22) 3407℃ 0评论 0喜欢

Hive query results in vertical format like MySQL’s “\G”? 开启列展示

$Hive query results in vertical format like MySQL’s “\G”? 开启列展示$

set hive.cli.print.header=true; // 打印列名 set hive.cli.print.row.to.vertical=true; //&nb...

water 7年前 (2019-04-02) 4097℃ 0评论 0喜欢

学时网 -关注编程生活文学，分享智慧与快乐

分类：大数据云计算

HBase rowkey与预分区知识点

Superset介绍及使用说明

数据仓库DW、ODS、DM概念及其区别

CDH集群中，服务器启动spark2-shell命令行注意事项

大数据文件格式揭秘：Parquet、Avro、ORC

什么样的大数据平台架构，才是最适合你的？

云计算和虚拟化

如何看待yandex开源clickhouse这个列式文档数据库?

频繁项集与关联规则 FP-growth 的原理和实现

数据挖掘系列关联规则挖掘基本概念与Aprior算法

Apache Beam 实战指南之基础入门

Hive query results in vertical format like MySQL’s “\G”? 开启列展示

MapReduce和Tez对比

大数据初学者应该这样学！

Cloudera CDH 、Hortonworks DHP和MapR比较

Hadoop之MapReduce的两种任务模式

Kafka Connect简介

Hadoop与Spark的区别

新一代列式存储格式Parquet

一文读懂 Apache Kudu

2026年 5月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31