欢迎您光临本小站。希望您在这里可以找到自己想要的信息。。。

 分类:编程内功

如何在hadoop中控制map的个数

如何在hadoop中控制map的个数
    hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map...

water 2个月前 (03-06) 73℃ 0评论 0喜欢

快速学习一门技术

快速学习一门技术
1.要有主动学习开放的心态 2.获取一门新技术(可以把新技术看成一种工具,或许你工具箱里面有,或许你需要寻找)         第一种情况,通过自己逛论坛、博客、新闻,碰到一门比较热门新技术,感兴趣 ...

water 2个月前 (02-23) 126℃ 0评论 0喜欢

CDH安装与配置

CDH安装与配置
需要的安装包:     CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel     CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel.sha1 &...

water 2个月前 (02-11) 122℃ 0评论 0喜欢

ServiceComb和目前火热的SpringCloud、Dubbo相比较

ServiceComb和目前火热的SpringCloud、Dubbo相比较
首先ServiceComb基于华为内部的CSE(Cloud Service Engine)框架开源而来,这个框架在华为内部已经存在了2年多,支撑了多个大型的商业项目。有相对传统的企业级项目,也有类似手机应用这样的互联网属性比较强的项目。并且在成为整个华为公司统一的微服务标准框架...

water 3个月前 (01-25) 393℃ 0评论 0喜欢

HMM、MEMM和CRF的学习总结(分词算法)

HMM、MEMM和CRF的学习总结(分词算法)
最近一直在学习NLP里最基础的几个语言模型:隐马尔科夫模型(Hidden Markov Model,HMM)、最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM)和条件随机场(Conditional Random Field,CRF)。这三种模...

water 4个月前 (01-02) 391℃ 0评论 0喜欢

让你的数据库流动起来 – 利用MySQL Binlog实现流式实时分析架构

让你的数据库流动起来 – 利用MySQL Binlog实现流式实时分析架构
数据分析特别是实时数据分析,已经越来越多的成为各行各业的分析要求与标准 – 例如,(新)零售行业可能希望通过­­线下POS数据与实时门店客流流量的进行实时结合与分析,实现商品销售,销量,总类等等的实时预测; 在线广告平台期望通过广告(Impression)总类,数据量以及基于时...

water 4个月前 (12-28) 429℃ 0评论 0喜欢

高效的数据结构和经典算法

高效的数据结构和经典算法
  本文介绍了常用的高效数据结构,包括bloom filter、跳跃表、trie树、线段树、B树、KD树、树状数组、并查集、红黑树和约瑟夫环问题。全部是简要的描述,建立在大家都对这些数据结构有一定的了解基础上,快速的复习。如果想要继续深入研究请看参考文献后面的...

water 4个月前 (12-26) 180℃ 0评论 0喜欢

流式大数据处理的三种框架:Storm,Spark和Flink

流式大数据处理的三种框架:Storm,Spark和Flink
storm、spark streaming、flink都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。 Apache Storm 在Storm中,先...

water 5个月前 (12-12) 287℃ 0评论 0喜欢

大规模分布式存储系统原理与架构(四)

大规模分布式存储系统原理与架构(四)
分布式系统: 木桶效应,架构设计之初要求我们能够估算系统的性能从而权衡不同的设计方法 分布式系统面临的第一个问题就是数据分布,即将数据均匀地分不到多个存储节点。另外,为了保证可靠性和可用性,需要将数据复制多个副本,这就带来了多个副本之间的数据一致性问题。大规模分布式存储系统的重要...

water 7个月前 (09-21) 385℃ 0评论 0喜欢

Apollo配置中心介绍

Apollo配置中心介绍
1.1 背景 随着程序功能的日益复杂,程序的配置日益增多:各种功能的开关、参数的配置、服务器的地址…… 对程序配置的期望值也越来越高:配置修改后实时生效,灰度发布,分环境、分集群管理配置,完善的权限、审核机制…… 在这样的大环境下,传统的通过配置文件、数据库等方式已经越来越无法满...

water 7个月前 (09-19) 415℃ 0评论 0喜欢

系统性能衡量指标介绍

系统性能衡量指标介绍
1. 响应时间(RT)   响应时间是指系统对请求作出响应的时间。直观上看,这个指标与人对软件性能的主观感受是非常一致的,因为它完整地记录了整个计算机系统处理请求的时间。由于一个系统通常会提供许多功能,而不同功能的处理逻辑也千差万别,因而不同功能的响应时间也不尽相同,甚...

water 8个月前 (09-07) 269℃ 0评论 0喜欢

三分技术七分数据,得数据者得天下

三分技术七分数据,得数据者得天下
在大数据时代,海量数据正成为互联网、软件、硬件公司们竞逐的金矿。三分技术七分数据,得数据者得天下,数据的所有权之争正变得日益激烈。数据概念的提出比较早,自 2013 年大数据兴起,数据更是被视为未来极为重要的资源,连李克强总理也把数据提升到基础资源的层面,称为“重要的生产力”。 ...

water 8个月前 (09-05) 261℃ 0评论 0喜欢

大规模分布式存储系统原理与架构(三)

大规模分布式存储系统原理与架构(三)
故障恢复   数据库运行过程中可能会发生故障,这个时候某些事务可能执行到一半但没有提交,当系统重启时,需要能够恢复到一致的状态,即要么提交这个事务,要么回滚。数据库系统以及其他的分布式存储系统统一采用操作日志,有时称为提交日志,即Commit Log技术来实现故障恢复。...

water 8个月前 (08-30) 322℃ 0评论 0喜欢

大规模分布式存储系统原理与架构(二)

大规模分布式存储系统原理与架构(二)
单机存储引擎 存储引擎是存储系统的发动机,直接决定存储系统能够提供的性能和功能。存储系统的基本功能包括:增、删、读、改,其中,读取操作分为随机读取和顺序扫描。哈希存储引擎是哈希表的持久化实现,支持增、删、改、以及随机读取操作,但不支持顺序扫描,对应的存储系统为键值存储系统;B树存...

water 8个月前 (08-30) 377℃ 0评论 0喜欢

大规模分布式存储系统原理与架构(一)

大规模分布式存储系统原理与架构(一)
概述 分布式存储概念 分布式存储系统是大量普通PC服务器通过Internet互联,对外作为一个整体提供存储服务 特点 可扩展、低成本、高性能、易用 分布式存储涉及的设计主要来自两个领域:分布式系统以及数据库 数据分布、一致性、容错、负载均衡、事务与并发控制、易用性、压缩/解压缩 ...

water 8个月前 (08-30) 578℃ 0评论 1喜欢

K-means聚类算法

K-means聚类算法
  K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。    ...

water 8个月前 (08-17) 244℃ 0评论 0喜欢

5.4es 源码 搭建

5.4es 源码 搭建
一 idea 运行 1) github下载 2) 5.0之后使用gradle管理项目依赖,5.4使用gradle 3.3+,先把gradle安装好 ,下载gradle-3.3-bin.zip 3) gradle的仓库需要翻墙,使用...

water 9个月前 (08-08) 514℃ 0评论 0喜欢

Apache Kylin 框架介绍

Apache Kylin 框架介绍
1. Apache Kylin 是什么? Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 由eBay开源的一...

water 9个月前 (08-04) 424℃ 0评论 0喜欢

献给写作者的 Markdown 新手指南

献给写作者的 Markdown 新手指南
「简书」作为一款「写作软件」在诞生之初就支持了 Markdown,Markdown 是一种「电子邮件」风格的「标记语言」,我们强烈推荐所有写作者学习和掌握该语言。为什么?可以参考: 『为什么作家应该用 Markdown 保存自己的文稿』。 『Markdown写作浅谈』 ...

water 9个月前 (07-27) 210℃ 0评论 0喜欢

Redis监控方案

Redis监控方案
  Redis现在在业务中应用已经很广泛了,但是如何监控redis,实时的观察redis的性能,却很少的提及,现在常见的监控方案基本上都是使用redis自带的info命令和monitor命令获取相关信息,然后提取出来显示。 测试环境:     &nb...

water 9个月前 (07-27) 269℃ 0评论 0喜欢