欢迎您光临本小站。希望您在这里可以找到自己想要的信息。。。

 分类:编程内功

Solr vs. Elasticsearch谁是开源搜索引擎王者

Solr vs. Elasticsearch谁是开源搜索引擎王者
Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。 它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。 Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,...

water 6年前 (2018-05-09) 2355℃ 0评论 1喜欢

分布式搜索和分析引擎对比

分布式搜索和分析引擎对比
当前是云计算和数据快速增长的时代,今天的应用程序正以PB级和ZB级的速度生产数据,但人们依然在不停的追求更高更快的性能需求。随着数据的堆积,如何快速有效的搜索这些数据,成为对后端服务的挑战。本文,我们将比较业界两个最流行的开源搜索引擎,Solr和ElasticSearch。两者都...

water 6年前 (2018-05-09) 2722℃ 0评论 0喜欢

新一代列式存储格式Parquet

新一代列式存储格式Parquet
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Clo...

water 6年前 (2018-05-09) 3334℃ 0评论 0喜欢

分布式协议gossip介绍

分布式协议gossip介绍
分布式系统中,即便是一个小型的集群,也需要通过一个机制来维护各个节点或服务的状态一致性和数据一致性。zab、paxos是使用较早的协议,后来出现了RAFT协议,这些主要通过RPC的机制进行节点连接,因此主要用于局域网或数据中心内部。Gossip(意:八卦、流言)支持p2p协议,是...

water 6年前 (2018-05-09) 4363℃ 0评论 4喜欢

一文读懂 Apache Kudu

一文读懂 Apache Kudu
前言 Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。本文将为...

water 6年前 (2018-05-09) 2499℃ 0评论 0喜欢

画流程图,选Visio还是选亿图Edraw?

画流程图,选Visio还是选亿图Edraw?
产品经理工作中,画流程图是必经的一环。对于工具狂魔来说,和介于产品经理的通病,只要能画流程图的工具,总想体验一番。 我用过的流程图工具有Visio、MindManager、亿图图示专家(Edraw Max)、PPT、Axure等。 首先,用Axure画流程图,对我来说,真废时间啊...

water 6年前 (2018-05-07) 3815℃ 0评论 0喜欢

HDFS文件系统

HDFS文件系统
HDFS文件系统   一、HDFS设计     HDFS为hadoop的核心组件,为hadoop底层的文件存储系统。它通常运行在商用硬件集群上,用来存储超大文件、大规模文件。     1、超大文件     &q...

water 6年前 (2018-04-28) 2182℃ 0评论 0喜欢

如何在hadoop中控制map的个数

如何在hadoop中控制map的个数
    hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map...

water 6年前 (2018-03-06) 2422℃ 0评论 0喜欢

快速学习一门技术

快速学习一门技术
1.要有主动学习开放的心态 2.获取一门新技术(可以把新技术看成一种工具,或许你工具箱里面有,或许你需要寻找)         第一种情况,通过自己逛论坛、博客、新闻,碰到一门比较热门新技术,感兴趣 ...

water 6年前 (2018-02-23) 2213℃ 0评论 0喜欢

CDH安装与配置

CDH安装与配置
需要的安装包:     CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel     CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel.sha1 &...

water 6年前 (2018-02-11) 2168℃ 0评论 0喜欢

ServiceComb和目前火热的SpringCloud、Dubbo相比较

ServiceComb和目前火热的SpringCloud、Dubbo相比较
首先ServiceComb基于华为内部的CSE(Cloud Service Engine)框架开源而来,这个框架在华为内部已经存在了2年多,支撑了多个大型的商业项目。有相对传统的企业级项目,也有类似手机应用这样的互联网属性比较强的项目。并且在成为整个华为公司统一的微服务标准框架...

water 6年前 (2018-01-25) 22632℃ 0评论 44喜欢

HMM、MEMM和CRF的学习总结(分词算法)

HMM、MEMM和CRF的学习总结(分词算法)
最近一直在学习NLP里最基础的几个语言模型:隐马尔科夫模型(Hidden Markov Model,HMM)、最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM)和条件随机场(Conditional Random Field,CRF)。这三种模...

water 6年前 (2018-01-02) 9268℃ 0评论 0喜欢

让你的数据库流动起来 – 利用MySQL Binlog实现流式实时分析架构

让你的数据库流动起来 – 利用MySQL Binlog实现流式实时分析架构
数据分析特别是实时数据分析,已经越来越多的成为各行各业的分析要求与标准 – 例如,(新)零售行业可能希望通过­­线下POS数据与实时门店客流流量的进行实时结合与分析,实现商品销售,销量,总类等等的实时预测; 在线广告平台期望通过广告(Impression)总类,数据量以及基于时...

water 6年前 (2017-12-28) 5258℃ 0评论 1喜欢

高效的数据结构和经典算法

高效的数据结构和经典算法
  本文介绍了常用的高效数据结构,包括bloom filter、跳跃表、trie树、线段树、B树、KD树、树状数组、并查集、红黑树和约瑟夫环问题。全部是简要的描述,建立在大家都对这些数据结构有一定的了解基础上,快速的复习。如果想要继续深入研究请看参考文献后面的...

water 6年前 (2017-12-26) 2279℃ 0评论 0喜欢

流式大数据处理的三种框架:Storm,Spark和Flink

流式大数据处理的三种框架:Storm,Spark和Flink
storm、spark streaming、flink都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。 Apache Storm 在Storm中,先...

water 7年前 (2017-12-12) 3123℃ 0评论 0喜欢

大规模分布式存储系统原理与架构(四)

大规模分布式存储系统原理与架构(四)
分布式系统: 木桶效应,架构设计之初要求我们能够估算系统的性能从而权衡不同的设计方法 分布式系统面临的第一个问题就是数据分布,即将数据均匀地分不到多个存储节点。另外,为了保证可靠性和可用性,需要将数据复制多个副本,这就带来了多个副本之间的数据一致性问题。大规模分布式存储系统的重要...

water 7年前 (2017-09-21) 2535℃ 0评论 0喜欢

Apollo配置中心介绍

Apollo配置中心介绍
1.1 背景 随着程序功能的日益复杂,程序的配置日益增多:各种功能的开关、参数的配置、服务器的地址…… 对程序配置的期望值也越来越高:配置修改后实时生效,灰度发布,分环境、分集群管理配置,完善的权限、审核机制…… 在这样的大环境下,传统的通过配置文件、数据库等方式已经越来越无法满...

water 7年前 (2017-09-19) 2451℃ 0评论 0喜欢

系统性能衡量指标介绍

系统性能衡量指标介绍
1. 响应时间(RT)   响应时间是指系统对请求作出响应的时间。直观上看,这个指标与人对软件性能的主观感受是非常一致的,因为它完整地记录了整个计算机系统处理请求的时间。由于一个系统通常会提供许多功能,而不同功能的处理逻辑也千差万别,因而不同功能的响应时间也不尽相同,甚...

water 7年前 (2017-09-07) 2663℃ 0评论 1喜欢

三分技术七分数据,得数据者得天下

三分技术七分数据,得数据者得天下
在大数据时代,海量数据正成为互联网、软件、硬件公司们竞逐的金矿。三分技术七分数据,得数据者得天下,数据的所有权之争正变得日益激烈。数据概念的提出比较早,自 2013 年大数据兴起,数据更是被视为未来极为重要的资源,连李克强总理也把数据提升到基础资源的层面,称为“重要的生产力”。 ...

water 7年前 (2017-09-05) 2887℃ 0评论 0喜欢

大规模分布式存储系统原理与架构(三)

大规模分布式存储系统原理与架构(三)
故障恢复   数据库运行过程中可能会发生故障,这个时候某些事务可能执行到一半但没有提交,当系统重启时,需要能够恢复到一致的状态,即要么提交这个事务,要么回滚。数据库系统以及其他的分布式存储系统统一采用操作日志,有时称为提交日志,即Commit Log技术来实现故障恢复。...

water 7年前 (2017-08-30) 2602℃ 0评论 0喜欢