欢迎您光临本小站。希望您在这里可以找到自己想要的信息。。。

 分类:编程内功

git 添加 gitignore 规则无效

git 添加 gitignore 规则无效
正常情况 如果在项目开始的时候配置了.gitignore文件,对一些文件进行忽略。 进行版本控制的时候就会忽略对这些文件的跟踪,这是正常情况。 特殊情况 但是有一种情况是,项目开始的时候 没有将一些无关文件配置进 .gitignore里面。导致文件已经进行跟踪了,但是目...

water 3周前 (06-29) 41℃ 0评论 0喜欢

Redis、SSDB、Memcache和MongoDB的区别

Redis、SSDB、Memcache和MongoDB的区别
摘要: Memcached可以利用多核优势,单实例吞吐量极高,可以达到几十万QPS(取决于key、value的字节大小以及服务器硬件性能,日常环境中QPS高峰大约在4-6w左右)。 1.Memcached Memcached的优点:Memcached可以利用多核优势,...

water 2个月前 (06-01) 114℃ 0评论 0喜欢

云搜索相关功能设置整理

云搜索相关功能设置整理
云搜索系统设置 1. 应用基本信息(名称、备注) 2. 数据存储量 (对应需要多少主分片) 3. 吞吐量tps (对应需要多少副本) 4. 数据源(topic、tag) 5. 定义应用结构(template) 6. 索引字段(倒排字段,用于query)及属性字段(正排字段用于过滤...

water 2个月前 (05-25) 92℃ 0评论 0喜欢

Hadoop与Spark的区别

Hadoop与Spark的区别
概述        谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。 解决问题的层面不一样 &nbs...

water 2个月前 (05-16) 91℃ 0评论 0喜欢

N-最短路径分词算法

N-最短路径分词算法
NSP分词算法是句子粗分的基本算法,在中科院计算所的文章中有详细描述。但是看了不甚明白,今天实现了这个算法,主要用的还是图论的基本算法Dijkstra算法。 将分词转化为图的最短路径问题假设要切分一下句子 :主席出现在这里。可将其转化为以下的图: 从而,找出这个句子的最短切分的...

water 2个月前 (05-09) 130℃ 0评论 0喜欢

中文分词算法简介

中文分词算法简介
什么是中文分词 与大部分印欧语系的语言不同,中文在词与词之间没有任何空格之类的显示标志指示词的边界。因此,中文分词是很多自然语言处理系统中的基础模块和首要环节。 下面以jieba的示例给读者一个对分词的感性认识。 【全模式】: 我/ 来到/ 北京/&...

water 2个月前 (05-09) 142℃ 0评论 0喜欢

Solr vs. Elasticsearch谁是开源搜索引擎王者

Solr vs. Elasticsearch谁是开源搜索引擎王者
Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。 它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。 Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,...

water 2个月前 (05-09) 156℃ 0评论 1喜欢

分布式搜索和分析引擎对比

分布式搜索和分析引擎对比
当前是云计算和数据快速增长的时代,今天的应用程序正以PB级和ZB级的速度生产数据,但人们依然在不停的追求更高更快的性能需求。随着数据的堆积,如何快速有效的搜索这些数据,成为对后端服务的挑战。本文,我们将比较业界两个最流行的开源搜索引擎,Solr和ElasticSearch。两者都...

water 2个月前 (05-09) 152℃ 0评论 0喜欢

新一代列式存储格式Parquet

新一代列式存储格式Parquet
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Clo...

water 2个月前 (05-09) 167℃ 0评论 0喜欢

分布式协议gossip介绍

分布式协议gossip介绍
分布式系统中,即便是一个小型的集群,也需要通过一个机制来维护各个节点或服务的状态一致性和数据一致性。zab、paxos是使用较早的协议,后来出现了RAFT协议,这些主要通过RPC的机制进行节点连接,因此主要用于局域网或数据中心内部。Gossip(意:八卦、流言)支持p2p协议,是...

water 2个月前 (05-09) 111℃ 0评论 0喜欢

一文读懂 Apache Kudu

一文读懂 Apache Kudu
前言 Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。本文将为...

water 2个月前 (05-09) 146℃ 0评论 0喜欢

画流程图,选Visio还是选亿图Edraw?

画流程图,选Visio还是选亿图Edraw?
产品经理工作中,画流程图是必经的一环。对于工具狂魔来说,和介于产品经理的通病,只要能画流程图的工具,总想体验一番。 我用过的流程图工具有Visio、MindManager、亿图图示专家(Edraw Max)、PPT、Axure等。 首先,用Axure画流程图,对我来说,真废时间啊...

water 2个月前 (05-07) 233℃ 0评论 0喜欢

HDFS文件系统

HDFS文件系统
HDFS文件系统   一、HDFS设计     HDFS为hadoop的核心组件,为hadoop底层的文件存储系统。它通常运行在商用硬件集群上,用来存储超大文件、大规模文件。     1、超大文件     &q...

water 3个月前 (04-28) 97℃ 0评论 0喜欢

如何在hadoop中控制map的个数

如何在hadoop中控制map的个数
    hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map...

water 4个月前 (03-06) 188℃ 0评论 0喜欢

快速学习一门技术

快速学习一门技术
1.要有主动学习开放的心态 2.获取一门新技术(可以把新技术看成一种工具,或许你工具箱里面有,或许你需要寻找)         第一种情况,通过自己逛论坛、博客、新闻,碰到一门比较热门新技术,感兴趣 ...

water 5个月前 (02-23) 198℃ 0评论 0喜欢

CDH安装与配置

CDH安装与配置
需要的安装包:     CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel     CDH-5.13.1-1.cdh5.13.1.p0.2-el7.parcel.sha1 &...

water 5个月前 (02-11) 203℃ 0评论 0喜欢

ServiceComb和目前火热的SpringCloud、Dubbo相比较

ServiceComb和目前火热的SpringCloud、Dubbo相比较
首先ServiceComb基于华为内部的CSE(Cloud Service Engine)框架开源而来,这个框架在华为内部已经存在了2年多,支撑了多个大型的商业项目。有相对传统的企业级项目,也有类似手机应用这样的互联网属性比较强的项目。并且在成为整个华为公司统一的微服务标准框架...

water 6个月前 (01-25) 1057℃ 0评论 0喜欢

HMM、MEMM和CRF的学习总结(分词算法)

HMM、MEMM和CRF的学习总结(分词算法)
最近一直在学习NLP里最基础的几个语言模型:隐马尔科夫模型(Hidden Markov Model,HMM)、最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM)和条件随机场(Conditional Random Field,CRF)。这三种模...

water 7个月前 (01-02) 883℃ 0评论 0喜欢