欢迎您光临本小站。希望您在这里可以找到自己想要的信息。。。

 分类:数据结构算法

状态机

状态机
状态机 状态机,表示若干个状态,以及在这些状态之间的转义和动作的模型。1 状态机是一个离散数学模型。给定一个输入集合,根据对输入的接受次序来决定一个输出集合。 有限状态机 无限状态机 一般认为无限状态机很好,因为这表示计算能力更强,但是有限状态理论和模型在...

water 6天前 29℃ 0评论 0喜欢

数据结构和内存中的(堆和栈)的区别

数据结构和内存中的(堆和栈)的区别
数据结构中的堆栈 堆结构和栈结构 堆 结构是数据结构中的一种,比如数据结构还有平衡二叉树、红黑树等 堆也被称为优先队列。队列中允许的操作是先进先出(FIFO),在队尾插入元素,在队头取出元素。而堆也是一样,在堆底插入元素,在堆顶取出元素 ; 内存中的堆栈 堆内...

water 2周前 (05-10) 56℃ 0评论 0喜欢

Hadoop集群监控:jmx信息获取

Hadoop集群监控:jmx信息获取
 Hadoop集群的监控可以通过多种方式来实现(比如REST API、jmx、内置API等等)。虽然监控方式有多种,但是我们需要根据监控的指标选择不同的监控方式,比如如果你想监控作业的情况,那么你选择jmx是不能满足的;你想监控各节点的运行情况,REST API也是不能满足的。所...

water 1个月前 (04-22) 92℃ 0评论 0喜欢

归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered)

归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered)
1 概念  归一化:1)把数据变成(0,1)或者(-1,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。2)把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式,即将有量纲的表达式,经...

water 3个月前 (02-27) 243℃ 0评论 0喜欢

真正的编程能力基本功

真正的编程能力基本功
还在读书,也在实验室帮忙做了些东西,自己也搭过几个网站。在周围人看来似乎好像我很厉害,做了那么多东西,但是我发现这些东西虽然是我做的,但是实际上我手把手自己写的代码却并没有多少,很多都是用开源的东西,我写的代码无非是把别人的东西整合下,类似于胶水一样的工作。我之前所认为的编程是全...

water 4个月前 (01-28) 240℃ 0评论 0喜欢

分布式系统理论基础 – 选举、多数派和租约

分布式系统理论基础 – 选举、多数派和租约
选举(election)是分布式系统实践中常见的问题,通过打破节点间的对等关系,选得的leader(或叫master、coordinator)有助于实现事务原子性、提升决议效率。 多数派(quorum)的思路帮助我们在网络分化的情况下达成决议一致性,在leader选举的场景下帮...

water 4个月前 (01-15) 214℃ 0评论 1喜欢

搜索算法总结

搜索算法总结
1.跳跃表 2.FST+FSM Finite StateTransducers 简称 FST,通常中文译作有穷状态转换器或者有限状态传感器,我更偏向于后者,因为后者更加贴近原意。FST目前在语音识别和自然语言搜索、处理等方向被广泛应用。FST的功能更类似于字典,Lucene4.0...

water 4个月前 (01-14) 193℃ 0评论 0喜欢

lucene字典数据结构实现

lucene字典数据结构实现
1 lucene字典       使用lucene进行查询不可避免都会使用到其提供的字典功能,即根据给定的term找到该term所对应的倒排文档id列表等信息。实际上lucene索引文件后缀名为tim和tip的文件实现的就是lucene的字典功能。 ...

water 5个月前 (12-18) 220℃ 0评论 0喜欢

自然语言处理命名实体识别(NER)

自然语言处理命名实体识别(NER)
NER(Named Entity Recognition,命名实体识别)又称作专名识别,是自然语言处理中常见的一项任务,使用的范围非常广。命名实体通常指的是文本中具有特别意义或者指代性非常强的实体,通常包括人名、地名、机构名、时间、专有名词等。NER系统就是从非结构化的文本中抽取...

water 8个月前 (09-10) 3847℃ 0评论 0喜欢

标准化因子

标准化因子
1:标准化因子文件nrm 在讨论标准化因子(Normalization Factor)之前,首先应明晰两个概念: tf(term frequency):term在文档中出现的频次 idf(inverse doc frequency):包含term的词条越少,则此term的...

water 10个月前 (07-23) 571℃ 0评论 0喜欢

N-最短路径分词算法

N-最短路径分词算法
NSP分词算法是句子粗分的基本算法,在中科院计算所的文章中有详细描述。但是看了不甚明白,今天实现了这个算法,主要用的还是图论的基本算法Dijkstra算法。 将分词转化为图的最短路径问题假设要切分一下句子 :主席出现在这里。可将其转化为以下的图: 从而,找出这个句子的最短切分的...

water 1年前 (2018-05-09) 681℃ 0评论 0喜欢

中文分词算法简介

中文分词算法简介
什么是中文分词 与大部分印欧语系的语言不同,中文在词与词之间没有任何空格之类的显示标志指示词的边界。因此,中文分词是很多自然语言处理系统中的基础模块和首要环节。 下面以jieba的示例给读者一个对分词的感性认识。 【全模式】: 我/ 来到/ 北京/&...

water 1年前 (2018-05-09) 650℃ 0评论 0喜欢

HMM、MEMM和CRF的学习总结(分词算法)

HMM、MEMM和CRF的学习总结(分词算法)
最近一直在学习NLP里最基础的几个语言模型:隐马尔科夫模型(Hidden Markov Model,HMM)、最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM)和条件随机场(Conditional Random Field,CRF)。这三种模...

water 1年前 (2018-01-02) 3187℃ 0评论 0喜欢

高效的数据结构和经典算法

高效的数据结构和经典算法
  本文介绍了常用的高效数据结构,包括bloom filter、跳跃表、trie树、线段树、B树、KD树、树状数组、并查集、红黑树和约瑟夫环问题。全部是简要的描述,建立在大家都对这些数据结构有一定的了解基础上,快速的复习。如果想要继续深入研究请看参考文献后面的...

water 1年前 (2017-12-26) 580℃ 0评论 0喜欢

K-means聚类算法

K-means聚类算法
  K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。    ...

water 2年前 (2017-08-17) 664℃ 0评论 0喜欢

数据结构与算法基础(上)

数据结构与算法基础(上)
数据结构与算法基础(上) 什么是数据结构,数据结构研究的主要内容,了解什么是算法,如何评价一个算法的性能 数据结构 人们在使用计算机解决客观世界中存在的具体问题时,通常过程如下:首先通过对客观世界的认知形成印象和概念从而得到了信息,在此基础上建立概念模型,它必须能够如实地反映客...

water 2年前 (2017-03-22) 628℃ 0评论 0喜欢