欢迎您光临本小站。希望您在这里可以找到自己想要的信息。。。

 分类:编程内功

HMM、MEMM和CRF的学习总结(分词算法)

HMM、MEMM和CRF的学习总结(分词算法)
最近一直在学习NLP里最基础的几个语言模型:隐马尔科夫模型(Hidden Markov Model,HMM)、最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM)和条件随机场(Conditional Random Field,CRF)。这三种模...

water 3周前 (01-02) 74℃ 0评论 0喜欢

让你的数据库流动起来 – 利用MySQL Binlog实现流式实时分析架构

让你的数据库流动起来 – 利用MySQL Binlog实现流式实时分析架构
数据分析特别是实时数据分析,已经越来越多的成为各行各业的分析要求与标准 – 例如,(新)零售行业可能希望通过­­线下POS数据与实时门店客流流量的进行实时结合与分析,实现商品销售,销量,总类等等的实时预测; 在线广告平台期望通过广告(Impression)总类,数据量以及基于时...

water 4周前 (12-28) 132℃ 0评论 0喜欢

高效的数据结构和经典算法

高效的数据结构和经典算法
  本文介绍了常用的高效数据结构,包括bloom filter、跳跃表、trie树、线段树、B树、KD树、树状数组、并查集、红黑树和约瑟夫环问题。全部是简要的描述,建立在大家都对这些数据结构有一定的了解基础上,快速的复习。如果想要继续深入研究请看参考文献后面的...

water 4周前 (12-26) 65℃ 0评论 0喜欢

流式大数据处理的三种框架:Storm,Spark和Flink

流式大数据处理的三种框架:Storm,Spark和Flink
storm、spark streaming、flink都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。 Apache Storm 在Storm中,先...

water 1个月前 (12-12) 92℃ 0评论 0喜欢

大规模分布式存储系统原理与架构(四)

大规模分布式存储系统原理与架构(四)
分布式系统: 木桶效应,架构设计之初要求我们能够估算系统的性能从而权衡不同的设计方法 分布式系统面临的第一个问题就是数据分布,即将数据均匀地分不到多个存储节点。另外,为了保证可靠性和可用性,需要将数据复制多个副本,这就带来了多个副本之间的数据一致性问题。大规模分布式存储系统的重要...

water 4个月前 (09-21) 239℃ 0评论 0喜欢

Apollo配置中心介绍

Apollo配置中心介绍
1.1 背景 随着程序功能的日益复杂,程序的配置日益增多:各种功能的开关、参数的配置、服务器的地址…… 对程序配置的期望值也越来越高:配置修改后实时生效,灰度发布,分环境、分集群管理配置,完善的权限、审核机制…… 在这样的大环境下,传统的通过配置文件、数据库等方式已经越来越无法满...

water 4个月前 (09-19) 238℃ 0评论 0喜欢

系统性能衡量指标介绍

系统性能衡量指标介绍
1. 响应时间(RT)   响应时间是指系统对请求作出响应的时间。直观上看,这个指标与人对软件性能的主观感受是非常一致的,因为它完整地记录了整个计算机系统处理请求的时间。由于一个系统通常会提供许多功能,而不同功能的处理逻辑也千差万别,因而不同功能的响应时间也不尽相同,甚...

water 5个月前 (09-07) 156℃ 0评论 0喜欢

三分技术七分数据,得数据者得天下

三分技术七分数据,得数据者得天下
在大数据时代,海量数据正成为互联网、软件、硬件公司们竞逐的金矿。三分技术七分数据,得数据者得天下,数据的所有权之争正变得日益激烈。数据概念的提出比较早,自 2013 年大数据兴起,数据更是被视为未来极为重要的资源,连李克强总理也把数据提升到基础资源的层面,称为“重要的生产力”。 ...

water 5个月前 (09-05) 156℃ 0评论 0喜欢

大规模分布式存储系统原理与架构(三)

大规模分布式存储系统原理与架构(三)
故障恢复   数据库运行过程中可能会发生故障,这个时候某些事务可能执行到一半但没有提交,当系统重启时,需要能够恢复到一致的状态,即要么提交这个事务,要么回滚。数据库系统以及其他的分布式存储系统统一采用操作日志,有时称为提交日志,即Commit Log技术来实现故障恢复。...

water 5个月前 (08-30) 191℃ 0评论 0喜欢

大规模分布式存储系统原理与架构(二)

大规模分布式存储系统原理与架构(二)
单机存储引擎 存储引擎是存储系统的发动机,直接决定存储系统能够提供的性能和功能。存储系统的基本功能包括:增、删、读、改,其中,读取操作分为随机读取和顺序扫描。哈希存储引擎是哈希表的持久化实现,支持增、删、改、以及随机读取操作,但不支持顺序扫描,对应的存储系统为键值存储系统;B树存...

water 5个月前 (08-30) 249℃ 0评论 0喜欢

大规模分布式存储系统原理与架构(一)

大规模分布式存储系统原理与架构(一)
概述 分布式存储概念 分布式存储系统是大量普通PC服务器通过Internet互联,对外作为一个整体提供存储服务 特点 可扩展、低成本、高性能、易用 分布式存储涉及的设计主要来自两个领域:分布式系统以及数据库 数据分布、一致性、容错、负载均衡、事务与并发控制、易用性、压缩/解压缩 ...

water 5个月前 (08-30) 366℃ 0评论 1喜欢

K-means聚类算法

K-means聚类算法
  K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。    ...

water 5个月前 (08-17) 153℃ 0评论 0喜欢

5.4es 源码 搭建

5.4es 源码 搭建
一 idea 运行 1) github下载 2) 5.0之后使用gradle管理项目依赖,5.4使用gradle 3.3+,先把gradle安装好 ,下载gradle-3.3-bin.zip 3) gradle的仓库需要翻墙,使用...

water 6个月前 (08-08) 411℃ 0评论 0喜欢

Apache Kylin 框架介绍

Apache Kylin 框架介绍
1. Apache Kylin 是什么? Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 由eBay开源的一...

water 6个月前 (08-04) 293℃ 0评论 0喜欢

献给写作者的 Markdown 新手指南

献给写作者的 Markdown 新手指南
「简书」作为一款「写作软件」在诞生之初就支持了 Markdown,Markdown 是一种「电子邮件」风格的「标记语言」,我们强烈推荐所有写作者学习和掌握该语言。为什么?可以参考: 『为什么作家应该用 Markdown 保存自己的文稿』。 『Markdown写作浅谈』 ...

water 6个月前 (07-27) 145℃ 0评论 0喜欢

Redis监控方案

Redis监控方案
  Redis现在在业务中应用已经很广泛了,但是如何监控redis,实时的观察redis的性能,却很少的提及,现在常见的监控方案基本上都是使用redis自带的info命令和monitor命令获取相关信息,然后提取出来显示。 测试环境:     &nb...

water 6个月前 (07-27) 165℃ 0评论 0喜欢

svn分支、主干、tag管理

svn分支、主干、tag管理
文件目录说明: trunk – 主干,正常业务全在此开发 branches – 分支目录,fixbug分支/实验分支/紧急法版分支 tags – tag目录,暂定只对上线版本打tag,如 online...

water 6个月前 (07-13) 282℃ 0评论 0喜欢

分布式基础通信协议:paxos,totem和gossip

分布式基础通信协议:paxos,totem和gossip
背景: 在分布式中,最难解决的一个问题就是多个节点间数据同步问题。为了解决这样的问题,涌现出了各种奇思妙想。只有在解决了如何进行信息同步的基础之上才衍生出形形色色的应用。这里开始介绍几种分布式通信协议。 简单即有效——totem协议: totem协议也许你还比较陌生,但是coro...

water 7个月前 (07-07) 191℃ 0评论 0喜欢

305889407