Quantcast
Channel: 搜索技术博客-淘宝 » Hadoop
Browsing latest articles
Browse All 13 View Live

Hadoop的那些事儿

在说Hadoop之前,作为一个铁杆粉丝先粉一下Google。Google的伟大之处不仅在于它建立了一个强悍的搜索引擎,它还创造了几项革命性的技术:GFS,MapReduce,BigTable,即所谓的Google三驾马车。Google虽然没有公布这几项技术的实现代码,但它发表了详细的设计论文,这给业界带来了新鲜气息,很快就出现了类似于Google三驾马车的开源实现,Hadoop就是其中的一个。...

View Article



如何在Hadoop集群运行JNI程序

hadoop是基于java的数据计算平台,引入第三方库,例如C语言实现的开发包将会大大增强数据分析的效率和能力。 阿里巴巴内部使用的分词软件(用c++实现的,以下简称WS包)是日常工作中最基本的软件包,通过java的jni机制,笔者将WS包成功的运行在hadoop上,深受很多部门的欢迎。下面借这个例子介绍hadoop上jni程序的开发过程。 首先,简单介绍一下WS包中的调用接口和基本结构。...

View Article

Image may be NSFW.
Clik here to view.

Hadoop Job Tuning

Hadoop平台已经成为了大多数公司的分布式数据处理平台,随着数据规模的越来越大,对集群的压力也越来越大,集群的每个节点负担自然就会加重,而且集群内部的网络带宽有限,数据交换吞吐量也在面临考验,由此引发了人们对大规模数据处理进行优化的思考。 本文仅从实践经验出发,针对Hadoop Job优化提出了一些观点,不包含HDFS的优化。 Job Tracker Related...

View Article

Image may be NSFW.
Clik here to view.

Mllib机器学习工具包在Hadoop上的使用

         Hadoop是基于Java的数据计算平台,在我们公司得到了广泛应用。同样mllib也是我们算法组同学经常使用的一个机器学习工具包。但目前mllib工具包只提供了供C++程序调用的so链接库,没有可供java程序调用的jar包。由于这个需求有一定的普遍性,作者将mllib做了进一步封装,并通过jni的方式把其封装成了可供java程序调用的接口。 1      结构示意图 2...

View Article

Image may be NSFW.
Clik here to view.

Zookeeper研究和应用

zookeeper简介 zookeeper是一个开源分布式的服务,它提供了分布式协作,分布式同步,配置管理等功能. 其实现的功能与google的chubby基本一致.zookeeper的官方网站已经写了一篇非常经典的概述性文章,请大家参阅:ZooKeeper: A Distributed Coordination Service for Distributed Applications...

View Article


基于Hadoop的分布式索引构建

这个是对abuild/kbuild项目的一些总结,也是用Beamer写的第二个slide,遇到的问题不少,折腾了几天,勉强还算满意吧。 分布式索引构建 View more presentations from fuzhjie.

View Article

Image may be NSFW.
Clik here to view.

搜索应用平台nimitz介绍

尼米兹(Nimitz)英文原意是航空母舰的意思。在dump中心,是由道凡发起的一个项目,目标是希望nimitz能成为各个搜索小应用提供一个综合平台,可以快速部署各种中小型的搜索引擎服务,可以快速对接淘宝的各个业务库,快速开发海量数据数据的离线处理程序,BUILD索引,方便运维,高可用性。...

View Article

Image may be NSFW.
Clik here to view.

HBase Bulkload bug修复及patch提交

第一部分:问题排查。 在店铺搜索相关需求的开发自测过程中,碰到了一个问题:bulkload数据的过程时间过长,运行了很久都没有结束,于是查看日志,发现bulkload的程序在不停的重试,信息如下(当天信息未保存,这是刚重现时截的)。 这些信息看起来没啥问题,bulkload在往表test_shopinfo里load各个hfile,失败了,但是错误是可恢复的,将会重试,接着又看到如下的信息:...

View Article


Image may be NSFW.
Clik here to view.

国际搜索离线系统优化之一 —— 全局排序优化

总觉得阶段性的总结是个好习惯,很多自己做的事情,如果不及时总结一下,过一段时间就忘记了,当要用到时,又需要花费较多的时间去重新熟悉。于是决定抽点时间总结一下以前对国际搜索离线系统做的一些优化(这里说的国际搜索,主要指AE、SC和SC店铺,AE即AliExpress,SC即Sourcing,这些优化对这几个应用都是通用的),不仅起到一个备忘的作用,如果能给读者带来一些启发,想必也是极好的。...

View Article


从未降级的搜索技术 – HBase集群升级与优化

战争从来都是拼后勤拼平台支撑的,天猫双十一这一天对于我们搜索事业部来说,就是一场高强度的数字化战争。为了这一天,各兄弟业务线的战友们已经摩拳擦掌,纷纷亮出各种新式武器,而我们原有的离线系统平台却渐渐显出疲态,慢慢被来自各业务线的不断提升的压力需求搞得捉襟见肘了。个性化搜索实时数据处理平台(Pora)在双十一将正式亮相,当时我们预计会有数以十亿计的新增HBase读写请求,如果不进行升级优化,原有的离线...

View Article
Browsing latest articles
Browse All 13 View Live




Latest Images