Mahout 教程
我们生活在一个信息丰富的时代。信息过载已达到如此高度,以至于有时管理我们的小邮箱变得困难!想象一下,一些流行网站(例如 Facebook、Twitter 和 Youtube)每天必须收集和管理的数据量和记录。即使是知名度较低的网站,批量接收大量信息的情况也并不少见。
通常我们会依靠数据挖掘算法来分析大量数据以识别趋势并得出结论。但是,除非计算任务在分布在云上的多台机器上运行,否则没有数据挖掘算法可以有效地处理非常大的数据集并在短时间内提供结果。
我们现在有了新的框架,允许我们将计算任务分解成多个段,并在不同的机器上运行每个段。
Mahout 就是这样一个数据挖掘框架,它通常与 Hadoop 基础设施在其后台运行以管理大量数据。
什么是 Apache Mahout?
Mahout是将大象作为主人驱赶的人。这个名字来源于它与 Apache Hadoop 的密切联系,后者使用大象作为其标志。
Hadoop 是 Apache 的一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。
Apache
Mahout 是一个开源项目,主要用于创建可扩展的机器学习算法。它实现了流行的机器学习技术,例如:
Recommendation
Classification
Clustering
Apache Mahout 于 2008 年作为 Apache Lucene 的子项目开始。2010 年,Mahout 成为 Apache 的顶级项目。
Mahout 的特点
Apache Mahout 的原始特性如下所列。
Mahout 的算法是在 Hadoop 之上编写的,因此它在分布式环境中运行良好。 Mahout 使用 Apache Hadoop 库在云中有效扩展。
Mahout 为编码人员提供了一个随时可用的框架,用于对大量数据执行数据挖掘任务。
Mahout 可让应用程序快速有效地分析大量数据。
包括几个MapReduce 支持聚类实现,例如 k-means、模糊 k-means、Canopy、Dirichlet 和 Mean-Shift。
支持分布式朴素贝叶斯和互补朴素贝叶斯分类实现。
具有用于进化编程的分布式适应度函数功能。
包括矩阵和向量库。
Mahout 的应用
Adobe、Facebook、LinkedIn、Foursquare、Twitter 和 Yahoo 等公司在内部使用 Mahout。
Foursquare 可帮助您查找特定区域的地点、食物和娱乐场所。它使用 Mahout 的推荐引擎。
Twitter 使用 Mahout 进行用户兴趣建模。
雅虎!使用 Mahout 进行模式挖掘。