开源
开源名称 开源简介
SPARK Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好 地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。 尽 管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。
Hadoop Apache Hadoop 是一个能够对大量数据进行分布式处理的开源软件框架。由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入,Hadoop的开发者Doug Cutting最初开发Hadoop是为了满足开源web搜索引擎Nutch的集群处理需求,Cutting实现了MapReduce功能和分布式文件系 统(HDFS),并整合成为Hadoop。Hadoop的命名灵感来自Cutting儿子的玩具大象。通过MapReduce,Hadoop将大数据分解 成小块分配给各个通用服务器节点进行分布处理。Hadoop是目前最流行的大数据(包括非结构化、半结构化和结构化数据)存储和处理技术。Hadoop的 开源授权方式是Apache License2.0。
R R是开源编程语言和软件环境,被设计用来进行数据挖掘/分析和可视化。R是S语言的一种实现。而S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。但S-PLUS是一个商业软件,相比之下开源的R语言更受欢迎,被人们誉为“统计界的Red Hat”。 在KDNuggets2012年做的“过去与十二个月你在实际项目中使用的数据挖掘/分析工具”的 调查中,R以30.7%的得票率荣登榜首,超过微软Excel(29.8%)和Rapidminer(2010和2011年排名第一)。值得注意的是,今 年排名前五名的数据挖掘工具中有四个是开源软件。此外R还在击败SQL和Java,在最受欢迎的数据挖掘应用编程语言排行榜中排名第一。
Cascading 作为Hadoop的开源软件抽象层,Cascading允 许用户使用任何基于JVM的语言在Hadoop集群上创建并执行数据处理工作流。Cascading能隐藏MapReduce任务底层的复杂性。 Chris Wensel设计Cascading的目的是成为MapReduce的一个备用API。Cascading经常被用于广告定向统计、日志文件分析、生物信 息学分析、机器学习、预测分析、web内容文本挖掘以及ETL应用。Cascading的商业支持由Concurrent公司提供,该公司由 Cascading的设计者Wensel创建。使用Cascading的知名网站包括Twitter和Etsy。Cascading在GNU下开源。
Keywords: 文件加密 加密软件 数据安全