Spark RDD API

发布时间:2016-04-08  栏目:Spark  评论:0 Comments

RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通 数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处...

安装spark1.5.2单机环境

发布时间:2016-03-15  栏目:Spark  评论:0 Comments

本文介绍安装spark单机环境的方法,可用于测试及开发。主要分成以下4部分: (1)环境准备 (2)安装scala (3)安装spark (4)验证安装情况 1、环境准备 (1)配套软件版本要求:Java, Python 2.6, Scala 2.10. 注意对应的版本要求。 (2)安...

spark核心概念

发布时间:2015-12-20  栏目:Spark  评论:0 Comments

大数据操作有点类似于针对硬盘或者内存的数据库SQL操作,只是操作的数据是分布在硬盘,甚至是多台机器上面的,而且数据量很大。Spark上面的SQL以及DataFrame编程内置了自动优化,用户只需要关心具体的实现和功能就好了。   为什么Spark更快...

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

290125097@qq.com

2015 in Shanghai