用Python进行数据分析的童鞋们,经常遇到的问题就是遇到一个数据文件,大概几百兆,而只需要其中若干行数据。那么我们怎么办?最笨的办法,就是一次性将所有的文件数据加载到内存中再做索引或切片处理,可能一次性加载就需要耗费一点时间。如果重复性地做这种事情,你都会觉得不好意思跟自己交...
fireling
9年前 (2016-05-28) 6924℃
4喜欢
搭建Spark运行环境:
可以自搭建Hadoop的standalone版,主要配置在于JDK和Hadooop的环境变量设置。
在此基础上搭建Spark的standalone版,下载“Hadoop Free”版本,主要配置在于Scala和Spark的环境变量设置。
如果使用到之...
fireling
9年前 (2016-05-24) 10917℃
9喜欢
Pandas
Spark
工作方式
单机single machine tool,没有并行机制parallelism
不支持Hadoop,处理大量数据有瓶颈
分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in...
fireling
9年前 (2016-05-24) 29688℃
99喜欢
此文为宁哥翻译文章,原文章请看这里。
关于DataFrame
上一篇博客我讲到了《基于Python的数据科学技术栈的综述》。这一篇让我们关注一个非常重要的概念:DataFrame。
DataFrame非常适合处理结构化数据和半结构化数据,它们基本上是一些行的集合,而每一列都有自...
fireling
9年前 (2016-05-24) 13272℃
9喜欢
Apache Spark是一种新型的快速通用的集群计算系统,可以和Hadoop交互。
Spark的主要抽象是分布式的条目集合(distributed collection of items),称为RDD(Resilient Distributed Dataset,弹性分布式数据...
fireling
9年前 (2016-05-20) 6478℃
1喜欢
文本挖掘系统 Research of Text Mining System
系统说明
集成了文本过滤、去重及邮件实时通知的功能
集成了文本关键词提取的功能
集成了文本分类即打标签的功能
集成了文本推荐即热点评价的功能
支持中英文
系统架构图
关于分词
英文分词,采用nl...
fireling
9年前 (2016-05-20) 6960℃
7喜欢