fireling的文章

个人邮箱:lining0806@gmail.com
大数据与分布式

Hive对数据的导入导出介绍

Hive对数据的导入导出介绍
本文讲一下Hive对数据的导入导出操作,加深大家对Hive的认识和理解。 首先,创建t_hive.txt文件,作为原始数据,内容如下: 导入数据操作 从操作本地文件系统(LOCAL)导入数据 hive> create table t_hive (a int, b i...

7年前 (2017-12-08) 6602℃ 7喜欢

数据挖掘与机器学习

机器学习经典算法优缺点总结

机器学习经典算法优缺点总结
1.决策树:判别模型,多分类与回归,正则化的极大似然估计 特点: 适用于小数据集,在进行逐步应答过程中,典型的决策树分析会使用分层变量或决策节点。例如,可将一个给定用户分类成信用可靠或不可靠。 场景举例:基于规则的信用评估、赛马结果预测 优点: 计算量简单,可解释...

7年前 (2017-12-06) 6668℃ 9喜欢

数据挖掘与机器学习

强化学习的简单认识

强化学习的简单认识
机器学习有几大类:有监督学习、无监督学习、半监督学习及强化学习。之前对强化学习不怎么了解,简单看了点资料。总结一下: 强化学习是一个序列决策问题。它是不断通过当前的state(状态)采取相应的action(动作),从而获得相应的reward(奖赏)来对policy(策略)进行训练...

7年前 (2017-12-06) 4678℃ 3喜欢

大数据与分布式

Hive介绍及环境搭建

Hive介绍及环境搭建
Hive介绍 Hive是一个构建于Hadoop顶层的数据仓库。它依赖于HDFS和MapReduce,对HDFS数据提供类似于SQL的操作,可以将SQL语句转换为MapReduce任务进行运行。这样,Hive实现了以SQL查询方式来分析存储在HDFS中的数据,使得不熟悉MapRe...

7年前 (2017-11-29) 5960℃ 4喜欢

Linux

文件同步利器:rsync

文件同步利器:rsync
在Linux上操作时,可能会有误删的情况,或者是我们在折腾了一顿(增删查改)之后有点小后悔,想对一个小时或者一天前的文件进行“回滚”恢复,那该怎么去做呢?rsync便是不二之选。 大家都知道,对文件的移动、复制常用的操作命令有mv、cp及scp。其中,mv是移动文件命令,将一个...

7年前 (2017-11-21) 7050℃ 5喜欢

大数据与分布式

Spark的小变化

Spark的小变化
以前看过Hadoop及Spark的相关资料,最近又搭建了Hadoop及Spark集群,“反刍”了一下,发现目前的新版本与以前又有了一些变化。Hadoop目前发布了3版本,而Spark已经更新到了2.2版本。本文主要讲一下Spark的搭建及使用。 使用Spark会用到Hadoop...

7年前 (2017-11-21) 6084℃ 1喜欢