最新发布第2页

宁哥的小站专注数据挖掘、机器学习方向。

Hive对数据的导入导出介绍

本文讲一下Hive对数据的导入导出操作，加深大家对Hive的认识和理解。首先，创建t_hive.txt文件，作为原始数据，内容如下：导入数据操作从操作本地文件系统(LOCAL)导入数据 hive> create table t_hive (a int, b i...

fireling 7年前 (2017-12-08) 6940℃ 7喜欢

1.决策树：判别模型，多分类与回归，正则化的极大似然估计特点：适用于小数据集，在进行逐步应答过程中，典型的决策树分析会使用分层变量或决策节点。例如，可将一个给定用户分类成信用可靠或不可靠。场景举例：基于规则的信用评估、赛马结果预测优点：计算量简单，可解释...

fireling 7年前 (2017-12-06) 7219℃ 9喜欢

机器学习有几大类：有监督学习、无监督学习、半监督学习及强化学习。之前对强化学习不怎么了解，简单看了点资料。总结一下：强化学习是一个序列决策问题。它是不断通过当前的state（状态）采取相应的action（动作），从而获得相应的reward（奖赏）来对policy（策略）进行训练...

fireling 7年前 (2017-12-06) 5079℃ 3喜欢

Hive介绍 Hive是一个构建于Hadoop顶层的数据仓库。它依赖于HDFS和MapReduce，对HDFS数据提供类似于SQL的操作，可以将SQL语句转换为MapReduce任务进行运行。这样，Hive实现了以SQL查询方式来分析存储在HDFS中的数据，使得不熟悉MapRe...

fireling 8年前 (2017-11-29) 6409℃ 4喜欢

在Linux上操作时，可能会有误删的情况，或者是我们在折腾了一顿（增删查改）之后有点小后悔，想对一个小时或者一天前的文件进行“回滚”恢复，那该怎么去做呢？rsync便是不二之选。大家都知道，对文件的移动、复制常用的操作命令有mv、cp及scp。其中，mv是移动文件命令，将一个...

fireling 8年前 (2017-11-21) 7411℃ 5喜欢

以前看过Hadoop及Spark的相关资料，最近又搭建了Hadoop及Spark集群，“反刍”了一下，发现目前的新版本与以前又有了一些变化。Hadoop目前发布了3版本，而Spark已经更新到了2.2版本。本文主要讲一下Spark的搭建及使用。使用Spark会用到Hadoop...

fireling 8年前 (2017-11-21) 6454℃ 1喜欢