Cube和Kylin创建Cube的过程_IU菜籽U的博客-CSDN博客知识图谱

Cube和Kylin创建Cube的过程_IU菜籽U的博客-CSDN博客

本站和网页 https://blog.csdn.net/xiaoshunzi111/article/details/71131764 的作者无关，不对其内容负责。快照谨为网络故障时之索引，不代表被搜索网站的即时页面。

Cube和Kylin创建Cube的过程_IU菜籽U的博客-CSDN博客
Cube和Kylin创建Cube的过程
IU菜籽U
于 2017-05-03 18:05:03 发布
2211
收藏
分类专栏：
kylin
kylin
专栏收录该内容
4 篇文章
0 订阅
订阅专栏
转载：http://www.aboutyun.com/thread-20757-1-1.html
简介
　　Kylin作为一个OLAP引擎，需要Cube模型支撑，在我们的工作过程中，在和用户以及相关的开发人员、测试、产品等介绍Kylin的过程中，他们总是会对Cube的模型有一些疑惑，作为经常接触这个概念的我来说这是再明了不过的了，而他们还是会在我讲解多次之后表示还在云里雾里，所以就希望通过一篇关于Cube和Kylin创建Cube的过程来聊一下Cube是什么，以及Kylin的一些高级设置。
Cube
　　一个Cube(多维立方体)其实就是一个多维数组，例如定义一个三维数组int array[M][N][K]，每一个维度分别有M、N和K个成员，同样对于一个Cube而言，也可以有三个维度，假设分别为time、location和product，每一个维度的distinct值（称为维度的cardinality）分别是M、N和K个，而数组中的每一个值则是每一个维度取一个值对应的聚合结果，例如array[0][1][2]，它就相当于time取第一个值(假设为2016-01-01)，location取第二个值(假设为HangZhou)、product取第三个值(假设为Food)对应的一个聚合结果，假设这里的聚合函数为COUNT(1)，那么求得的值相当于执行了SELECT COUNT(1) from table where time = ‘2016-01-01’ and location = ‘HangZhou’ and product = ‘Food’，这样当我们有多个聚合函数呢，那么就相当于数组中的每一个元素是一个包含多个值的结构体：
struct{
int count; //保存COUNT(1)的值
double sales; //保存SUM(sales)的值
double cost; //保存SUM(cost)的值
　如上图，每一个data cell就保存了一个类似的结构体，因此只要能够计算和保存这样的一个多维数组，我们所有的查询就都可以直接定位到多维数组中的一个或者一批值，然后进行过滤得到结果。　　但是一个多维数组和Cube模型还是有一些区别，例如在多维数组中我们必须在每一维指定一个值（下标）才能对应得到一个确定的值，但是在Cube中，虽然定义了三个维度，但是我可以只指定两个维度，甚至一个维度都不指定而进行查询，例如执行SELECT COUNT(1) from table where time = ‘2016-01-01’ and location = ‘HangZhou’，这就相当于求数组中array[0][1]的值，但这个返回的是一个数组，而SQL返回的是一个值，因此需要将这个数组中的每一个data cell取出来再进行聚合运算（例如计数、相加等）得到的值才是真正的结果。　　好了，到这里可以看出有两种方案计算上面的SQL：1、取出array[0][1]这个数组再进行聚合，2、直接计算出来这个二维数组，那么在这个二维数组上指定time和location就能够对应一个data cell值了。由于可以通过方案１进行再聚合计算，所以理论上如果保存了所有维度的组合（假设N个维度，那么就是一个N为的数组），那么所有的N-1、N-2、…、0维的任何值都是可以通过这个N维数组进行再聚合计算出来的，但是这势必就影响查询的性能。所以这其实就是时间和空间的一个博弈，那么在实践中到底应该如何进行权衡呢，答案是：看需求！也就是建立哪些数组（N个维度，第K层有C(N,K)个K维数组）就要看你真正要执行的查询有哪些了，对经常在一块进行组合查询的维度简历一个数组是再适合不过的了，例如time和location这两个维度老是在一个SQL中出现，那么建立一个这样的二维数组是需要的，而product和location这两个不会在一个SQL中出现，那么这个二维数组就不需要预计算了。那么在Kylin里面是如何决定预计算哪些数组呢？
创建Cube
　　这里的一切就要从Kylin创建Cube开始说起，在Kylin中创建一个Cube需要以下几步： 1、设置Cube名、描述信息等 2、设置Cube依赖的表模型（星状模型，一个事实表和可选的多个维度表） 3、设置维度（维度有几种类型这里不再讨论，创建完之后就可以暂时性的忽略这几种不同的类型，都把它当做普通的维度就可以了） 4、设置度量（每一个度量包括列和聚合函数，列只能是事实表上的列） 5、设置filter条件（用于对表中的数据进行过滤） 6、设置增量更新的信息（设置增量列和起始时间，该列必须是时间格式列） 7、高级设置（设置维度组、RowKey等）
高级设置
　　前面6步的设置比较浅显易懂，那么对于Cube的优化主要通过“高级设置”这一步实现的，这里设置的主要有以下几种： 1、设置Rowkey 2、设置维度组 3、设置Cube Size 　　在进入到设置RowKey的时候会看到每一个维度的设置（Derived维度看到的是外键列而不是Derived的列），每一个维度可以设置ID（通过拖拽可以改变每一个维度的ID）、Mandatory、Dictionary和Length。
Mandatory维度
　　首先看一下Mandatory维度，需要设置为Mandatory的维度是哪些在大多数SQL中都会出现的维度，例如time这个维度，如果每次查询都需要带上它进行过滤或者group by，那么就可以把它设置为mandatory。
维度顺序
　　其次，ID决定了这个维度在数组中执行查找时该维度对应的第一个维度，例如在上例中time的ID就是1，location对应的ID就是2，product对应的ID为3，这个顺序是非常重要的，一般情况我们会将mandatory维度放置在rowkey的最前面，而其它的维度需要将经常出现在过滤条件中的维度放置在靠前的位置，假设在上例的三维数组中，我们经常使用time进行过滤，但是我把time的ID设置为3(location的ID=1，product的ID=2)，这时候如果从数组中查找time大于’2016-01-01’并且小于’2016-01-31’，这样的查询就需要从这样的最小的key=<min(location)、min(product)、‘2016-01-01’>扫描到最大的key=<max(location)、max(product)、‘2016-01-31’>，但是如果把time的ID设置为1，扫描的区间就会变成key=<‘2016-01-01’、min(location)、min(product)>到key=<‘2016-01-31’、max(location)、max(product)>，Kylin在实现时需要将Cube的数组存储在Hbase中，然后按照hbase中的rowkey进行扫描，假设min(location)=’BeiJing’、max(location)=’ZhengZhou’, min(product)=’aaaa’,max(product)=’zzzz’，这样在第一种情况下hbase中需要扫描的rowkey范围是[BeiJing-aaaa-2016-01-01, ZhengZhou-zzzz-2016-01-31]，而第二种情况需要扫描的rowkey范围是[2016-01-01-BeiJing-aaaa, 2016-01-31-ZhengZhou-zzzz].可以看出第二种情况可以减少扫面的rowkey，查询的性能也就更好了。但是在kylin中并不会存储原始的成员值（例如HangZhou、2016-01-01这样的值），而是需要对它们进行编码，是否需要编码则有后面两个设置项决定。
维度字典
　　Dictionary可以设置为true和false，设置为true表示需要为这个维度建立字典树，如果设置为false则表示不需要设置，而需要设置Length，而Length则意味着在实际存储到hbase的rowkey时使用该维度的前Length个字符作为它的值（剪切每一个成员值只保留前Length个字符），一般情况下是不建议设置Length的，而是设置Dcitionary为true，只有当cardinality比较大时并且只需要取前N个字节就可以表示这个维度时才建议设置Length=N，因为每一个维度的dictionary都会保存在内存中，如果字典树占用很大的内存会影响kylin的使用甚至导致OOM，对于dictionary的编码使用的是字典树，它的原理实际上是为每一个维度成员赋予一个整数的id，实际存储的时候存储的是这个id的二进制值（使用int最多占用4个字节），并且保证每一个id的顺序和维度成员的顺序相同的，例如aaa的id=1，aab的id=2，aac的id=3，这样在查询的时候就可以直接根据column>aaa转换成id>1，方便hbase coprocessor的处理。
维度组
　　设置完了RowKey接下来要设置维度组，维度组的设置主要是为了让不出现在一个查询中的两个维度不计算cuboid（通过划分到两个不同的维度组中），这其实相当于把一个cube的树结构划分成多个不同的树，可以在不降低查询性能的情况下减少cuboid的计算量，目前在Kylin-1.x版本中cuboid的算法有一点的问题，可以参考我对这个算法的改进那篇博文。
Cube Size
　　最后设置CubeSize，该项的设置会对cuboid转换成hfile这一步的计算产生影响，并且影响hbase中表的分区大小，可选值为SMALL、MEDIUM和LARGE，在kylin-1.1版本之后可以在配置文件可以设置这三个配置的分区大小，默认情况下SMALL=10GB，MEDIUM=20GB，LARGE=100GB，在计算完全部的cuboid之后会统计所有cuboid文件中key和value的大小，然后根据这个大小和用户的CubeSize配置决定划分多少region，然后执行一个MR任务计算每一个region的hfile，由于kylin在创建hfile的时候都是通过预分区的方式（通过计算出每一个分区临界值的key），然后批量load到htable的，所以不会导致region的分裂和合并，所以我们还是建议将CubeSize设置为SMALL，并且配置中将small的配置设置为5GB，这样可以提高生成hfile这一步的速度（每一个region负责一个region，减小分区的大小会增加reducer的个数）。
总结
　　好了，本文主要介绍了kylin中创建cube的过程，其中还主要介绍了cube模型的概念，最后详细介绍了kylin在创建cube中的高级设置的优化方案，如果有什么错误的地方，还希望多多指正。
IU菜籽U
关注
关注
点赞
收藏
评论
Cube和Kylin创建Cube的过程
转载：http://www.aboutyun.com/thread-20757-1-1.html简介　　Kylin作为一个OLAP引擎，需要Cube模型支撑，在我们的工作过程中，在和用户以及相关的开发人员、测试、产品等介绍Kylin的过程中，他们总是会对Cube的模型有一些疑惑，作为经常接触这个概念的我来说这是再明了不过的了，而他们还是会在我讲解多次之后表示还在云里雾里
复制链接
扫一扫
专栏目录
kylin 创建MODEL和CUBE示例
csdn问鼎
02-26
2540
首先要创建一个项目，然后开始创建MODEL
选择事实表和维度表，选择事实表和维度表的join方式
选择模型的维度，只有这里选择了维度，在后面的CUBE中才能选，这里我们选了F_ORDER_MESSAGE中的id和city与F_CITY中的ID和CITY作为维度
如果表中有分区表的话，选择分区表设置读取的分区格式
开始创建CUBE，选择模型，设置CUBE名称
选择计算维度，只能...
技术选型：Kylin、Druid、ClickHouse如何选择？
最新发布
weixin_45727359的博客
12-06
17
Kylin、Druid、ClickHouse是目前主流的OLAP引擎，本文尝试从数据模型和索引结构两个角度，分析这几个引擎的核心技术，并做简单对比。在阅读本文之前希望能对Kylin、Druid、ClickHouse有所理解。Kylin1. Kylin数据模型Kylin的数据模型本质上是将二维表（Hive表）转换为Cube，然后将Cube存储到HBase表中，也就是两次转换。第一次转换，其实就是传统...
参与评论
您还未登录，请先
登录
后发表或查看评论
OLAP引擎——Kylin介绍
热门推荐
Hello World
08-30
4万+
最近一直在学习和使用kylin，分享一下学习的收获以及对kylin的理解~
建立CUBEMX工程的步骤
qq_44907649的博客
03-01
247
虽然建立CUBEMX工程的步骤极其简单，但是我今天依旧又犯了一个非常低级的错误，导致以为代码问题，浪费1个小时找错。所以现在再梳理一遍，记录一下，如果下次在犯错误可以再来看看。
选型
高速外部时钟源
串行SWD下载
时钟选择
编辑生成工程的名字和路径，选择IDE
MDK选择include路径
选择工程文件的添加
最后很重要的也是经常遗忘的一步—选择ST-LINK
...
Kylin实践（四）—— Kylin的使用以及Model和Cube构建详细流程
qq_41018861的博客
06-01
772
Kylin如何使用？
首先，在测试环境启动Hadoop、Hive、HBase、Zookeeper
然后，在测试环境/home/hadoop/kylin/kylin-2.5.1-bin-hbase中启动Kylin，执行如下命令：
[hadoop@kb-testhadoop01 kylin-2.5.1-bin-hbase]$ bin/kylin.sh start
注意：启动前执行jps查看Hadoop、Hive、HBase、Zookeeper是否启动，如出现以下信息则kylin启动成功。
kylin的cube的原理
woshimeilinda的博客
03-07
952
Kylin基本原理及概念
2019-01-24阅读 1K0
“带你走进Apache Kylin的世界”
Kylin版本：2.5.1
前言
膜拜大神，Kylin作为第一个由国人主导并贡献到Apache基金会的开源项目，堪称大数据分析界的“神兽”。所以我也是抓紧时间来学习Kylin，感受Kylin所带来的魅力。
一、Kylin简介
Kylin的出现就是为了解决大数据系统中TB级别数据的数据分析需求，它...
centos与kylinV10 FTP搭建与用户创建
Pro_jhf的博客
03-02
383
centos，麒麟系统kylin，配置ftp用户并在过程中遇到的问题以及解决方式
apache kylin新增用户
litlit023的专栏
11-12
425
1. 为kylin新添加用户，设置密码
1.1 加密新增用户的密码
在java代码中添加依赖
<dependency>
<groupId>org.springframework.security</groupId>
<artifactId>spring-security-core</artifactId>
<version>4.0.0.RELEASE</version>
</depend
Kylin使用之创建Cube和高级设置
kf_panda
09-13
1508
简介
　　Kylin作为一个OLAP引擎，需要Cube模型支撑，在我们的工作过程中，在和用户以及相关的开发人员、测试、产品等介绍Kylin的过程中，他们总是会对Cube的模型有一些疑惑，作为经常接触这个概念的我来说这是再明了不过的了，而他们还是会在我讲解多次之后表示还在云里雾里，所以就希望通过一篇关于Cube和Kylin创建Cube的过程来聊一下Cube是什么，以及Kylin的一些高级设置。
KYLIN构建多用户管理
bigdata_player
04-09
687
构建原理
kylin-web采用Spring security framework做用户认证的，需要手写spring代码根据自定义密码去加密，生成加密后的密码，保存到apache-kylin-2.5.2-bin-hbase1x/tomcat/webapps/kylin/WEB-INF/classes/kylinSecurity.xml 中，分为3个角色组，包括超级管理员...
kylin入门到实战：cube详述
coding笔记
04-14
4692
版权申明：转载请注明出处。文章来源：http://bigdataer.net/?p=306 排版乱？请移步原文获得更好的阅读体验 1.什么是cube？ cube是所有dimession的组合，每一种dimession的组合称之为cuboid。某一有n个dimession的cube会有2n个cuboid，如图：对应一张hive表，有time,item,l
【Kylin】Kylin中的cube构建
Hello World
12-20
2万+
kylin如何构建cube的，从原始数据（hive）到目标数据（hbase）的过程。
kylin学习(二)：kylin客户端的使用 -- model与cube的创建，kylin性能查看
weixin_39724194的博客
02-23
465
关于hive数据库的导入以及kylin的安装，这里就不做过多介绍了。
1.Project工程创建
1）点击图上所示“+”号
2）填入项目名及描述点击Submit
2. 数据源选择
1）选择加载数据源方式
2）输入要作为数据源的表
3）查看数据源
3.创建model
1）回到Models页面
2）点击New按钮后点击New Model
3）填写Model名称及描述后Next
4）选择事实表
5）添加维度表
6）选择添加的维度表及join字段
7）选择维度信息
8）选择度量信息
9）
kylin创建cube
奋斗的小鸟专栏
09-25
1899
创建立方体(Cube)
参考文档：
播客：http://tech.meiyou.com/?p=97
官网创建cube: http://kylin.apache.org/cn/docs15/tutorial/create_cube.html
Cube执行原理：
1、创建Cube:
2、编译Cube(Build Cube):
定义好Cube之后，Apa...
Cube的构建过程
weixin_34077371的博客
06-23
538
为什么80%的码农都做不了架构师？>>>
...
Kylin定时增量build
余建新 @ 工作 8 年，大数据方向出身，专注架构方向。
10-13
8332
#!/bin/bash
###################################################################################################################
## 脚本功能：之前脚本任务完成后，使用Kylin命令，增量更新Kylin cube
## 修改历史：
#####
KYLIN 例行调度自动BULID
_木子_简单_
08-24
3947
KYLIN提供RESTFUL 接口，通过请求&crontab 可实现例行调度
参考url:
http://kylin.apache.org/docs15/howto/howto_use_restapi.html#get-job-status
实现步骤：
1、shell脚本加入下面代码实现BULID请求
java -jar KylinInterface.jar CUBE
实现kylin定时跑当天的任务
weixin_34090643的博客
11-08
526
说明：
每天自动构建cube，动态在superset里面查看每天曲线变化图
#! /bin/bash
##cubeName cube的名称##endTime 执行build cube的结束时间 (命令传给Kylin的kylinEndTime = realEndTime + (8小时，转化为毫秒)。只需要给Kylin传入build cube的结束时间即可。)##buildType BU...
Kylin配置队列
周源的专栏
04-10
1338
1）默认配置文件，通过配置文件($KYLIN_HOME/conf/kylin_job_conf.xml)设置队列： <property> <name>mapreduce.job.queuename</name> <value>kylin</value> <description>Jo...
Kylin Cube 的权限管理
阿里Darker
05-26
2689
In Cubes page, double click the cube row to see the detail information. Here we focus on the
Access tab.
Click the +Grant button to grant permission.
There are four different kinds of permissions
“相关推荐”对你有帮助么？
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022 CSDN
皮肤主题：大白
设计师：CSDN官方博客
返回首页
IU菜籽U
CSDN认证博客专家
CSDN认证企业博客
码龄8年
暂无认证
282
原创
1万+
周排名
30万+
总排名
239万+
访问
等级
2万+
积分
1384
粉丝
327
获赞
165
评论
776
收藏
私信
关注
热门文章
Linux文件误删除恢复操作
99908
Several ports (8080, 8009) required by Tomcat v7.0 Server at localhost are already in use. The serve
59854
HIVE 数据类型转换
59136
Hive最新数据操作详解（超级详细）
53393
解决Can’t connect to local MySQL server through socket ‘/tmp/mysql.sock’错误
51617
分类专栏
C++
37篇
HBase
28篇
Hive
71篇
MR
79篇
Java
16篇
Linux
37篇
hadoop
8篇
Zookeeper
6篇
Sqoop
8篇
Storm
14篇
kafka
8篇
maven
5篇
JavaWeb
6篇
tomcat
2篇
Navicat
网络爬虫
2篇
Python
9篇
简历
2篇
hadoop
1篇
mysql
7篇
数据挖掘
1篇
hadoop-eclispe
1篇
如何写好简历
简历
骑行
1篇
骑行
1篇
hive
3篇
hadoop
1篇
eclipse
2篇
tomcat
1篇
java
1篇
Java
java
java
java
1篇
MyEclipse
2篇
eclipse
15篇
eclipse
1篇
http
1篇
console不显示
1篇
会跳出URLClassLoader.class
1篇
文件下载
apache
1篇
hadoop
23篇
mysql
18篇
orcle
1篇
hadoop
hadoop
1篇
hadoop
1篇
hadoop
1篇
hadoop
1篇
hadoop
1篇
分页实现
hadoop
hadoop
hadoop
1篇
Oracle
hive
1篇
No route to host
1篇
MR
1篇
MR
hadoop
1篇
不包括文件本身) 输出路径
1篇
hadoop
1篇
SecureCRT中文乱码解决方法
1篇
Could not create the view: An unexpected exception was thrown.
1篇
Maven组织的web项目读取WEB-INF下properties文件
1篇
SQL
2篇
MR
1篇
Document is invalid: no grammar found. at (null:3:8)
file:/D:/Tomcat%206.0/webapps/Struts2UserLogin/WEB-INF/classes/struts.xml:3:8
1篇
ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times
1篇
HBase
Java
1篇
Not a host:port pair: PBUF（用Java客户端（Eclipse平台）连接Hbase）&&apache官网Jar下载流程
1篇
HBase
从Windows下Java程序如何操作Linux下Hbase数据库表过程、难点的心得历程
1篇
爬虫
1篇
Sqoop
1篇
MR
1篇
Sqoop
1篇
Hive
1篇
http://www.weixuehao.com/archives/111
1篇
HBase
1篇
如上图
1篇
Hbase
1篇
Oracle
1篇
PL/SQL
1篇
oracle
4篇
数据模型
1篇
Hive
1篇
数据仓库
3篇
数据仓库
1篇
数据平台这25年是怎样进化的？
1篇
hadoop
1篇
http://lxw1234.com/archives/category/datawarehouse
数据仓库
1篇
Spark
9篇
URL
1篇
Linux
ETL
数据清洗
1篇
HBase
数据同步
1篇
学习网站
大数据
4篇
面试宝典
1篇
hive教程
mysql
1篇
Hive
1篇
Hive
数据库
1篇
Hive
1篇
MapReduce
系统时间与Internet时间同步
Linux
1篇
Linux
26篇
crontab
1篇
定时同步数据
1篇
hadoop
hadoop
1篇
Permission denied: user=administrator
access=WRITE
1篇
inode="/":root:supergroup:drwxr-xr-x
1篇
MR多表关联代码
1篇
查看日志
1篇
Spark
7篇
Scala
4篇
split
Linux下文件split命令
1篇
用户画像
2篇
hadoop
1篇
增量导数据
1篇
CDH
7篇
知识框架
1篇
MR
InputSplit分析
1篇
数据挖掘
1篇
逻辑算法
1篇
flume
7篇
hdfs
2篇
CDH下载
1篇
CHD
1篇
CDH
1篇
用户指南
1篇
IP
地址查询
1篇
IDEA
1篇
输出压缩
1篇
sh
1篇
dataX
windows下安装redis
1篇
[Maven- 安装与Eclipse搭建
1篇
安装与Eclipse搭建
Windows
1篇
技术论坛
1篇
Redis
3篇
聚类算法
1篇
地理位置
1篇
授权命令
1篇
otter
4篇
canal
1篇
utf-8
2篇
mysql.sock’
1篇
manager
1篇
用户权限
1篇
授权
1篇
doc命令
1篇
Telnet
1篇
bin-log
1篇
bin-log
1篇
CDH5
1篇
JVM
内存溢出
1篇
GC
1篇
CPU
1篇
distinct
1篇
独立查询
1篇
程序员那点事
1篇
数据倾斜
1篇
mysql
without updating PID file
1篇
中文乱码
1篇
数据格式
1篇
流式读取
流式读取
1篇
utf8
1篇
gbk
1篇
修改端口
1篇
hi
spark shell
1篇
Spark
start-all.sh
1篇
启动集群
1篇
for循环
1篇
插入数据
1篇
spark
1篇
topic覆盖
1篇
hive.分桶
1篇
分片分块
2篇
block
1篇
replication
1篇
IDEA 2.
2016.2注册码
完全卸载
1篇
时间字段、普通字段模糊匹配
1篇
压缩格式
1篇
hvie
1篇
snanppy压缩格式
snanppy文件压缩格式
1篇
快速定位字符串
1篇
优化
1篇
创建表一般流程
1篇
hive.mapred
hive
1篇
SQL
1篇
四种排序的方式
1篇
自定义hive永久函数详细步骤
UDF
1篇
hive函数语句总结
1篇
数据转换
1篇
数据覆盖更新
1篇
sqoop.数据fu
sqoop.数据覆盖和更新
1篇
时间戳
时间戳操作
1篇
SQL inner ...
1篇
事务详解
1篇
sqoop 优化
1篇
reduce优化
1篇
PLSQL乱码
1篇
算法
1篇
数据增量写入
1篇
join
1篇
group by
hive /tmp数据冗余
负载均衡
memStore、HFile
guanlia
kylin
4篇
ky;
wenj
文件回复
1篇
Python，scrapy
1篇
性能调优
1篇
kafak
1篇
Scala 官网下载
jar
1篇
java jdk
1篇
jdk
1篇
spark streaming
1篇
spark2.0
2篇
sparkSQL
2篇
pycharm
2篇
pymysql
1篇
VS
1篇
最新评论
docker load的 repositories: no such file or directory问题
weixin_42883069:
关键是对tar文件的压缩和解压缩必须一致，否则导致解压缩后端tar文件和原始文件不一致。例如用gzip压缩的最后还是用gzip解压缩。用tar czf压缩的应该用tar xf解压缩。
Linux文件误删除恢复操作
飒楚梅花香:
666哈哈哈哈
Hadoop笔记Jar运行代码及其格式
叮酱:
有两个输入路径怎么办
hive group by distinct区别以及性能比较
NBY:
执行顺序不一样，性能就不一样
VS2013编译提示无法运行“rc.exe”错误
一无所知小白兔:
添加了以后显示源代码无法使用了
您愿意向朋友推荐“博客详情页”吗？
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
CMakeLists.txt
Visual Studio 2017 双击没反应的简单解决办法
VS2017 编译opencv、opencv-contrib
2021年20篇
2020年21篇
2019年11篇
2018年1篇
2017年71篇
2016年248篇
2015年180篇
目录
目录
分类专栏
C++
37篇
HBase
28篇
Hive
71篇
MR
79篇
Java
16篇
Linux
37篇
hadoop
8篇
Zookeeper
6篇
Sqoop
8篇
Storm
14篇
kafka
8篇
maven
5篇
JavaWeb
6篇
tomcat
2篇
Navicat
网络爬虫
2篇
Python
9篇
简历
2篇
hadoop
1篇
mysql
7篇
数据挖掘
1篇
hadoop-eclispe
1篇
如何写好简历
简历
骑行
1篇
骑行
1篇
hive
3篇
hadoop
1篇
eclipse
2篇
tomcat
1篇
java
1篇
Java
java
java
java
1篇
MyEclipse
2篇
eclipse
15篇
eclipse
1篇
http
1篇
console不显示
1篇
会跳出URLClassLoader.class
1篇
文件下载
apache
1篇
hadoop
23篇
mysql
18篇
orcle
1篇
hadoop
hadoop
1篇
hadoop
1篇
hadoop
1篇
hadoop
1篇
hadoop
1篇
分页实现
hadoop
hadoop
hadoop
1篇
Oracle
hive
1篇
No route to host
1篇
MR
1篇
MR
hadoop
1篇
不包括文件本身) 输出路径
1篇
hadoop
1篇
SecureCRT中文乱码解决方法
1篇
Could not create the view: An unexpected exception was thrown.
1篇
Maven组织的web项目读取WEB-INF下properties文件
1篇
SQL
2篇
MR
1篇
Document is invalid: no grammar found. at (null:3:8)
file:/D:/Tomcat%206.0/webapps/Struts2UserLogin/WEB-INF/classes/struts.xml:3:8
1篇
ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times
1篇
HBase
Java
1篇
Not a host:port pair: PBUF（用Java客户端（Eclipse平台）连接Hbase）&&apache官网Jar下载流程
1篇
HBase
从Windows下Java程序如何操作Linux下Hbase数据库表过程、难点的心得历程
1篇
爬虫
1篇
Sqoop
1篇
MR
1篇
Sqoop
1篇
Hive
1篇
http://www.weixuehao.com/archives/111
1篇
HBase
1篇
如上图
1篇
Hbase
1篇
Oracle
1篇
PL/SQL
1篇
oracle
4篇
数据模型
1篇
Hive
1篇
数据仓库
3篇
数据仓库
1篇
数据平台这25年是怎样进化的？
1篇
hadoop
1篇
http://lxw1234.com/archives/category/datawarehouse
数据仓库
1篇
Spark
9篇
URL
1篇
Linux
ETL
数据清洗
1篇
HBase
数据同步
1篇
学习网站
大数据
4篇
面试宝典
1篇
hive教程
mysql
1篇
Hive
1篇
Hive
数据库
1篇
Hive
1篇
MapReduce
系统时间与Internet时间同步
Linux
1篇
Linux
26篇
crontab
1篇
定时同步数据
1篇
hadoop
hadoop
1篇
Permission denied: user=administrator
access=WRITE
1篇
inode="/":root:supergroup:drwxr-xr-x
1篇
MR多表关联代码
1篇
查看日志
1篇
Spark
7篇
Scala
4篇
split
Linux下文件split命令
1篇
用户画像
2篇
hadoop
1篇
增量导数据
1篇
CDH
7篇
知识框架
1篇
MR
InputSplit分析
1篇
数据挖掘
1篇
逻辑算法
1篇
flume
7篇
hdfs
2篇
CDH下载
1篇
CHD
1篇
CDH
1篇
用户指南
1篇
IP
地址查询
1篇
IDEA
1篇
输出压缩
1篇
sh
1篇
dataX
windows下安装redis
1篇
[Maven- 安装与Eclipse搭建
1篇
安装与Eclipse搭建
Windows
1篇
技术论坛
1篇
Redis
3篇
聚类算法
1篇
地理位置
1篇
授权命令
1篇
otter
4篇
canal
1篇
utf-8
2篇
mysql.sock’
1篇
manager
1篇
用户权限
1篇
授权
1篇
doc命令
1篇
Telnet
1篇
bin-log
1篇
bin-log
1篇
CDH5
1篇
JVM
内存溢出
1篇
GC
1篇
CPU
1篇
distinct
1篇
独立查询
1篇
程序员那点事
1篇
数据倾斜
1篇
mysql
without updating PID file
1篇
中文乱码
1篇
数据格式
1篇
流式读取
流式读取
1篇
utf8
1篇
gbk
1篇
修改端口
1篇
hi
spark shell
1篇
Spark
start-all.sh
1篇
启动集群
1篇
for循环
1篇
插入数据
1篇
spark
1篇
topic覆盖
1篇
hive.分桶
1篇
分片分块
2篇
block
1篇
replication
1篇
IDEA 2.
2016.2注册码
完全卸载
1篇
时间字段、普通字段模糊匹配
1篇
压缩格式
1篇
hvie
1篇
snanppy压缩格式
snanppy文件压缩格式
1篇
快速定位字符串
1篇
优化
1篇
创建表一般流程
1篇
hive.mapred
hive
1篇
SQL
1篇
四种排序的方式
1篇
自定义hive永久函数详细步骤
UDF
1篇
hive函数语句总结
1篇
数据转换
1篇
数据覆盖更新
1篇
sqoop.数据fu
sqoop.数据覆盖和更新
1篇
时间戳
时间戳操作
1篇
SQL inner ...
1篇
事务详解
1篇
sqoop 优化
1篇
reduce优化
1篇
PLSQL乱码
1篇
算法
1篇
数据增量写入
1篇
join
1篇
group by
hive /tmp数据冗余
负载均衡
memStore、HFile
guanlia
kylin
4篇
ky;
wenj
文件回复
1篇
Python，scrapy
1篇
性能调优
1篇
kafak
1篇
Scala 官网下载
jar
1篇
java jdk
1篇
jdk
1篇
spark streaming
1篇
spark2.0
2篇
sparkSQL
2篇
pycharm
2篇
pymysql
1篇
VS
1篇
目录
评论
被折叠的条评论
为什么被折叠?
到【灌水乐园】发言
查看更多评论
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
抵扣说明：
1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。 2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。
余额充值