博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hive 导出数据到本地
阅读量:5226 次
发布时间:2019-06-14

本文共 911 字,大约阅读时间需要 3 分钟。

有时候需要将hive库中的部分数据导入至本地,这样子做可视化和小规模的数据挖掘实验都是比较方便的。数据导入至本地的HQL语法如下:
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1;
但是hive对字段分隔时默认使用的分隔符是^A,使用文本编辑器打开文件显示出来就是乱码,同时,后续提取字段值时需要指定这个特殊的分隔符,在python中使用line.split('\x01')来进行切分在java中split("\\u0001")来进行切分。

网上看到的方案都是上述这种使用默认分隔符进行切分的,不管是数据查看还是程序调试,都不太方便。但是,既然hive支持在建表的时候指定字段分隔符,hive在数据导出时应该也支持的。HQL建表时指定分隔符的语法为:

 

CREATE TABLE u_data (  		userid INT,  		movieid INT,  		rating INT,  		unixtime STRING)	ROW FORMAT DELIMITED	FIELDS TERMINATED BY '\t';
想必在数据导出时,应该可以ROW FORMAT DELIMITED FIELDS TERMINATED BY 的方式来指定我们自定义的分隔符。于是,实验了一把,结果如我所愿。

用户指定分隔符来进行数据导出,比如我们会使用\t进行字段分割,那么HQL语法如下:

INSERT OVERWRITE [LOCAL] DIRECTORY directory1 

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 

select_statement1;

 

最后,只有在hive0.12及以上版本才支持该语法哦,hive0.12以下版本的,请自行探索吧。

 

原文链接: https://blog.csdn.net/zbc1090549839/article/details/53782367
 

 

 

转载于:https://www.cnblogs.com/earendil/p/9157133.html

你可能感兴趣的文章
有道词典_每日一句_2019/07
查看>>
微信小程序 base64格式图片的显示及保存
查看>>
有道词典_每日一句_2019/08
查看>>
微信小程序 报错Failed to load image
查看>>
读书_2019年
查看>>
有道词典_每日一句_总贴
查看>>
读书汇总贴
查看>>
有道词典_每日一句_2019/09
查看>>
微信小程序 movable-view组件应用:可拖动悬浮框_返回首页
查看>>
微信公众号_Deejo说_2019
查看>>
ASC47B borderless
查看>>
MPT树详解
查看>>
最适合程序员转行的10大职业
查看>>
空间分析开源库GEOS
查看>>
RQNOJ八月赛
查看>>
数据表设计
查看>>
alluxio
查看>>
关于ajax回调数据类型为Json,如何获得他的值
查看>>
前端各种mate积累
查看>>
css深度选择器
查看>>