2、查看HDFS上的文件数据
hadoop fs -text /user/admin/daiqf/createspu_fp/input/cateinfo |head
2. HIVE 基本操作
2.1 create table 2.1.1 总述
? CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用
户可以用 IF NOT EXIST 选项来忽略这个异常。
? EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的
路径(LOCATION),Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。 ? LIKE 允许用户复制现有的表结构,但是不复制数据。
? 用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW
FORMAT 或者 ROW FORMAT DELIMITED,将会使用自带的 SerDe。在建表的时候,用户还需要为表指定列,用户在指定表的列的同时也会指定自定义的 SerDe,Hive 通过 SerDe 确定表的具体的列的数据。
? 如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。如果数据需要压缩,使用
STORED AS SEQUENCE 。
? 有分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多
个分区,每一个分区单独存在一个目录下。而且,表和分区都可以对某个列进行 CLUSTERED BY 操作,将若干个列放入一个桶(bucket)中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。
? 表名和列名不区分大小写,SerDe 和属性名区分大小写。表和列的注释是字符串。
2.1.2 语法
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [ [ROW FORMAT row_format] [STORED AS file_format] 11
| STORED BY 'storage.handler.class.name' [ WITH SERDEPROPERTIES (...) ] (Note: only available starting with 0.6.0) ] [LOCATION hdfs_path] [TBLPROPERTIES (property_name=property_value, ...)] (Note: only available starting with 0.6.0) [AS select_statement] (Note: this feature is only available starting with 0.5.0.) CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name LIKE existing_table_name [LOCATION hdfs_path] data_type : primitive_type | array_type | map_type | struct_type primitive_type : TINYINT | SMALLINT | INT | BIGINT | BOOLEAN | FLOAT | DOUBLE | STRING array_type : ARRAY < data_type > map_type : MAP < primitive_type, data_type > struct_type : STRUCT < col_name : data_type [COMMENT col_comment], ...> row_format : DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char] [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)] 12
file_format: : SEQUENCEFILE | TEXTFILE | RCFILE (Note: only available starting with 0.6.0) | INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname
目前在hive中常用的数据类型有:
BIGINT – 主要用于状态,类别,数量的字段, 如status/option/type/quantity
DOUBLE – 主要用于金额的字段, 如fee/price/bid
STRING – 除上述之外的字段基本都使用String, 尤其是id和日期时间这样的字段
2.1.3 基本例子
1、如果一个表已经存在,可以使用if not exists 2、 create table xiaojun(id int,cont string) row format delimited fields terminated by '\\005' stored as textfile;
terminated by:关于来源的文本数据的字段间隔符
如果要将自定义间隔符的文件读入一个表,需要通过创建表的语句来指明输入文件间隔符,然后load data到这个表。
4、Alibaba数据库常用间隔符的读取 我们的常用间隔符一般是Ascii码5,Ascii码7等。在hive中Ascii码5用’\\005’表示, Ascii码7用’\\007’表示,依此类推。 5、装载数据
查看一下:Hadoop fs -ls
LOAD DATA INPATH '/user/admin/xiaojun/a.txt' OVERWRITE INTO TABLE xiaojun; 6、如果使用external建表和普通建表区别 A、指定一个位置,而不使用默认的位置。如:
create EXTERNAL table xiaojun(id int,cont string) row format delimited fields terminated by '\\005' stored as textfile location '/user/admin/xiaojun/'; --------------check结果
ij> select LOCATION from tbls a,sds b where a.sd_id=b.sd_id and tbl_name='xiaojun'; -----
LOCATION -------------------------------------------------------------------------------------------------------------------------------- hdfs://hadoop1:7000/user/admin/xiaojun
13
ij> select LOCATION from tbls a,sds b where a.sd_id=b.sd_id and tbl_name='c'; ----
LOCATION -------------------------------------------------------------------------------------------------------------------------------- hdfs://hadoop1:7000/user/hive/warehouse/c B、对于使用create table external建表完成后,再drop掉表,表中的数据还在文件系统中。 如:
hive> create EXTERNAL table xiaojun(id int,cont string) row format delimited fields terminated by '\\005' stored as textfile; ---- OK
hive> LOAD DATA INPATH '/user/admin/xiaojun' OVERWRITE INTO TABLE xiaojun; -------------------------------------------------- Loading data to table xiaojun OK
hive> drop table xiaojun; ---- OK
[admin@hadoop1 bin]$ ./hadoop fs -ls
hdfs://hadoop1:7000/user/hive/warehouse/xiaojun Found 1 items
使用普通的建表DROP后则找不到
2.1.4 创建分区
HIVE的分区通过在创建表时启用partition by实现,用来partition的维度并不是实际数据的某一列,具体分区的标志是由插入内容时给定的。当要查询某一分区的内容时可以采用where语句,形似where tablename.partition_key > a来实现。 创建含分区的表。 命令原型: CREATE TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the page view table' PARTITIONED BY(dt STRING, country STRING) CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY '\\001' 14
COLLECTION ITEMS TERMINATED BY '\\002' MAP KEYS TERMINATED BY '\\003' STORED AS SEQUENCEFILE; Eg: 建表:
CREATE TABLE c02_clickstat_fatdt1 (yyyymmdd string, id INT, ip string, country string, cookie_id string, page_id string , clickstat_url_id int, query_string string, refer string )PARTITIONED BY(dt STRING)
row format delimited fields terminated by '\\005' stored as textfile;
装载数据: LOAD DATA INPATH '/user/admin/SqlldrDat/CnClickstat/20101101/19/clickstat_gp_fatdt0/0' OVERWRITE INTO TABLE c02_clickstat_fatdt1 PARTITION(dt='20101101');
访问某一个分区 SELECT count(*)
FROM c02_clickstat_fatdt1 a
WHERE a.dt >= '20101101' AND a.dt < '20101102';
select * from ods_dpi_mob_data_log a where a.dt >= '2014051814' AND a.dt < '2014051815'
2.1.5 加分区
alter table ods_dpi_mob_data_log add partition(dt='2014051814') 显示分区信息
show partitions ods_dpi_mob_data_log;
2.1.6 其它例子
1、指定LOCATION位置
CREATE EXTERNAL TABLE page_view(viewTime INT, userid BIGINT, 15