天道酬勤,学无止境

挖掘

Hive SQL使用和数据加载的一点总结

Hive 是facebook开源的一个基于hadoop框架的查询工具,也就是说,需要用hive的话,就要先安装hadoop。这次是小结一下最近用hive的心得,经验分享。hadoop和hive,pig,hbase的安装配置以后专门另开个连载说比较好。所以,我假设你已经有hive了。1.字段的数据类型。hive实际上为了数据挖掘的需要,对hive表的字段设置了数据类型,对于经常where的,还可以设置index。数据类型分以下几种STRING 不定长字符串TINYINT 3位长整型数SMALLINT 5位长整型INT 10位整型BIGINT 19位整型FLOAT 浮点数DOUBLE 双精度BOOLEAN 布尔型,也就是TRUE和FALSE不同的整型数有不同的位数限制,这个创建表的时候需要注意一下,别因为位数不够造成数据截取。位数过大,又会造成元数据的空间浪费。还有三种不常用到的STRUCTS 结构体ARRAY 数组MAP 这个不知道该怎么翻译合适2.创建数据表。hive的数据表分为两种,内部表和外部表。内部表指hive创建并通过load data inpath进数据库的表,这种表可以理解为数据和表结构都保存在一起的数据表。当你通过DROP TABLE table_name 删除元数据中表结构的同时,表中的数据也同样会从hdfs中被删除。外部表指在表结构创建以前

2021-03-27 14:59:05    分类:博客    sql   数据   挖掘   hadoop