Hive - 视图和索引

本章介绍如何创建和管理视图。视图根据用户需求生成。您可以将任何结果集数据保存为视图。Hive中视图的用法与SQL中视图的用法相同。这是一个标准的RDBMS概念。我们可以在视图上执行所有的DML操作。

创建一个视图

您可以在执行SELECT语句时创建一个视图。语法如下:

CREATE VIEW [IF NOT EXISTS] view_name [(column_name [COMMENT column_comment], ...) ]
[COMMENT table_comment]
AS SELECT ...

让我们举个例子来看看。假设雇员表如下所示,包含字段Id,Name,Salary,Designation和Dept。生成一个查询来获取薪水超过30000卢比的员工详细信息。我们将结果存储在名为 emp_30000 的视图中

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1201  | Gopal        | 45000       | Technical manager | TP     |
|1202  | Manisha      | 45000       | Proofreader       | PR     |
|1203  | Masthanvali  | 40000       | Technical writer  | TP     |
|1204  | Krian        | 40000       | Hr Admin          | HR     |
|1205  | Kranthi      | 30000       | Op Admin          | Admin  |
+------+--------------+-------------+-------------------+--------+

以下查询使用上述方案检索员工详细信息:

hive> CREATE VIEW emp_30000 AS
SELECT * FROM employee
WHERE salary>30000;

删除视图

使用以下语法删除视图:

DROP VIEW view_name

以下查询将删除名为emp_30000的视图:

hive> DROP VIEW emp_30000;

创建索引

索引只不过是表格中特定列的指针。创建索引意味着在表格的特定列上创建指针。其语法如下:

CREATE INDEX index_name
ON TABLE base_table_name (col_name, ...)
AS 'index.handler.class.name'
[WITH DEFERRED REBUILD]
[IDXPROPERTIES (property_name=property_value, ...)]
[IN TABLE index_table_name]
[PARTITIONED BY (col_name, ...)]
[
   [ ROW FORMAT ...] STORED AS ...
   | STORED BY ...
]
[LOCATION hdfs_path]
[TBLPROPERTIES (...)]

让我们以索引为例。使用我们先前使用过的字段Id,Name,Salary,Designation和Dept的相同员工表。在employee表的salary列上创建一个名为index_salary的索引。

以下查询创建一个索引:

hive> CREATE INDEX inedx_salary ON TABLE employee(salary)
AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler';

它是一个指向薪水栏的指针。如果列被修改,则使用索引值存储更改。

删除索引

以下语法用于删除索引:

DROP INDEX <index_name> ON <table_name>

以下查询将删除名为index_salary的索引:

hive> DROP INDEX index_salary ON employee;
推荐教程

R语言教程

R是用于统计分析,图形表示和报告的编程语言和软件环境

Hbase教程

HBase是一个数据模型,类似于Google的大表

Scala教程

Scala是一种现代多范式编程语言,旨在以简洁,优雅和类型安全的方式表达常见的编程模式。

Hive教程

Hive是一个数据仓库基础设施工具,用于处理Hadoop中的结构化数据