Hive常用調優(yōu)使用幫助文檔

背景
案例1：使用Tez優(yōu)化MapJoin
案例2：使用Tez優(yōu)化Group By
案例3：使用Tez優(yōu)化Join
案例4：使用Tez優(yōu)化Sort By
案例5：使用Tez優(yōu)化Distinct
案例6：使用Tez優(yōu)化Union All
案例7：使用Tez優(yōu)化Bucket Map Join
案例8：使用Tez優(yōu)化MapReduce任務
案例9：使用Tez優(yōu)化大表的Join
案例10：使用Tez優(yōu)化多表Join
總結

1. 背景

Hive是一種基于Hadoop的數據倉庫系統(tǒng)，它將SQL轉換為MapReduce任務來處理數據。然而，由于MapReduce的計算模型和性能限制，這種處理方式可能會導致性能問題。為了解決這個問題，Hive引入了Tez執(zhí)行引擎來替代MapReduce。Tez通過減少MapReduce任務之間的通信來提高性能，同時提供更好的資源管理和數據本地性。在這篇文檔中，我們將介紹10個使用Tez調優(yōu)的案例，并解釋如何通過設置一些關鍵的參數來提高Hive查詢的性能。

2. 案例1：使用Tez優(yōu)化MapJoin

MapJoin是一種將小表讀入內存并與大表進行Join的技術。在MapReduce中，MapJoin會導致大量的磁盤I/O，從而降低性能。通過將MapJoin轉換為Tez任務，可以避免這個問題。以下是使用Tez優(yōu)化MapJoin的示例：

調優(yōu)前：

set hive.auto.convert.join=false; set hive.mapjoin.smalltable.filesize=25000000; SELECT /*+ MAPJOIN(b) */ a.key, a.value, b.value FROM a JOIN b ON (a.key = b.key);

調優(yōu)后：

set hive.execution.engine=tez; set hive.auto.convert.join=true; set hive.mapjoin.smalltable.filesize=25000000; SELECT /*+ MAPJOIN(b) */ a.key, a.value, b.value FROM a JOIN b ON (a.key = b.key);

在調優(yōu)前的示例中，我們關閉了自動轉換為MapJoin，并設置了MapJoin的小表文件大小。在調優(yōu)后的示例中，我們啟用了自動轉換為MapJoin，并設置了MapJoin的小表文件大小。我們還將執(zhí)行引擎設置為Tez。

3. 案例2：使用Tez優(yōu)化Group By

在MapReduce中，Group By是一個非常昂貴的操作，因為它需要對Map和Reduce之間的數據進行排序和合并。通過使用Tez，可以將Map和Reduce操作合并為一個任務，從而提高性能。以下是使用Tez優(yōu)化Group

By的示例：

調優(yōu)前：

set hive.groupby.skewindata=true; SELECT COUNT(*) FROM table GROUP BY col;

調優(yōu)后：

set hive.execution.engine=tez; set hive.groupby.skewindata=true; SELECT COUNT(*) FROM table GROUP BY col;

在調優(yōu)前的示例中，我們啟用了Group By的偏斜數據優(yōu)化。在調優(yōu)后的示例中，我們將執(zhí)行引擎設置為Tez，并啟用了Group By的偏斜數據優(yōu)化。

4. 案例3：使用Tez優(yōu)化Join

在Hive中，Join是一個非常昂貴的操作，因為它需要將兩個表中的所有數據進行比較。通過使用Tez，可以將Join操作轉換為更有效的操作，從而提高性能。以下是使用Tez優(yōu)化Join的示例：

調優(yōu)前：

SELECT * FROM a JOIN b ON (a.id = b.id);

</pre>

調優(yōu)后：

set hive.execution.engine=tez; SELECT * FROM a JOIN b ON (a.id = b.id);

在調優(yōu)前的示例中，我們只是執(zhí)行了一個簡單的Join操作。在調優(yōu)后的示例中，我們將執(zhí)行引擎設置為Tez，從而將Join操作轉換為更有效的操作。

5. 案例4：使用Tez優(yōu)化Sort By

在MapReduce中，Sort By是一個非常昂貴的操作，因為它需要對Map和Reduce之間的數據進行排序和合并。通過使用Tez，可以將Map和Reduce操作合并為一個任務，從而提高性能。以下是使用Tez優(yōu)化Sort By的示例：

調優(yōu)前：

SELECT * FROM table SORT BY col;

調優(yōu)后：

set hive.execution.engine=tez; SELECT * FROM table SORT BY col;

在調優(yōu)前的示例中，我們只是執(zhí)行了一個簡單的Sort By操作。在調優(yōu)后的示例中，我們將執(zhí)行引擎設置為Tez，從而將Sort By操作轉換為更有效的操作。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2023-03-08

2023-03-08

Hive常用調優(yōu)使用幫助文檔

目錄

1. 背景

2. 案例1：使用Tez優(yōu)化MapJoin

3. 案例2：使用Tez優(yōu)化Group By

4. 案例3：使用Tez優(yōu)化Join

5. 案例4：使用Tez優(yōu)化Sort By

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

2023-03-08

Hive常用調優(yōu)使用幫助文檔

目錄

1. 背景

2. 案例1：使用Tez優(yōu)化MapJoin

3. 案例2：使用Tez優(yōu)化Group By

4. 案例3：使用Tez優(yōu)化Join

5. 案例4：使用Tez優(yōu)化Sort By

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av