BigLake 中繼資料庫簡介
BigLake 中繼存放區是Google Cloud上資料分析產品的全代管中繼存放區。這項服務提供單一可靠資料來源,可用於管理來自多個來源的中繼資料。您可以透過 BigQuery 和各種開放式資料處理引擎存取元資料庫,因此這對資料分析師和工程師來說是一項實用的工具。
舉例來說,您可以使用 BigLake 中繼存放區做為目錄,搭配 Apache Spark 等開放原始碼查詢引擎。您可以使用 BigQuery 查詢使用 Spark 建立的資料表,而不需要同步處理中繼資料。
優點
BigLake 元資料儲存庫可提供多項資料管理和分析優勢:
- 無伺服器架構。BigLake 元資料庫提供無伺服器架構,因此無需管理伺服器或叢集。這有助於減少作業負擔、簡化部署作業,並可視需求自動調整資源。
- 引擎互通性。BigLake 中繼資料庫可讓您直接在 BigQuery 中存取資料表,無須額外設定即可查詢儲存在 BigQuery 中的開放格式資料表。舉例來說,您可以在 Spark 中建立資料表,然後直接在 BigQuery 中查詢該資料表。這有助於簡化資料分析工作流程,並減少複雜的資料移動或 ETL 程序需求。
統一使用者體驗BigLake metastore 提供跨 BigQuery 和 BigQuery Studio 的整合式工作流程。這樣一來,您就能直接在 BigQuery 和 BigQuery Studio 中使用 Spark。例如:
首先,您可以使用 BigQuery Studio 筆記本在 Spark 中建立資料表。
接著,您可以在Google Cloud 主控台中查詢相同的 Spark 資料表。
系統支援的整合項目
您可以搭配使用 BigLake 元資料庫、 Google Cloud 主控台、gcloud CLI、BigQuery REST API 或 Iceberg REST API。
BigLake 元資料庫支援下列整合:
- 表格格式:Apache Iceberg 1.5.2 以上版本。
- Dataproc。2.2 以上版本。
- 資料處理引擎Spark 3.3 以上版本。
- 外掛程式:BigLake 中繼存放區 Iceberg 目錄外掛程式。
與 BigLake metastore (傳統版) 的差異
Google Cloud建議使用 BigLake metastore。
BigLake 元資料庫和 BigLake 元資料庫 (傳統版) 之間的主要差異包括以下幾點:
BigLake metastore (傳統版) 是獨立的 metastore 服務,與 BigQuery 不同,且僅支援 Iceberg 資料表。它採用不同的三部分資源模型。BigLake 中繼資料庫 (傳統版) 資料表不會自動從 BigQuery 探索。
BigLake 中繼資料庫是以 BigQuery 目錄為基礎,並直接與 BigQuery 整合。BigLake metastore 中的資料表可透過多個開放原始碼引擎變更,且可透過 BigQuery 查詢相同的資料表。使用 BigQuery ������有一���可���資料來源可用於處理中繼資料。舉例來說,BigLake metastore 支援直接整合 Spark。這項整合功能可提供更流暢的工作流程,並有助於減少儲存中繼資料和執行工作時的冗餘資料。
限制
以下限制適用於 BigLake 元資料庫資料表:
- 您無法使用 BigQuery 引擎的 DDL 或 DML 陳述式建立或修改 BigLake 元資料庫資料表。您可以使用 BigQuery API (搭配 bq 指令列工具或用戶端程式庫) 修改 BigLake 元資料庫資料表,但這樣做可能會導致變更與外部引擎不相容。
- BigLake 中繼資料表不支援重新命名作業或
ALTER TABLE ... RENAME TO
Spark SQL 陳述式。 - BigLake 元資料庫資料表的配額和限制與標準資料表相同。
- 與查詢標準 BigQuery 資料表中的資料相比,透過 BigQuery 引擎查詢 BigLake 元資料庫表格的效能可能較慢。一般來說,BigLake 元資料庫資料表的查詢效能應與直接從 Cloud Storage 讀取資料的效能相同。
- 使用 BigLake 中繼資料表的查詢模擬執行可能會回報資料的下限為 0 位元組,即使傳回資料列也一樣。這是因為實際查詢完成前,無法判斷從資料表處理的資料量。執行查詢時,系統會產生處理這項資料的費用。
- 您無法在萬用字元資料表查詢中參照 BigLake 元資料儲存庫資料表。
- 您無法使用
tabledata.list
方法從 BigLake 中繼資料表擷取資料。您可以將查詢結果儲存到目的地資料表,然後對該資料表使用tabledata.list
方法。 - BigLake metastore 資料表不支援叢集。
- BigLake 中繼資料庫表格不支援靈活的資料欄名稱。
- 系統不支援顯示 BigLake 元資料庫資料表的資料表儲存空間統計資料。
後續步驟
- 將 Dataproc Metastore 資料遷移至 BigLake metastore
- 搭配 Dataproc 使用 BigLake 中繼存放區
- 搭配使用 BigLake Metastore 和 Dataproc Serverless