BigLake 中繼資料庫簡介

BigLake 中繼存放區是Google Cloud上資料分析產品的全代管中繼存放區。這項服務提供單一可靠資料來源,可用於管理來自多個來源的中繼資料。您可以透過 BigQuery 和各種開放式資料處理引擎存取元資料庫,因此這對資料分析師和工程師來說是一項實用的工具。

舉例來說,您可以使用 BigLake 中繼存放區做為目錄,搭配 Apache Spark 等開放原始碼查詢引擎。您可以使用 BigQuery 查詢使用 Spark 建立的資料表,而不需要同步處理中繼資料。

優點

BigLake 元資料儲存庫可提供多項資料管理和分析優勢:

  • 無伺服器架構。BigLake 元資料庫提供無伺服器架構,因此無需管理伺服器或叢集。這有助於減少作業負擔、簡化部署作業,並可視需求自動調整資源。
  • 引擎互通性。BigLake 中繼資料庫可讓您直接在 BigQuery 中存取資料表,無須額外設定即可查詢儲存在 BigQuery 中的開放格式資料表。舉例來說,您可以在 Spark 中建立資料表,然後直接在 BigQuery 中查詢該資料表。這有助於簡化資料分析工作流程,並減少複雜的資料移動或 ETL 程序需求。
  • 統一使用者體驗BigLake metastore 提供跨 BigQuery 和 BigQuery Studio 的整合式工作流程。這樣一來,您就能直接在 BigQuery 和 BigQuery Studio 中使用 Spark。例如:

    首先,您可以使用 BigQuery Studio 筆記本在 Spark 中建立資料表。

    在 BigLake metastore 中建立資料表

    接著,您可以在Google Cloud 主控台中查詢相同的 Spark 資料表。

    在 BigLake 元資料庫中查詢資料表

系統支援的整合項目

您可以搭配使用 BigLake 元資料庫、 Google Cloud 主控台、gcloud CLI、BigQuery REST API 或 Iceberg REST API。

BigLake 元資料庫支援下列整合:

與 BigLake metastore (傳統版) 的差異

Google Cloud建議使用 BigLake metastore。

BigLake 元資料庫和 BigLake 元資料庫 (傳統版) 之間的主要差異包括以下幾點:

  • BigLake metastore (傳統版) 是獨立的 metastore 服務,與 BigQuery 不同,且僅支援 Iceberg 資料表。它採用不同的三部分資源模型。BigLake 中繼資料庫 (傳統版) 資料表不會自動從 BigQuery 探索。

  • BigLake 中繼資料庫是以 BigQuery 目錄為基礎,並直接與 BigQuery 整合。BigLake metastore 中的資料表可透過多個開放原始碼引擎變更,且可透過 BigQuery 查詢相同的資料表。使用 BigQuery ������有一���可���資料來源可用於處理中繼資料。舉例來說,BigLake metastore 支援直接整合 Spark。這項整合功能可提供更流暢的工作流程,並有助於減少儲存中繼資料和執行工作時的冗餘資料。

限制

以下限制適用於 BigLake 元資料庫資料表:

  • 您無法使用 BigQuery 引擎的 DDL 或 DML 陳述式建立或修改 BigLake 元資料庫資料表。您可以使用 BigQuery API (搭配 bq 指令列工具或用戶端程式庫) 修改 BigLake 元資料庫資料表,但這樣做可能會導致變更與外部引擎不相容。
  • BigLake 中繼資料表不支援重新命名作業ALTER TABLE ... RENAME TO Spark SQL 陳述式。
  • BigLake 元資料庫資料表的配額和限制與標準資料表相同。
  • 與查詢標準 BigQuery 資料表中的資料相比,透過 BigQuery 引擎查詢 BigLake 元資料庫表格的效能可能較慢。一般來說,BigLake 元資料庫資料表的查詢效能應與直接從 Cloud Storage 讀取資料的效能相同。
  • 使用 BigLake 中繼資料表的查詢模擬執行可能會回報資料的下限為 0 位元組,即使傳回資料列也一樣。這是因為實際查詢完成前,無法判斷從資料表處理的資料量。執行查詢時,系統會產生處理這項資料的費用。
  • 您無法在萬用字元資料表查詢中參照 BigLake 元資料儲存庫資料表。
  • 您無法使用 tabledata.list 方法從 BigLake 中繼資料表擷取資料。您可以將查詢結果儲存到目的地資料表,然後對該資料表使用 tabledata.list 方法。
  • BigLake metastore 資料表不支援叢集
  • BigLake 中繼資料庫表格不支援靈活的資料欄名稱
  • 系統不支援顯示 BigLake 元資料庫資料表的資料表儲存空間統計資料。

後續步驟