Introduzione al metastore BigLake

BigLake Metastore è un metastore completamente gestito per i prodotti di analisi dei dati su Google Cloud. Fornisce un'unica fonte attendibile per la gestione dei metadati provenienti da più origini. Il metastore è accessibile da BigQuery e da vari motori di elaborazione dei dati aperti, il che lo rende uno strumento utile per data analyst e data engineer.

Ad esempio, puoi utilizzare il metastore BigLake come catalogo con motori di query open source come Apache Spark. È possibile eseguire query sulle tabelle create con Spark utilizzando BigQuery senza dover sincronizzare i metadati.

Vantaggi

Il metastore BigLake offre diversi vantaggi per la gestione e l'analisi dei dati:

  • Architettura serverless. Il metastore BigLake fornisce un'architettura serverless, eliminando la necessità di gestire server o cluster. In questo modo, si riduce l'overhead operativo, si semplifica il deployment e si consente la scalabilità automatica in base alla domanda.
  • Interoperabilità del motore. Il metastore BigLake ti offre accesso diretto alle tabelle in BigQuery, consentendoti di eseguire query sulle tabelle in formato aperto archiviate in BigQuery senza ulteriore configurazione. Ad esempio, puoi creare una tabella in Spark ed eseguire query direttamente in BigQuery. In questo modo, puoi semplificare il flusso di lavoro di analisi e ridurre la necessità di processi ETL o di spostamento dei dati complessi.
  • Esperienza utente unificata. Il metastore BigLake fornisce un flusso di lavoro unificato tra BigQuery e BigQuery Studio. In questo modo puoi utilizzare Spark direttamente in BigQuery e in BigQuery Studio. Ad esempio:

    Innanzitutto, puoi creare una tabella in Spark con un blocco note BigQuery Studio.

    Crea una tabella nel metastore BigLake

    Successivamente, puoi eseguire una query sulla stessa tabella Spark nella Google Cloud console.

    Esegui query sulla tabella nel metastore BigLake

Integrazioni supportate

Puoi utilizzare il metastore BigLake con la Google Cloud console, l'interfaccia a riga di comando gcloud CLI, le API REST BigQuery o l'API REST Iceberg.

Il metastore BigLake supporta le seguenti integrazioni:

Differenze con il metastore BigLake (versione classica)

Il metastore BigLake è il metastore consigliato su Google Cloud.

Le differenze principali tra il metastore BigLake e il metastore BigLake (classico) includono i seguenti dettagli:

  • BigLake Metastore (versione classica) è un servizio di metastore autonomo distinto da BigQuery e supporta solo le tabelle Iceberg. Ha un modello di risorse distinto in tre parti. Le tabelle del metastore BigLake (classiche) non vengono rilevate automaticamente da BigQuery.

  • Il metastore BigLake si basa sul catalogo BigQuery e si integra direttamente con BigQuery. Le tabelle nel metastore BigLake sono mutabili da più motori open source e su quelle stesse tabelle è possibile eseguire query da BigQuery. Quando utilizzi BigQuery, esiste un'unica fonte attendibile per i metadati. Ad esempio, il metastore BigLake supporta l'integrazione diretta con Spark. Questa integrazione offre un flusso di lavoro più scorrevole e contribuisce a ridurre la ridondanza durante la memorizzazione dei metadati e l'esecuzione dei job.

Limitazioni

Alle tabelle del metastore BigLake si applicano le seguenti limitazioni:

  • Non puoi creare o modificare le tabelle del metastore BigLake con istruzioni DDL o DML utilizzando il motore BigQuery. Puoi modificare le tabelle del metastore BigLake utilizzando l'API BigQuery (con lo strumento a riga di comando bq o le librerie client), ma questo potrebbe comportare modifiche incompatibili con il motore esterno.
  • Le tabelle del metastore BigLake non supportano operazioni di rinominazione o ALTER TABLE ... RENAME TO istruzioni Spark SQL.
  • Le tabelle del metastore BigLake sono soggette alle stesse quote e limiti delle tabelle standard.
  • Le prestazioni delle query per le tabelle del metastore BigLake dal motore BigQuery potrebbero essere lente rispetto alle query sui dati in una tabella BigQuery standard. In generale, le prestazioni di query per una tabella del metastore BigLake dovrebbero essere equivalenti alla lettura dei dati direttamente da Cloud Storage.
  • Un simulacro di una query che utilizza una tabella del metastore BigLake potrebbe segnalare un limite inferiore di 0 byte di dati, anche se vengono restituite righe. Questo risultato si verifica perché la quantità di dati elaborati dalla tabella non può essere determinata fino al completamento della query effettiva. L'esecuzione della query comporta un costo per l'elaborazione di questi dati.
  • Non puoi fare riferimento a una tabella del metastore BigLake in una query sulla tabella con caratteri jolly.
  • Non puoi utilizzare il metodo tabledata.list per recuperare i dati dalle tabelle del metastore di BigLake. In alternativa, puoi salvare i risultati della query in una tabella di destinazione, quindi utilizzare il metodo tabledata.list su quella tabella.
  • Le tabelle del metastore BigLake non supportano il clustering.
  • Le tabelle del metastore BigLake non supportano nomi di colonne flessibili.
  • La visualizzazione delle statistiche di archiviazione delle tabelle per le tabelle del metastore BigLake non è supportata.

Passaggi successivi