Questa pagina è stata tradotta dall'API Cloud Translation.

Utilizzo del rilevamento automatico dello schema

Rilevamento automatico dello schema

Il rilevamento automatico dello schema consente a BigQuery di dedurre lo schema per CSV, JSON o Fogli Google. Il rilevamento automatico dello schema è disponibile quando caricare i dati in BigQuery e quando esegui una query su un'origine dati esterna.

Quando il rilevamento automatico è abilitato, BigQuery deduce il tipo di dati per ogni colonna. BigQuery seleziona un file casuale nell'origine dati ed esegue la scansione fino alle prime 500 righe di dati da utilizzare come campione rappresentativo. BigQuery esamina poi ogni campo e tenta di assegnare i dati a quel campo in base ai valori del campione. Se tutte le righe in un oggetto sono vuote, il rilevamento automatico sarà impostato su STRING tipo di dati per la colonna.

Se non attivi il rilevamento automatico dello schema per CSV, JSON o Fogli Google devi fornire lo schema manualmente durante la creazione della tabella.

Non è necessario abilitare il rilevamento automatico dello schema per Avro, Parquet, ORC, Firestore o di esportare i file in Datastore. Questi formati file sono autodescrittivi, quindi BigQuery deduce automaticamente lo schema della tabella dall'origine e i dati di Google Cloud. Per i file Parquet, Avro e Orc, puoi facoltativamente fornire un elemento per eseguire l'override dello schema dedotto.

Puoi vedere lo schema rilevato per una tabella nei seguenti modi:

Utilizzare la console Google Cloud.
Usa lo strumento a riga di comando bq bq show .

Quando BigQuery rileva schemi, in rare occasioni potrebbe modificare il nome di un campo per renderlo compatibile con GoogleSQL la sintassi.

Per informazioni sulle conversioni dei tipi di dati, consulta le seguenti risorse:

Conversione del tipo di dati quando si caricano i dati da Datastore
Conversione del tipo di dati durante il caricamento dei dati da Firestore
Conversioni Avro
Conversioni Parquet
Conversioni ORC

Caricamento dei dati utilizzando il rilevamento automatico dello schema

Per attivare il rilevamento automatico dello schema durante il caricamento dei dati, utilizza uno dei seguenti approcci:

Nella sezione Schema della console Google Cloud, per Rilevamento automatico, seleziona l'opzione Schema e parametri di input.
Nello strumento a riga di comando bq, usa il comando bq load con il comando --autodetect .

Quando è abilitato il rilevamento automatico dello schema, BigQuery effettua una tentativo di dedurre automaticamente lo schema per i file CSV e JSON. La logica di rilevamento automatico deduce i tipi di campi dello schema leggendo i le prime 500 righe di dati. Le linee iniziali vengono ignorate se --skip_leading_rows è presente. I tipi di campo si basano sulle righe con il maggior numero di campi. Pertanto, il rilevamento automatico dovrebbe funzionare come previsto, purché vi siano almeno una riga di dati con valori in ogni colonna/campo.

Il rilevamento automatico dello schema non viene utilizzato con file Avro, Parquet e ORC, File di esportazione Firestore o file di esportazione Datastore. Quando caricare questi file in BigQuery, lo schema della tabella viene recuperate dai dati di origine autodescrittivi.

Per utilizzare il rilevamento automatico dello schema quando carichi dati JSON o CSV:

Console

Nella console Google Cloud, vai alla pagina BigQuery.

Vai a BigQuery
Nel riquadro Spazio di esplorazione, espandi il progetto e seleziona un set di dati.
Espandi Azioni e fai clic su Apri.
Nel riquadro dei dettagli, fai clic su Crea tabella. .
Nella sezione Origine della pagina Crea tabella:
- Per Crea tabella da, seleziona il tipo di origine che ti interessa.
- Nel campo di origine, cerca il bucket File/Cloud Storage oppure inserisci l'URI Cloud Storage. Tieni presente che non puoi includono più URI nella console Google Cloud, caratteri jolly sono supportati. Il bucket Cloud Storage deve trovarsi nello stesso posizione come il set di dati che contiene la tabella che stai creando.
- In Formato file, seleziona CSV o JSON.
Nella sezione Destinazione della pagina Crea tabella:
- In Nome set di dati, scegli il set di dati appropriato.
- Nel campo Nome tabella, inserisci il nome della tabella che stai in fase di creazione.
- Verifica che l'opzione Tipo di tabella sia impostata su Tabella nativa.
Fai clic su Crea tabella.

bq

Esegui il comando bq load con il parametro --autodetect.

(Facoltativo) Fornisci il flag --location e imposta il valore su località.

Il seguente comando carica un file utilizzando il rilevamento automatico dello schema:

bq --location=LOCATION load \
--autodetect \
--source_format=FORMAT \
DATASET.TABLE \
PATH_TO_SOURCE

Sostituisci quanto segue:

LOCATION: il nome del luogo in cui ti trovi. La Il flag --location è facoltativo. Ad esempio, se utilizzi BigQuery nella regione di Tokyo, imposta il valore del flag su asia-northeast1. Puoi impostare un valore predefinito per la località utilizzando: nel file.bigqueryrc.
FORMAT: NEWLINE_DELIMITED_JSON o CSV.
DATASET: il set di dati che contiene la tabella in cui stai caricando i dati.
TABLE: il nome della tabella in cui ti trovi caricare i dati.
PATH_TO_SOURCE: è la posizione del file CSV o JSON.

Esempi:

Inserisci il seguente comando per caricare myfile.csv dalla tua app locale in una tabella denominata mytable archiviata in un set di dati denominato mydataset.

bq load --autodetect --source_format=CSV mydataset.mytable ./myfile.csv

Inserisci il seguente comando per caricare myfile.json dalla tua app locale in una tabella denominata mytable archiviata in un set di dati denominato mydataset.

bq load --autodetect --source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable ./myfile.json