점프 스타트 솔루션: 분석 레이크하우스

Last reviewed 2023-11-20 UTC

이 가이드는 분석 레이크하우스 점프 스타트 솔루션을 이해하고 배포 및 사용하는 방법을 안내합니다. 이 솔루션은 통합 데이터 스택을 사용하여 데이터를 저장, 처리, 분석, 활성화하는 분석 레이크하우스를 만들어 데이터 레이크와 데이터 웨어하우스를 통합하는 방법을 보여줍니다.

분석 레이크하우스를 빌드하는 일반적인 사용 사례는 다음과 같습니다.

  • 보고 데이터와 결합된 원격 분석 데이터에 대한 대규모 분석
  • 구조화된 데이터 및 구조화되지 않은 데이터 분석의 통합
  • 데이터 웨어하우스의 실시간 분석 기능 제공

이 문서는 데이터 분석에 대한 배경 지식이 있고 데이터베이스 또는 데이터 레이크를 사용하여 분석을 수행한 경험이 있는 개발자를 대상으로 합니다. 여기에서는 사용자가 Google Cloud는 아니더라도 기본 클라우드 개념에 익숙하다고 가정합니다. Terraform 사용 경험이 도움이 됩니다.

목표

  • 분석 레이크하우스를 설정하는 방법을 알아봅니다.
  • 공통 거버넌스 레이어를 사용하여 분석 레이크하우스를 보호합니다.
  • 데이터에서 대시보드를 빌드하여 데이터 분석을 수행합니다.
  • 시간 경과에 따라 데이터 값을 예측하기 위해 머신러닝 모델을 만듭니다.

사용 제품

이 솔루션에는 다음과 같은 Google Cloud 제품이 사용됩니다.

  • BigQuery: 머신러닝 기능이 기본 제공되는 완전 관리형의 고확장성 데이터 웨어하우스입니다.
  • Dataproc: 규모에 따른 데이터 레이크 현대화, ETL, 안전한 데이터 과학을 위한 완전 관리형 서비스입니다.
  • Looker Studio: 데이터 통계를 만들고 공유하는 데 도움이 되는 셀프 서비스 방식의 비즈니스 인텔리전스 플랫폼입니다.
  • Dataplex: 규모에 따라 데이터를 중앙에서 검색, 관리, 모니터링, 제어합니다.
  • Cloud Storage: 다양한 데이터 유형에 맞게 저비용, 무제한 객체 스토리지를 제공하는 엔터프라이즈급 서비스입니다. Google Cloud 내부 및 외부에서 데이터에 액세스할 수 있고 지리적으로 중복되도록 데이터를 복제할 수 있습니다.
  • BigLake: BigLake는 BigQuery와 Spark 같은 오픈소스 프레임워크를 통해 세분화된 액세스 제어로 데이터에 액세스할 수 있도록 지원하여 데이터 웨어하우스와 레이크를 통합하는 스토리지 엔진입니다.

처음으로 솔루션에 데이터를 저장하기 위해서는 다음과 같은 Google Cloud 제품이 사용됩니다.

  • Workflows: 지정된 순서로 서비스를 워크플로로 실행하는 완전 관리형 조정 플랫폼입니다. Workflows는 Cloud Run 또는 Cloud Functions에서 호스팅되는 커스텀 서비스, BigQuery와 같은 Google Cloud 서비스, 모든 HTTP 기반 API를 비롯한 서비스를 결합할 수 있습니다.

아키텍처

이 솔루션에서 배포하는 레이크하우스 아키텍처 예시에서는 전자상거래 데이터 세트를 분석하여 시간 경과에 따른 소매업체 실적을 파악합니다. 다음 다이어그램은 이 솔루션으로 배포되는 Google Cloud 리소스의 아키텍처를 보여줍니다.

데이터 웨어하우스 솔루션의 인프라 아키텍처

솔루션 흐름

이 아키텍처는 분석 레이크하우스 아키텍처에서 데이터를 채우고 변환하기 위한 일반적인 데이터 흐름을 보여줍니다.

  1. 데이터는 Cloud Storage 버킷에 저장됩니다.
  2. Dataplex에 데이터 레이크가 생성됩니다. 버킷의 데이터가 데이터 레이크의 항목 또는 테이블로 구성됩니다.
  3. 데이터 레이크의 테이블이 BigQuery에서 즉시 BigLake 테이블로 제공됩니다.
  4. Dataproc 또는 BigQuery와 Apache Iceberg 등의 공개 파일 형식을 사용하여 데이터 변환이 이루어집니다.
  5. 정책 태그와 행 액세스 정책을 사용하여 데이터를 보호할 수 있습니다.
  6. 테이블에 머신러닝을 적용할 수 있습니다.
  7. Looker Studio를 사용하여 추가 분석을 수행할 수 있도록 데이터로부터 대시보드를 생성합니다.

비용

분석 레이크하우스 솔루션이 사용하는 Google Cloud 리소스의 예상 비용은 Google Cloud 가격 계산기에서 사전 계산된 예상 비용을 참조하세요.

예상 비용을 시작점으로 배포 비용을 계산합니다. 솔루션에 사용된 리소스에 적용할 모든 구성 변경사항을 반영하도록 예상 비용을 수정할 수 있습니다.

사전 계산된 예상 비용은 다음과 같은 특정 요소에 대한 가정을 기반으로 합니다.

  • 리소스가 배포된 Google Cloud 위치
  • 리소스가 사용된 시간의 양

시작하기 전에

이 솔루션을 배포하려면 먼저 Google Cloud 프로젝트와 일부 IAM 권한이 필요합니다.

Google Cloud 프로젝트 만들기 또는 선택

솔루션을 배포할 때 리소스가 배포되는 Google Cloud 프로젝트를 선택합니다. 기존 프로젝트를 사용할지 아니면 새 프로젝트를 만들지 결정할 때는 다음 요소를 고려하세요.

  • 솔루션에 대한 프로젝트를 만들 경우 배포가 더 이상 필요하지 않으면 프로젝트를 삭제하고 비용이 계속 청구되지 않도록 할 수 있습니다. 기존 프로젝트를 사용하는 경우 더 이상 필요하지 않을 때 배포를 삭제해야 합니다.
  • 새 프로젝트를 사용하면 프로덕션 워크로드에 사용되는 리소스와 같이 이전에 프로비저닝된 리소스와의 충돌을 방지할 수 있습니다.

새 프로젝트에 솔루션을 배포하려면 배포를 시작하기 전에 프로젝트를 만듭니다.

프로젝트를 만들려면 다음 단계를 수행합니다.

  1. In the Google Cloud console, go to the project selector page.

    Go to project selector

  2. Click Create project.

  3. Name your project. Make a note of your generated project ID.

  4. Edit the other fields as needed.

  5. Click Create.

필수 IAM 권한 가져오기

배포 프로세스를 시작하려면 다음 표에 나온 Identity and Access Management(IAM) 권한이 필요합니다. 솔루션을 배포하려는 프로젝트에 대한 roles/owner 기본 역할이 있으면 이미 모든 필수 권한을 갖춘 것입니다. roles/owner 역할이 없으면 관리자에게 연락하여 해당 권한(또는 이러한 권한이 포함된 역할)을 부여해 달라고 요청하세요.

필수 IAM 권한 필수 권한이 포함된 사전 정의된 역할

serviceusage.services.enable

서비스 사용량 관리자
(roles/serviceusage.serviceUsageAdmin)

iam.serviceAccounts.create

서비스 계정 관리자
(roles/iam.serviceAccountAdmin)

resourcemanager.projects.setIamPolicy

프로젝트 IAM 관리자
(roles/resourcemanager.projectIamAdmin)
config.deployments.create
config.deployments.list
Cloud Infrastructure Manager 관리자
(roles/config.admin)

솔루션을 위해 생성된 서비스 계정

콘솔을 통해 배포 프로세스를 시작하면 Google이 솔루션 배포를 위해 서비스 계정을 자동으로 생성합니다(이후 필요할 때 배포 삭제 가능). 이 서비스 계정에는 특정 일시적으로 IAM 권한이 할당됩니다. 즉, 솔루션 배포 및 삭제 작업이 완료되면 권한이 자동으로 취소됩니다. 이 가이드 뒷부분에서 설명한 대로 배포를 삭제한 후에는 서비스 계정을 삭제하는 것이 좋습니다.

서비스 계정에 할당된 역할 보기

Google Cloud 프로젝트 또는 조직 관리자에게 이 정보가 필요한 경우를 대비해 여기에 역할을 나열해 두었습니다.

  • roles/biglake.admin
  • roles/bigquery.admin
  • roles/compute.admin
  • roles/datalineage.viewer
  • roles/dataplex.admin
  • roles/dataproc.admin
  • roles/iam.serviceAccountAdmin
  • roles/iam.serviceAccountUser
  • roles/resourcemanager.projectIamAdmin
  • roles/servicenetworking.serviceAgent
  • roles/serviceusage.serviceUsageViewer
  • roles/vpcaccess.admin
  • roles/storage.admin
  • roles/workflows.admin

솔루션 배포

이 섹션에서는 솔루션 배포 과정을 안내합니다.

최소한의 노력으로 이 솔루션을 배포할 수 있도록 GitHub에서 Terraform 구성을 제공합니다. Terraform 구성은 솔루션에 필요한 모든 Google Cloud 리소스를 정의합니다.

다음 방법 중 하나를 사용하여 솔루션을 배포할 수 있습니다.

  • 콘솔을 통해: 기본 구성으로 솔루션을 사용해 보고 작동 방식을 확인하려면 이 방법을 사용합니다. Cloud Build에서 솔루션에 필요한 모든 리소스를 배포합니다. 배포된 솔루션이 더 이상 필요하지 않으면 콘솔을 통해 이 솔루션을 삭제할 수 있습니다. 솔루션을 배포한 후 만든 모든 리소스를 개별적으로 삭제해야 할 수도 있습니다.

    이 배포 방법을 사용하려면 콘솔을 통해 배포의 안내를 따르세요.

  • Terraform CLI 사용: 솔루션을 맞춤설정하거나 코드형 인프라(IaC) 방식을 사용하여 리소스 프로비저닝과 관리를 자동화하려면 이 방법을 사용합니다. GitHub에서 Terraform 구성을 다운로드하고 원하는 경우 필요에 따라 코드를 맞춤설정한 후 Terraform CLI를 사용하여 솔루션을 배포합니다. 솔루션을 배포한 후에도 계속 Terraform을 사용하여 솔루션을 관리할 수 있습니다.

    이 배포 방법을 사용하려면 Terraform CLI를 사용하여 배포의 안내를 따르세요.

콘솔을 통해 배포

사전 구성된 솔루션을 배포하려면 다음 단계를 완료하세요.

  1. Google Cloud 점프 스타트 솔루션 카탈로그에서 분석 레이크하우스 솔루션으로 이동합니다.

    분석 레이크하우스 솔루션으로 이동

  2. 솔루션의 예상 비용 및 예상 배포 시간 등 페이지에 제공된 정보를 검토합니다.

  3. 솔루션 배포를 시작할 준비가 되면 배포를 클릭합니다.

    단계별 대화형 가이드가 표시됩니다.

  4. 대화형 가이드의 단계를 완료합니다.

    배포에 입력하는 이름을 기록해 둡니다. 이 이름은 나중에 배포를 삭제할 때 필요합니다.

    배포를 클릭하면 솔루션 배포 페이지가 표시됩니다. 이 페이지의 상태 필드에 배포 중이 표시됩니다.

  5. 솔루션이 배포될 때까지 기다립니다.

    배포가 실패하면 상태 필드에 실패가 표시됩니다. Cloud Build 로그를 사용하여 오류를 진단할 수 있습니다. 자세한 내용은 콘솔을 통해 배포 시 오류를 참조하세요.

    배포가 완료되면 상태 필드가 배포됨으로 변경됩니다.

  6. 솔루션을 보고 사용하려면 콘솔에서 솔루션 배포 페이지로 돌아갑니다.

    1. 작업 메뉴를 클릭합니다.
    2. Looker Studio 대시보드 보기를 선택하여 솔루션을 사용하여 변환된 샘플 데이터로 빌드된 대시보드를 엽니다.
    3. BigQuery 편집기 열기를 선택하여 쿼리를 실행하고 솔루션의 샘플 데이터를 사용하여 머신러닝(ML) 모델을 빌드합니다.
    4. Colab 보기를 선택하여 노트북 환경에서 쿼리를 실행합니다.

솔루션이 더 이상 필요하지 않으면 Google Cloud 리소스 비용이 계속 청구되지 않도록 배포를 삭제할 수 있습니다. 자세한 내용은 배포 삭제를 참조하세요.

Terraform CLI를 사용하여 배포

이 섹션에서는 솔루션을 맞춤설정하거나 Terraform CLI를 사용하여 솔루션 프로비저닝과 관리를 자동화하는 방법을 설명합니다. Terraform CLI를 사용하여 배포하는 솔루션은 Google Cloud 콘솔의 솔루션 배포 페이지에 표시되지 않습니다.

Terraform 클라이언트 설정

Cloud Shell 또는 로컬 호스트에서 Terraform을 실행할 수 있습니다. 이 가이드에서는 Google Cloud에서 인증을 수행하기 위해 Terraform이 사전 설치되어 구성된 Cloud Shell에서 Terraform을 실행하는 방법을 설명합니다.

이 솔루션의 Terraform 코드는 GitHub 저장소에서 사용할 수 있습니다.

  1. GitHub 저장소를 Cloud Shell에 클론합니다.

    Cloud Shell에서 열기

    GitHub 저장소를 Cloud Shell로 다운로드하는 것을 확인하는 메시지가 표시됩니다.

  2. 확인을 클릭합니다.

    Cloud Shell이 별도의 브라우저 탭에서 시작되고 Terraform 코드가 Cloud Shell 환경의 $HOME/cloudshell_open 디렉터리에 다운로드됩니다.

  3. Cloud Shell에서 현재 작업 디렉터리가 $HOME/cloudshell_open/terraform-google-analytics-lakehouse/인지 확인합니다. 이 디렉터리에 솔루션에 대한 Terraform 구성 파일이 포함되어 있습니다. 해당 디렉터리로 변경해야 하는 경우 다음 명령어를 실행합니다.

    cd $HOME/cloudshell_open/terraform-google-analytics-lakehouse/
    
  4. 다음 명령어를 실행하여 Terraform을 초기화합니다.

    terraform init
    

    다음 메시지가 표시될 때까지 기다립니다.

    Terraform has been successfully initialized!
    

Terraform 변수 구성

다운로드한 Terraform 코드에는 요구사항에 따라 배포를 맞춤설정하는 데 사용할 수 있는 변수가 포함되어 있습니다. 예를 들어 Google Cloud 프로젝트와 솔루션을 배포할 리전을 지정할 수 있습니다.

  1. 현재 작업 디렉터리가 $HOME/cloudshell_open/terraform-google-analytics-lakehouse/인지 확인합니다. 그렇지 않으면 해당 디렉터리로 이동합니다.

  2. 동일한 디렉터리에서 terraform.tfvars라는 텍스트 파일을 만듭니다.

  3. terraform.tfvars 파일에서 다음 코드 스니펫을 복사하고 필수 변수의 값을 설정합니다.

    • 코드 스니펫에서 주석으로 제공된 안내를 따릅니다.
    • 이 코드 스니펫에는 값을 설정해야 하는 변수만 포함됩니다. Terraform 구성에는 기본값이 있는 다른 변수가 포함됩니다. 모든 변수 및 기본값을 검토하려면 $HOME/cloudshell_open/terraform-google-analytics-lakehouse/ 디렉터리에서 사용할 수 있는 variables.tf 파일을 참조하세요.
    • terraform.tfvars 파일에 설정한 각 값이 variables.tf 파일에 선언된 변수 유형과 일치하는지 확인합니다. 예를 들어 variables.tf 파일의 변수에 정의된 유형이 bool인 경우 terraform.tfvars 파일에서 해당 변수 값으로 true 또는 false를 지정해야 합니다.
    # This is an example of the terraform.tfvars file.
    # The values in this file must match the variable types declared in variables.tf.
    # The values in this file override any defaults in variables.tf.
    
    # ID of the project in which you want to deploy the solution
    project_id = "PROJECT_ID"
    
    # Google Cloud region where you want to deploy the solution
    # Example: us-central1
    region = "REGION"
    
    # Whether or not to enable underlying apis in this solution.
    # Example: true
    enable_apis = true
    
    # Whether or not to protect Cloud Storage and BigQuery resources from deletion when solution is modified or changed.
    # Example: false
    force_destroy = false
    

Terraform 구성 검증 및 검토

  1. 현재 작업 디렉터리가 $HOME/cloudshell_open/terraform-google-analytics-lakehouse/인지 확인합니다. 그렇지 않으면 해당 디렉터리로 이동합니다.

  2. Terraform 구성에 오류가 없는지 확인합니다.

    terraform validate
    

    명령어가 오류를 반환하면 구성에서 수정이 필요한 항목을 변경한 후 terraform validate 명령어를 다시 실행합니다. 명령어가 다음 메시지를 반환할 때까지 이 단계를 반복합니다.

    Success! The configuration is valid.
    
  3. 구성에서 정의된 리소스를 검토합니다.

    terraform plan
    
  4. 앞에서 설명한 대로 terraform.tfvars 파일을 만들지 않은 경우 Terraform에서 기본값이 없는 변수의 값을 입력하라는 메시지를 표시합니다. 필수 값을 입력합니다.

    terraform plan 명령어 출력은 구성을 적용할 때 Terraform이 프로비저닝하는 리소스 목록입니다.

    변경하려면 구성을 수정한 후 terraform validateterraform plan 명령어를 다시 실행합니다.

리소스 프로비저닝

Terraform 구성을 더 이상 변경할 필요가 없으면 리소스를 배포합니다.

  1. 현재 작업 디렉터리가 $HOME/cloudshell_open/terraform-google-analytics-lakehouse/인지 확인합니다. 그렇지 않으면 해당 디렉터리로 이동합니다.

  2. Terraform 구성을 적용합니다.

    terraform apply
    
  3. 앞에서 설명한 대로 terraform.tfvars 파일을 만들지 않은 경우 Terraform에서 기본값이 없는 변수의 값을 입력하라는 메시지를 표시합니다. 필수 값을 입력합니다.

    Terraform에서 생성될 리소스 목록을 표시합니다.

  4. 작업을 수행하라는 메시지가 표시되면 yes를 입력합니다.

    Terraform에서 배포 진행 상황을 보여주는 메시지가 표시됩니다.

    배포를 완료할 수 없으면 Terraform에서 실패를 일으킨 오류가 표시됩니다. 오류 메시지를 검토하고 구성을 업데이트하여 오류를 해결합니다. 그런 후 terraform apply 명령어를 다시 실행합니다. Terraform 오류 해결에 도움이 필요하면 Terraform CLI를 사용하여 솔루션 배포 시 오류를 참조하세요.

    모든 리소스가 만들어지면 Terraform에 다음 메시지가 표시됩니다.

    Apply complete!
    

    또한 다음과 같이 Terraform 출력에 필요한 추가 정보가 나열됩니다.

    • 배포된 대시보드의 Looker Studio URL
    • 일부 샘플 쿼리에 대해 BigQuery 편집기를 열기 위한 링크
    • Colab 튜토리얼을 여는 링크

    다음 예시는 출력 모양을 보여줍니다.

    lookerstudio_report_url = "https://lookerstudio.google.com/reporting/create?c.reportId=79675b4f-9ed8-4ee4-bb35-709b8fd5306a&ds.ds0.datasourceName=vw_ecommerce&ds.ds0.projectId=${var.project_id}&ds.ds0.type=TABLE&ds.ds0.datasetId=gcp_lakehouse_ds&ds.ds0.tableId=view_ecommerce"
    bigquery_editor_url = "https://console.cloud.google.com/bigquery?project=my-cloud-project&ws=!1m5!1m4!6m3!1smy-cloud-project!2sds_edw!3ssp_sample_queries"
    lakehouse_colab_url = "https://colab.research.google.com/github/GoogleCloudPlatform/terraform-google-analytics-lakehouse/blob/main/assets/ipynb/exploratory-analysis.ipynb"
    
  5. 대시보드를 표시 및 사용하고 BigQuery에서 쿼리를 실행하려면 이전 단계에서 출력 URL을 복사하고 새 브라우저 탭에서 URL을 엽니다.

    대시보드, 노트북, BigQuery 편집기가 새 탭에 표시됩니다.

솔루션이 더 이상 필요하지 않으면 Google Cloud 리소스 비용이 계속 청구되지 않도록 배포를 삭제할 수 있습니다. 자세한 내용은 배포 삭제를 참조하세요.

솔루션 맞춤설정

이 섹션에서는 Terraform 개발자가 자체 기술 및 비즈니스 요구사항을 충족하기 위해 분석 레이크하우스 솔루션을 수정하는 데 사용할 수 있는 정보를 제공합니다. 이 섹션의 안내는 Terraform CLI를 사용하여 솔루션을 배포하는 경우에만 관련성이 있습니다.

샘플 데이터로 솔루션 작동 방식을 확인한 후 자체 데이터로 작업을 수행할 수 있습니다. 자체 데이터를 사용하려면 edw-raw-hash라는 Cloud Storage 버킷에 배치합니다. 이 해시는 배포 중 생성되는 무작위 8자 집합입니다. 다음과 같은 방법으로 Terraform 코드를 변경할 수 있습니다.

  1. 데이터 세트 ID. 코드로 BigQuery 데이터 세트를 생성할 때 데이터에 사용하려는 데이터 세트 ID가 사용되도록 Terraform 코드를 변경합니다.
  2. 스키마. 데이터 저장에 사용하려는 BigQuery 테이블 ID가 생성되도록 Terraform 코드를 변경합니다. 여기에는 BigQuery가 Cloud Storage에서 데이터를 읽을 수 있도록 외부 테이블 스키마가 포함되어 있습니다.
  3. 영역 비즈니스 니즈에 맞는 레이크 영역(일반적으로 데이터 품질 및 사용량을 기준으로 2~3개 등급 영역)을 만듭니다.
  4. Looker 대시보드. 사용 중인 데이터가 대시보드에 반영되도록 Looker 대시보드를 만드는 Terraform 코드를 변경합니다.
  5. PySpark 작업. Dataproc을 사용하여 PySpark 작업을 실행하도록 Terraform 코드를 변경합니다.

다음은 main.tf의 Terraform 예시 코드를 보여주는 일반적인 분석 레이크하우스 객체입니다.

  • BigQuery 데이터 세트: 데이터베이스 객체가 그룹화되고 저장되는 스키마입니다.

    resource "google_bigquery_dataset" "ds_edw" {
          project = module.project-services.project_id
          dataset_id = "DATASET_PHYSICAL_ID"
          friendly_name = "DATASET_LOGICAL_NAME"
          description = "DATASET_DESCRIPTION"
          location = "REGION"
          labels = var.labels
          delete_contents_on_destroy = var.force_destroy
      }
  • BigQuery 테이블: BigQuery에 저장된 데이터를 나타내거나 Cloud Storage에 저장된 데이터 스키마를 나타내는 데이터베이스 객체입니다.

    resource "google_bigquery_table" "tbl_edw_taxi" {
          dataset_id = google_bigquery_dataset.ds_edw.dataset_id
          table_id = "TABLE_NAME"
          project = module.project-services.project_id
          deletion_protection = var.deletion_protection
          ...
      }
  • BigQuery 저장 프로시저: 호출 시 실행할 하나 이상의 SQL 문을 나타내는 데이터베이스 객체입니다. 한 테이블에서 다른 테이블로 데이터를 변환하거나 외부 테이블에서 표준 테이블로 데이터를 로드하기 위한 것일 수 있습니다.

    resource "google_bigquery_routine" "sp_sample_translation_queries" {
          project = module.project-services.project_id
          dataset_id = google_bigquery_dataset.ds_edw.dataset_id
          routine_id = "sp_sample_translation_queries"
          routine_type = "PROCEDURE"
          language = "SQL"
          definition_body = templatefile("${path.module}/assets/sql/sp_sample_translation_queries.sql", { project_id = module.project-services.project_id })
        }
  • Cloud Workflows 워크플로: Workflows 워크플로는 특정 순서로 실행되는 단계의 조합을 나타냅니다. 이는 데이터를 설정하거나 다른 실행 단계와 함께 데이터 변환을 수행하는 데 사용할 수 있습니다.

    resource "google_workflows_workflow" "copy_data" {
        name            = "copy_data"
        project         = module.project-services.project_id
        region          = var.region
        description     = "Copies data and performs project setup"
        service_account = google_service_account.workflows_sa.email
        source_contents = templatefile("${path.module}/src/yaml/copy-data.yaml", {
            public_data_bucket    = var.public_data_bucket,
            textocr_images_bucket = google_storage_bucket.textocr_images_bucket.name,
            ga4_images_bucket     = google_storage_bucket.ga4_images_bucket.name,
            tables_bucket         = google_storage_bucket.tables_bucket.name,
            dataplex_bucket       = google_storage_bucket.dataplex_bucket.name,
            images_zone_name      = google_dataplex_zone.gcp_primary_raw.name,
            tables_zone_name      = google_dataplex_zone.gcp_primary_staging.name,
            lake_name             = google_dataplex_lake.gcp_primary.name
        })
        }
        

솔루션을 맞춤설정하려면 Cloud Shell에서 다음 단계를 완료합니다.

  1. 현재 작업 디렉터리가 $HOME/cloudshell_open/terraform-google-analytics-lakehouse인지 확인합니다. 그렇지 않으면 해당 디렉터리로 이동합니다.

    cd $HOME/cloudshell_open/terraform-google-analytics-lakehouse
    
  2. main.tf를 열고 원하는 항목을 변경합니다.

    안정성, 보안, 성능, 비용, 작업에 관한 이러한 맞춤설정 효과에 대한 자세한 내용은 설계 권장사항을 참조하세요.

  3. Terraform 구성을 검증 및 검토합니다.

  4. 리소스를 프로비저닝합니다.

설계 권장사항

이 섹션에서는 분석 레이크하우스 솔루션을 사용하여 보안, 안정성, 비용, 성능에 대한 요구사항을 충족하는 아키텍처를 개발하기 위한 권장사항을 제공합니다.

레이크하우스 솔루션 확장을 시작할 때는 다양한 방법을 통해 쿼리 성능을 개선하고 총 지출을 줄일 수 있습니다. 이러한 방법에는 데이터가 물리적으로 저장되는 방법을 변경하거나, SQL 쿼리를 수정하거나, 다른 기술을 사용해 쿼리를 실행하는 방법 등이 있습니다. Spark 워크로드를 최적화하는 방법에 대한 자세한 내용은 프로덕션을 위한 Dataproc 권장사항을 참조하세요.

다음에 유의하세요.

  • 설계를 변경하기 전에 비용 영향을 평가하고 다른 기능과의 잠재적 장단점을 고려하세요. Google Cloud 가격 계산기를 사용하여 설계 변경으로 인한 비용 영향을 평가할 수 있습니다.
  • 솔루션의 설계 변경사항을 구현하려면 Terraform 코딩에 대한 전문 지식과 솔루션에 사용되는 Google Cloud 서비스에 대한 고급 지식이 필요합니다.
  • Google 제공 Terraform 구성을 수정한 후 오류가 발생하면 GitHub에서 문제를 만듭니다. GitHub 문제는 최선을 다해 검토되며 일반적인 사용 질문을 위한 것이 아닙니다.
  • Google Cloud에서 프로덕션 등급 환경을 설계하고 설정하는 방법에 대한 자세한 내용은 Google Cloud에서 시작 영역 설계Google Cloud 설정 체크리스트를 참조하세요.

솔루션 배포 삭제

솔루션 배포가 더 이상 필요하지 않으면 만든 리소스에 대해 요금이 계속 청구되지 않도록 배포를 삭제합니다.

콘솔을 통해 배포 삭제

콘솔을 통해 솔루션을 배포한 경우 다음 절차를 따릅니다.

  1. Google Cloud 콘솔에서 솔루션 배포 페이지로 이동합니다.

    솔루션 배포로 이동

  2. 삭제할 배포가 포함된 프로젝트를 선택합니다.

  3. 삭제할 배포를 찾습니다.

  4. 작업을 클릭한 다음 삭제를 선택합니다.

  5. 배포 이름을 입력한 후 확인을 클릭합니다.

    상태 필드에 삭제 중이 표시됩니다.

    삭제가 실패하면 배포 삭제 시 오류의 문제 해결 안내를 참조하세요.

솔루션에 사용한 Google Cloud 프로젝트가 더 이상 필요하지 않으면 프로젝트를 삭제할 수 있습니다. 자세한 내용은 선택사항: 프로젝트 삭제를 참조하세요.

Terraform CLI를 사용하여 배포 삭제

Terraform CLI를 사용하여 솔루션을 배포한 경우 다음 절차를 수행합니다.

  1. Cloud Shell에서 현재 작업 디렉터리가 $HOME/cloudshell_open/terraform-google-analytics-lakehouse/인지 확인합니다. 그렇지 않으면 해당 디렉터리로 이동합니다.

  2. Terraform에서 프로비저닝한 리소스를 삭제합니다.

    terraform destroy
    

    Terraform에서 소멸될 리소스 목록을 표시합니다.

  3. 작업을 수행하라는 메시지가 표시되면 yes를 입력합니다.

    Terraform에서 진행 상황을 보여주는 메시지가 표시됩니다. 모든 리소스가 삭제되면 Terraform에 다음 메시지가 표시됩니다.

    Destroy complete!
    

    삭제가 실패하면 배포 삭제 시 오류의 문제 해결 안내를 참조하세요.

솔루션에 사용한 Google Cloud 프로젝트가 더 이상 필요하지 않으면 프로젝트를 삭제할 수 있습니다. 자세한 내용은 선택사항: 프로젝트 삭제를 참조하세요.

선택사항: 프로젝트 삭제

새 Google Cloud 프로젝트에 솔루션을 배포했고 프로젝트가 더 이상 필요 없으면 다음 단계에 따라 이를 삭제합니다.

  1. Google Cloud 콘솔에서 리소스 관리 페이지로 이동합니다.

    리소스 관리로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 프롬프트에서 프로젝트 ID를 입력한 후 종료를 클릭합니다.

프로젝트를 보존하기로 결정한 경우에는 다음 섹션에 설명된 대로 이 솔루션을 위해 만든 서비스 계정을 삭제합니다.

선택사항: 서비스 계정 삭제

솔루션에 사용한 프로젝트를 삭제한 경우에는 이 섹션을 건너뜁니다.

이 가이드의 앞에서 설명한 것처럼 솔루션을 배포할 때 서비스 계정이 자동으로 생성되었습니다. 서비스 계정에 일시적으로 특정 IAM 권한이 할당되었습니다. 즉, 솔루션 배포 및 삭제 작업이 완료된 후 권한이 자동으로 취소되었지만 서비스 계정은 삭제되지 않았습니다. 이 서비스 계정을 삭제하는 것이 좋습니다.

  • Google Cloud 콘솔을 통해 솔루션을 배포했으면 솔루션 배포 페이지로 이동합니다. 이미 해당 페이지에 있으면 브라우저를 새로고침합니다. 백그라운드에서 프로세스가 트리거되어 서비스 계정이 삭제됩니다. 추가 작업은 필요 없습니다.

  • Terraform CLI를 사용하여 솔루션을 배포한 경우 다음 단계를 완료합니다.

    1. Google Cloud 콘솔에서 서비스 계정 페이지로 이동합니다.

      서비스 계정으로 이동

    2. 솔루션에 사용한 프로젝트를 선택합니다.

    3. 삭제하려는 서비스 계정을 선택합니다.

      솔루션에서 만든 서비스 계정의 이메일 ID 형식은 다음과 같습니다.

      goog-sc-DEPLOYMENT_NAME-NNN@PROJECT_ID.iam.gserviceaccount.com
      

      이메일 ID에는 다음 값이 포함됩니다.

      • DEPLOYMENT_NAME: 배포 이름입니다.
      • NNN: 임의의 3자리 숫자입니다.
      • PROJECT_ID: 솔루션을 배포한 프로젝트의 ID입니다.
    4. 삭제를 클릭합니다.

오류 문제 해결

오류 진단 및 해결을 위해 수행할 수 있는 작업은 배포 방법 및 오류 복잡성에 따라 달라집니다.

콘솔에서 솔루션 배포 시 오류

콘솔을 사용할 때 배포가 실패하면 다음을 수행합니다.

  1. 솔루션 배포 페이지로 이동합니다.

    배포가 실패하면 상태 필드에 실패가 표시됩니다.

  2. 실패를 일으킨 오류에 대한 세부정보를 보려면 다음 안내를 따르세요.

    1. 작업을 클릭합니다.

    2. Cloud Build 로그 보기를 선택합니다.

  3. Cloud Build 로그를 검토하고 적절한 조치에 따라 실패를 일으킨 문제를 해결합니다.

Terraform CLI를 사용하여 솔루션 배포 시 오류

Terraform 사용 시 배포가 실패하면 terraform apply 명령어 출력에 문제 진단을 위해 검토할 수 있는 오류 메시지가 포함됩니다.

다음 섹션의 예시에서는 Terraform을 사용할 때 발생할 수 있는 배포 오류를 보여줍니다.

API가 사용 설정되지 않음 오류

프로젝트를 만든 후 솔루션을 새 프로젝트에 즉시 배포하려고 하면 다음과 같은 오류가 표시되면서 배포가 실패할 수 있습니다.

Error: Error creating Network: googleapi: Error 403: Compute Engine API has not
been used in project PROJECT_ID before or it is disabled. Enable it by visiting
https://console.developers.google.com/apis/api/compute.googleapis.com/overview?project=PROJECT_ID
then retry. If you enabled this API recently, wait a few minutes for the action
to propagate to our systems and retry.

이 오류가 발생하면 몇 분 정도 기다린 후 terraform apply 명령어를 다시 실행합니다.

요청한 주소를 할당하지 못하는 오류

terraform apply 명령어를 실행하면 다음과 같은 메시지와 함께 cannot assign requested address 오류가 발생할 수 있습니다.

Error: Error creating service account:
 Post "https://iam.googleapis.com/v1/projects/PROJECT_ID/serviceAccounts:
 dial tcp [2001:db8:ffff:ffff::5f]:443:
 connect: cannot assign requested address

이 오류가 발생하면 terraform apply 명령어를 다시 실행합니다.

BigQuery 또는 Looker Studio에서 데이터 액세스 오류

Terraform 프로비저닝 단계 이후 데이터를 환경에 로드하는 실행되는 프로비저닝 단계가 있습니다. 데이터가 Looker Studio 대시보드에 로드될 때 오류가 발생하거나 BigQuery 내보내기를 시작할 때 객체가 없으면 몇 분 정도 기다린 후 다시 시도하세요.

배포 삭제 시 오류

경우에 따라 배포를 삭제하려는 시도가 실패할 수 있습니다.

  • 콘솔을 통해 솔루션을 배포한 후 솔루션에서 프로비저닝한 리소스를 변경한 후 배포를 삭제하려고 하면 삭제가 실패할 수 있습니다. 솔루션 배포 페이지의 상태 필드에 실패가 표시되고 Cloud Build 로그에 오류의 원인이 표시됩니다.
  • Terraform CLI를 사용하여 솔루션을 배포한 후 Terraform이 아닌 인터페이스(예: 콘솔)를 사용하여 리소스를 변경한 후 배포를 삭제하려고 하면 삭제가 실패할 수 있습니다. terraform destroy 명령어 출력의 메시지에 오류 원인이 표시됩니다.

오류 로그와 메시지를 검토하고 오류를 일으킨 리소스를 식별 및 삭제한 후 배포를 다시 삭제합니다.

콘솔 기반 배포가 삭제되지 않고 Cloud Build 로그를 사용하여 오류를 진단할 수 없으면 다음 섹션의 설명대로 Terraform CLI를 사용하여 배포를 삭제할 수 있습니다.

Terraform CLI를 사용하여 콘솔 기반 배포 삭제

이 섹션에서는 콘솔을 통해 삭제를 시도할 때 오류가 발생하는 경우 콘솔 기반 배포를 삭제하는 방법을 설명합니다. 이 방법에서는 삭제하려는 배포의 Terraform 구성을 다운로드한 후 Terraform CLI를 사용하여 배포를 삭제합니다.

  1. 배포의 Terraform 코드, 로그 및 기타 데이터가 저장된 리전을 식별합니다. 이 리전은 솔루션 배포 중 선택한 리전과 다를 수 있습니다.

    1. Google Cloud 콘솔에서 솔루션 배포 페이지로 이동합니다.

      솔루션 배포로 이동

    2. 삭제할 배포가 포함된 프로젝트를 선택합니다.

    3. 배포 목록에서 삭제하려는 배포에 대한 행을 식별합니다.

    4. 모든 행 콘텐츠 보기를 클릭합니다.

    5. 위치 열에서 다음 예시에 강조 표시된 두 번째 위치를 기록해 둡니다.

      배포 코드, 로그, 기타 아티팩트의 위치

  2. In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

    At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

  3. 프로젝트 ID, 리전, 삭제하려는 배포 이름에 대해 환경 변수를 만듭니다.

    export REGION="REGION"
    export PROJECT_ID="PROJECT_ID"
    export DEPLOYMENT_NAME="DEPLOYMENT_NAME"
    

    이 명령어에서 다음 항목을 바꿉니다.

    • REGION: 이 절차의 앞 부분에서 기록해 둔 위치
    • PROJECT_ID: 솔루션을 배포한 프로젝트의 ID
    • DEPLOYMENT_NAME: 삭제하려는 배포의 이름
  4. 삭제하려는 배포의 최신 버전에 대한 ID를 가져옵니다.

    export REVISION_ID=$(curl \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        -H "Content-Type: application/json" \
        "https://config.googleapis.com/v1alpha2/projects/${PROJECT_ID}/locations/${REGION}/deployments/${DEPLOYMENT_NAME}" \
        | jq .latestRevision -r)
        echo $REVISION_ID
    

    출력은 다음과 비슷합니다.

    projects/PROJECT_ID/locations/REGION/deployments/DEPLOYMENT_NAME/revisions/r-0
    
  5. 배포에 대한 Terraform 구성의 Cloud Storage 위치를 가져옵니다.

    export CONTENT_PATH=$(curl \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        -H "Content-Type: application/json" \
        "https://config.googleapis.com/v1alpha2/${REVISION_ID}" \
        | jq .applyResults.content -r)
        echo $CONTENT_PATH
    

    다음은 이 명령어의 출력 예시입니다.

    gs://PROJECT_ID-REGION-blueprint-config/DEPLOYMENT_NAME/r-0/apply_results/content
    
  6. Cloud Storage에서 Cloud Shell로 Terraform 구성을 다운로드합니다.

    gsutil cp -r $CONTENT_PATH $HOME
    cd $HOME/content/
    

    다음 예시에 표시된 것처럼 Operation completed 메시지가 표시될 때까지 기다립니다.

    Operation completed over 45 objects/268.5 KiB
    
  7. Terraform을 초기화합니다.

    terraform init
    

    다음 메시지가 표시될 때까지 기다립니다.

    Terraform has been successfully initialized!
    
  8. 배포된 리소스를 삭제합니다.

    terraform destroy
    

    Terraform에서 소멸될 리소스 목록을 표시합니다.

    선언되지 않은 변수에 대한 경고가 표시되면 경고를 무시합니다.

  9. 작업을 수행하라는 메시지가 표시되면 yes를 입력합니다.

    Terraform에서 진행 상황을 보여주는 메시지가 표시됩니다. 모든 리소스가 삭제되면 Terraform에 다음 메시지가 표시됩니다.

    Destroy complete!
    
  10. 배포 아티팩트를 삭제합니다.

    curl -X DELETE \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        -H "Content-Type: application/json" \
        "https://config.googleapis.com/v1alpha2/projects/${PROJECT_ID}/locations/${REGION}/deployments/${DEPLOYMENT_NAME}?force=true&delete_policy=abandon"
    
  11. 몇 초 정도 기다린 후 배포 아티팩트가 삭제되었는지 확인합니다.

    curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        -H "Content-Type: application/json" \
        "https://config.googleapis.com/v1alpha2/projects/${PROJECT_ID}/locations/${REGION}/deployments/${DEPLOYMENT_NAME}" \
        | jq .error.message
    

    출력에 null이 표시되면 몇 초 정도 기다린 후 명령어를 다시 실행합니다.

    배포 아티펙트가 삭제된 후 다음 예시와 같은 메시지가 표시됩니다.

    Resource 'projects/PROJECT_ID/locations/REGION/deployments/DEPLOYMENT_NAME' was not found
    

의견 보내기

점프 스타트 솔루션은 정보 제공만을 목적으로 하며 공식적으로 지원되는 제품은 아닙니다. Google은 사전 통지 없이 솔루션을 변경하거나 삭제할 수 있습니다.

오류를 해결하려면 Cloud Build 로그 및 Terraform 출력을 검토합니다.

의견을 제출하려면 다음을 수행합니다.

  • 문서, 콘솔 내 튜토리얼, 솔루션의 경우 페이지에서 의견 보내기 버튼을 사용합니다.
  • 수정되지 않은 Terraform 코드에 대해서는 GitHub 저장소에서 문제를 만드세요. GitHub 문제는 최선을 다해 검토되며 일반적인 사용 질문을 위한 것이 아닙니다.

다음 단계