안전 안내

생성형 인공지능 모델은 강력한 도구이지만 제한 없이 사용할 수 있습니다. 다양성과 적용 가능성은 때때로 부정확하거나 편향된 출력, 불쾌감을 준다는 의미입니다. 사후 처리와 엄격한 수동 평가가 이러한 출력으로 인한 피해 위험을 최소화해야 합니다.

Gemini API에서 제공하는 모델은 다양한 작업에 사용할 수 있습니다. 생성형 AI 및 자연어 처리 (NLP) 애플리케이션에 대해 배웠습니다. 용도 함수는 Gemini API 또는 Google AI Studio 웹을 통해서만 사용할 수 있습니다. 있습니다. Gemini API 사용에는 생성형 AI 금지된 사용도 적용됩니다. 정책Gemini API 서비스 약관.

대규모 언어 모델 (LLM)이 매우 유용한 이유 중 하나는 다양한 언어 작업을 처리할 수 있는 창의적인 도구 안타깝게도 이것은 또한 대규모 언어 모델이 사용자가 필요로 하지 않는 텍스트 포함 불쾌감을 주거나 무분별하거나 사실이 아닌 콘텐츠 또한 또한 이러한 모델의 놀라운 다양성은 생산할 수 있는 바람직하지 않은 출력의 종류를 정확하게 예측할 수 있습니다. 반면 Gemini API는 Google의 AI로 설계되었습니다 이러한 원칙을 지키기 위해 적용하는 방법을 알아보겠습니다 개발자가 안전하고 책임감 있는 콘텐츠를 Gemini API에는 일부 기본 제공 콘텐츠 필터링과 위험과 관련된 4가지 측면에서 안전 설정을 조정할 수 있습니다. 자세한 내용은 안전 설정 가이드를 참조하세요.

이 문서는 보안 위험으로 인해 발생할 수 있는 몇 가지 안전 위험을 새로운 안전 설계 및 개발을 권장하고 추천을 제공합니다 (법과 규정에도 제한이 있을 수 있으며, 이러한 고려사항은 이 가이드에서 다루지 않습니다.

LLM으로 애플리케이션을 빌드할 때는 다음 단계를 따르는 것이 좋습니다.

  • 애플리케이션의 안전 위험 이해
  • 안전 위험 완화를 위한 조정 고려
  • 사용 사례에 적합한 안전 테스트 실행
  • 사용자 의견 요청 및 사용 모니터링

조정 및 테스트 단계는 애플리케이션 성능을 향상시키는 데 도움이 될 수 있습니다

모델 구현 주기

애플리케이션의 안전 위험 이해

이 맥락에서 안전은 LLM이 특정 계층의 위험을 피하는 능력으로 유해한 언어나 콘텐츠를 생성하는 등 사용자에게 해를 끼치는 콘텐츠 고정관념을 조장하는 콘텐츠입니다 Gemini API를 통해 사용할 수 있는 모델은 Google의 AI 원칙을 바탕으로 설계됨 그리고 그것의 사용은 생성형 AI 금지된 사용'의 적용을 받습니다 정책. API 일반적인 언어 모델을 해결하는 데 도움이 되는 안전 필터가 기본 제공됩니다. 악의적인 표현, 증오심 표현, 포용성을 위한 노력 고정관념을 근절할 수 있습니다 그러나 애플리케이션마다 위험도가 떨어질 수 있습니다 따라서 애플리케이션 소유자는 사용자와 애플리케이션이 초래할 수 있는 잠재적 피해를 파악해야 합니다. 애플리케이션이 LLM을 안전하고 책임감 있게 사용하도록 만드는 것입니다.

이 평가의 일부로서, 침해가 발생할 수 있는 가능성을 고려해야 합니다. 심각성 및 완화 조치를 결정합니다. 예를 들어 사실에 근거한 사건을 바탕으로 에세이를 작성하는 앱은 허구의 콘텐츠를 생성하는 앱과 비교하여 스토리를 만들어 내는 것입니다. 잠재적인 안전 위험을 탐색하는 좋은 방법 최종 사용자 및 이들의 영향을 받을 수 있는 다른 사용자를 확인할 수 있습니다. 이는 테크의 미래 상태를 조사하는 등 다양한 형태를 띨 수 사람들이 유사한 앱을 어떻게 사용하는지 관찰하면서 앱 영역의 미술 연구를 사용자 연구, 설문조사, 비공식 인터뷰를 실시하거나 파악할 수 있습니다.

고급 도움말

  • 타겟 내의 다양한 잠재고객에게 다가가세요. 애플리케이션의 용도와 용도를 잠재적인 위험에 대한 더 광범위한 관점을 얻고 다양성을 조정해야 합니다 변경할 수 있습니다
  • AI 위험 관리 프레임워크 미국 정부에서 발표한 미국 국립표준기술연구소 (NIST)는 AI 위험 관리에 대한 자세한 안내와 추가 학습 리소스를 제공합니다.
  • DeepMind의 피해를 줄 수 있는 윤리적, 사회적 위험 를 통해 개인정보처리방침을 정의할 수 있습니다. 언어 모델이 다양한 방식으로 피해를 입힐 수 있습니다.

안전 위험을 완화하기 위한 조정 고려하기

이제 위험을 이해했으므로 위험을 완화하는 방법을 결정할 수 있습니다. 있습니다. 어떤 위험의 우선 순위를 정하고, 어느 정도를 침해하기 위해 노력해야 하는지 소프트웨어의 버그를 분류하는 것과 유사하게 살펴보겠습니다 우선순위를 결정했다면 이제 가장 적절한 완화 유형을 파악할 수 있습니다 종종 간단한 변경으로 차이를 만들고 위험을 줄일 수 있습니다

예를 들어 애플리케이션을 설계할 때 다음을 고려하세요.

  • 테스트 환경에서 허용되는 사항을 더 잘 반영하도록 모델 출력 조정 애플리케이션 컨텍스트를 사용하는 것이 좋습니다 조정을 통해 모델의 출력을 향상시킬 수 있음 예측 가능하고 일관적이므로 특정 위험을 완화하는 데 도움이 될 수 있습니다.
  • 안전한 출력을 제공하는 입력 방법 제공 정확한 입력 출력 품질이 달라질 수 있습니다 입력 프롬프트를 실험하여 비즈니스 환경에서 가장 안전한 UX를 설계하는 데 도움이 되는 UX를 제공할 수 있기 때문에 도움이 됩니다. 예를 들어 사용자가 특정 게재위치에서만 선택하도록 제한할 수 있습니다. 드롭다운 목록을 선택하거나 서술적이다 구문은 애플리케이션 컨텍스트에서 안전하게 작동합니다.
  • 안전하지 않은 입력을 차단하고 출력은 확인할 수 있습니다 간단한 상황에서는 차단 목록을 사용하여 프롬프트 또는 대답에 안전하지 않은 단어나 문구를 사용하거나 검토자가 필요함 이러한 콘텐츠를 직접 변경하거나 차단할 수 있습니다.

  • 학습된 분류기를 사용하여 각 프롬프트에 잠재적 피해 또는 적대적인 신호에 해당합니다 그런 다음 다양한 전략을 사용하여 감지된 피해의 유형에 따라 요청을 처리합니다. 예를 들어 명백히 적대적이거나 악의적인 입력은 차단될 수 있고 처방 스크립트로 작성된 응답을 출력합니다.

    고급 도움말

    • 신호가 출력이 유해하다고 판단하는 경우 애플리케이션은 다음 옵션을 사용할 수 있습니다.
      • 오류 메시지 또는 사전 스크립트 처리된 출력을 제공합니다.
      • 다른 안전 출력이 때로는 같은 프롬프트가 서로 다른 출력을 생성합니다.

  • 고의적인 오용에 대한 보호 장치 마련(예: 각 사용자에게 고유 ID를 할당하고 사용자 검색어 볼륨에 제한을 둡니다. 일정 기간 동안 제출할 수 있는 과제입니다 또 다른 보호 장치는 가능한 프롬프트 삽입으로부터 보호합니다. SQL과 유사한 프롬프트 삽입 인젝션의 하나로, 악의적인 사용자가 입력 프롬프트를 전송하여 모델의 출력을 조작 모델이 이전의 예시를 무시하도록 지시합니다. 자세한 내용은 생성형 AI 금지된 사용 정책 참조하세요.

  • 본질적으로 위험성이 낮은 것으로 기능을 조정합니다. 범위가 더 좁은 작업 (예: 인간의 감독이 더 많이 이루어지는 텍스트 (예: 짧은 형식의 텍스트 생성) 사람의 검토를 거치는 콘텐츠)의 경우 위험도가 낮은 경우가 많습니다. 따라서 이메일 답장을 작성하는 애플리케이션을 만드는 대신 대신 윤곽선에서 확장하거나 사용할 수 있습니다.

사용 사례에 적합한 안전 테스트 실행

테스트는 강력하고 안전한 애플리케이션을 빌드하는 데 있어 핵심 부분이지만 그 정도는 테스트 범위와 전략이 다를 수 있습니다 예를 들어 재미로 하는 하이쿠를 예를 들어, 생성형 AI를 설계하고 설계된 애플리케이션보다 덜 심각한 위험을 초래할 가능성이 법률 회사에서 법률 문서를 요약하고 계약서 초안을 작성하는 데 사용할 수 있습니다. 하지만 하이쿠 생성기는 다양한 사용자가 사용할 수 있습니다. 즉, 악의적 시도 또는 의도치 않은 유해한 입력에 대한 잠재력이 더 높습니다. 구현 상황도 중요합니다. 예를 들어 애플리케이션이 조치를 취하기 전에 전문가가 검토한 결과 유해한 출력을 생성할 가능성이 동일한 애플리케이션을 배포할 수 있습니다

변경과 테스트를 여러 차례 반복하는 것은 드문 일이 아닙니다. 더 빠르게 시작할 수 있으며, 이는 애플리케이션이 위험도가 비교적 낮습니다. AI에 특히 유용한 두 가지 유형의 테스트는 애플리케이션:

  • 안전성 벤치마킹에는 애플리케이션이 안전하지 않을 수 있는 방식을 다음 측정항목에서 애플리케이션이 얼마나 잘 작동하는지 테스트 모델을 학습시키는 작업도 반복해야 합니다 가장 좋은 방법은 테스트 전에 허용 가능한 수준의 안전성 측정치를 확보하여 1) 이러한 기대에 따라 테스트 결과를 평가하고 2) 중요한 측정항목을 평가하는 테스트를 바탕으로 평가 데이터 세트 있습니다.

    고급 도움말

    • '판매 기성' 접근 방식에 지나치게 의존하지 않도록 주의하세요. 평가자를 활용하여 자체 테스트 데이터 세트를 빌드해야 합니다 애플리케이션의 컨텍스트에 완전히 적합할 수 있습니다
    • 측정항목이 2개 이상인 경우 한 가지 측정항목의 변화로 인해 실적이 개선되는 경우 해를 입히는 것입니다. 다른 성능 엔지니어링과 마찬가지로 평가 전반에서 최악의 실적에 집중하는 것이 좋습니다 설정해 보겠습니다.
  • 적대적 테스트: 애플리케이션입니다. 목표는 약점들을 파악하여 적절한 조치를 취하는 것입니다. 적절한 조치를 취할 수 있습니다. 적대적 테스트는 애플리케이션에 대한 전문 지식을 갖춘 평가자들이 상당한 시간과 노력을 들이지 않아도 됩니다. 많이 할수록 문제를 발견할 가능성이 높아지고 특히 드물게 발생하거나 반복된 실행 후에만 애플리케이션입니다.

    • 적대적 테스트는 ML을 체계적으로 평가하는 방법 모델이 입력될 때의 동작을 학습하기 위한 목적으로 악의적이거나 의도치 않게 유해한 입력:
      • 입력이 명확하게 설계된 경우 악의적인 입력일 수 있습니다. 텍스트, 이미지, 오디오, 동영상 등 안전하지 않거나 유해한 출력을 생성하는 경우 특정 주제에 대한 증오성 고함을 지르는 생성 모델 믿습니다.
      • 입력 자체가 잘못된 경우 무해하지만 유해한 출력을 발생시킴(예: 특정 인종 및 민족을 가진 사람을 설명하는 인종차별 출력을 수신하는 것입니다.
    • 적대적 테스트와 표준 평가의 차이점은 테스트에 사용되는 데이터의 구성 적대적 테스트의 경우 문제가 되는 출력을 가져올 가능성이 가장 높은 테스트 데이터를 있습니다. 즉, 모델의 동작을 모든 유형의 데이터에 대해 잠재적인 피해(예: 드물거나 특이한 예 및 보안 정책과 관련된 극단적인 케이스 또한 다양성, 다양성, 다양성, 지정할 수 있습니다. Google의 책임감 있는 AI 업계의 공정성 참조하세요.

      고급 도움말

      • 사용 자동 테스트 레드팀을 모집하는 기존의 방법 대신 애플리케이션을 중단시킬 수 있습니다. 자동 테스트에서 '레드팀' 입력 텍스트를 찾아내는 또 다른 언어 모델입니다. 유해한 출력 추출

문제 모니터링

아무리 테스트를 얼마나 완화하고 완화하든 완벽을 보장할 수는 없습니다. 발생하는 문제를 발견하고 처리하는 방법을 미리 계획합니다. 일반적 사용자가 의견을 공유할 수 있도록 모니터링되는 채널을 설정하는 방법 등이 있습니다. (예: 좋아요/싫어요 평가) 및 사전 요청을 위한 사용자 연구 실행 피드백을 수집할 수 있어야 합니다. 특히 사용 패턴이 다를 수 있습니다

고급 도움말

  • 사용자가 AI 제품에 대한 의견을 제공하면 AI를 크게 개선할 수 있습니다. 실적 및 사용자 경험을 측정할 수 있습니다. 프롬프트 조정에 더 나은 예시를 선택하는 데 도움이 됩니다. 이 의견 및 관리 장 Google 사용자와 AI 가이드북 설계 시 고려해야 할 주요 고려사항 살펴봤습니다

다음 단계

  • 자세한 내용은 안전 설정 가이드를 참고하여 조정 가능한 Gemini API를 통해 사용할 수 있는 안전 설정
  • 자세한 내용은 메시지 표시 소개를 첫 번째 프롬프트를 작성하기 시작했습니다