Compartilhar via


Visão geral: Implantar modelos, fluxos e aplicativos Web com o Estúdio de IA do Azure

O Estúdio de IA do Azure dá suporte à implantação de LLMs (modelos de linguagem grandes), fluxos e aplicativos Web. Implantar um LLM ou fluxo o disponibiliza para uso em um site, um aplicativo ou outros ambientes de produção. Esse esforço normalmente envolve hospedar o modelo em um servidor ou na nuvem e criar uma API ou outra interface para que os usuários interajam com o modelo.

O processo de interação com um modelo implantado é chamado inferência. Inferência é o processo de aplicação de novos dados de entrada a um modelo para gerar saídas.

A inferência pode ser usada em vários aplicativos. Por exemplo, um modelo de conclusão de chat pode ser usado para preenchimento automático de palavras ou frases que uma pessoa está digitando em tempo real. Você também pode usar um modelo de chat para gerar uma resposta à pergunta "Você pode criar um itinerário para uma visita de um dia em Seattle?" As possibilidades são infinitas.

Implantando modelos

Primeiro, você pode perguntar:

  • "Quais modelos posso implantar?"

    O Estúdio de IA do Azure dá suporte à implantação de alguns dos modelos de base de visão e linguagem mais populares, com curadoria da Microsoft, do Hugging Face e do Meta.

  • "Como escolho o modelo certo?"

    O Estúdio de IA do Azure fornece um catálogo de modelos que permite pesquisar e filtrar modelos com base em seu caso de uso. Você também pode testar um modelo em um playground de exemplo antes de implantá-lo em seu projeto.

  • "De onde no Estúdio de IA do Azure posso implantar um modelo?"

    Você pode implantar um modelo no catálogo de modelos ou na página de implantação do projeto.

O Estúdio de IA do Azure simplifica as implantações. Uma seleção simples ou uma linha de código implanta um modelo e gera um ponto de extremidade de API para seus aplicativos consumirem.

Modelos do OpenAI do Azure

O Serviço OpenAI do Azure permite que você tenha acesso aos modelos OpenAI mais recentes com os recursos Enterprise do Azure. Saiba mais sobre como implantar modelos do OpenAI do Azure no Estúdio de AI.

Abrir modelos

O catálogo de modelos oferece acesso a uma grande variedade de modelos entre as modalidades. Você pode implantar determinados modelos no catálogo de modelos como um serviço com cobrança paga conforme o uso. Essa funcionalidade fornece uma maneira de consumir os modelos como uma API sem hospedá-los em sua assinatura, mantendo a segurança e a conformidade da empresa de que sua organização precisa.

Implantar modelos como APIs sem servidor

A implantação de modelo como uma API sem servidor não requer uma cota de sua assinatura. Essa opção permite que você implante seu modelo como um serviço (MaaS). Você usa uma implantação de API sem servidor e é cobrado por token de forma paga conforme o uso. Para obter mais informações sobre como implantar um modelo como uma API sem servidor, consulte Implantar modelos como APIs sem servidor.

Implantar modelos com uma infraestrutura gerenciada hospedada

Você pode hospedar modelos abertos em sua própria assinatura com uma infraestrutura gerenciada, máquinas virtuais e o número de instâncias para gerenciamento de capacidade. Há uma ampla gama de modelos do Serviço OpenAI do Azure, Hugging Face e NVIDIA. Saiba mais sobre como implantar modelos abertos em pontos de extremidade em tempo real.

Cobrança para implantação e inferência de LLMs no Estúdio de IA do Azure

A tabela a seguir descreve como você é cobrado por implantar e inferir LLMs no Estúdio de IA do Azure. Para saber mais sobre como acompanhar os custos, consulte Monitorar os custos dos modelos oferecidos por meio do Azure Marketplace.

Caso de uso Modelos do OpenAI do Azure Modelos implantados como APIs sem servidor (pagamento conforme o uso) Modelos implantados com computação gerenciada
Implantando um modelo do catálogo de modelos em seu projeto Não, você não é cobrado por implantar um modelo do OpenAI do Azure em seu projeto. Sim, você é cobrado de acordo com a infraestrutura do ponto de extremidade.1 Sim, você é cobrado pela infraestrutura que hospeda o modelo.2
Testando o modo de chat em um playground depois de implantar um modelo em seu projeto Sim, você será cobrado com base no uso do token. Sim, você será cobrado com base no uso do token. Nenhum
Testando um modelo em um playground de exemplo no catálogo de modelos (se aplicável) Não aplicável Nenhum Nenhum
Testando um modelo em um playground em seu projeto (se aplicável) ou na guia de teste na página de detalhes da implantação em seu projeto. Sim, você será cobrado com base no uso do token. Sim, você será cobrado com base no uso do token. Nenhum

1 Uma infraestrutura mínima de ponto de extremidade é cobrada por minuto. Você não é cobrado pela infraestrutura que hospeda o modelo no pagamento conforme o uso. Depois de excluir o ponto de extremidade, nenhum encargo adicional será acumulado.

2 A cobrança é por minuto, dependendo da camada do produto e do número de instâncias usadas na implantação desde o momento da criação. Depois de excluir o ponto de extremidade, nenhum encargo adicional será acumulado.

Implantando fluxos

O que é um fluxo e por que você deseja implantá-lo? Um fluxo é uma sequência de ferramentas que você pode usar para criar um aplicativo de IA generativo. A implantação de um fluxo difere da implantação de um modelo no qual você pode personalizar o fluxo com seus próprios dados e outros componentes, como inserções, pesquisa de banco de dados vetor e conexões personalizadas. Para obter um guia de instruções, consulte Implantar um fluxo para inferência em tempo real.

Por exemplo, você pode criar um chatbot que usa seus dados para gerar respostas informadas e aterradas para consultas de usuário. Quando você adiciona seus dados no playground, um prompt flow é gerado automaticamente para você. Você pode implantar o fluxo como está ou personalizá-lo. No Estúdio de IA do Azure, você também pode criar seu próprio fluxo do zero.

Seja qual for a maneira de você optar por criar um fluxo no Estúdio de IA do Azure, você pode implantá-lo rapidamente e gerar um ponto de extremidade de API para que seus aplicativos consumam.

Implantando aplicativos Web

O modelo ou fluxo que você implanta pode ser usado em um aplicativo Web hospedado no Azure. O Estúdio de IA do Azure fornece uma maneira rápida de implantar um aplicativo Web. Para obter mais informações, consulte o tutorial de chat empresarial do Estúdio de IA do Azure.

Planejando a segurança da IA para um modelo implantado

Para modelos do OpenAI do Azure como GPT-4, o Estúdio de IA do Azure fornece filtro de segurança de IA durante a implantação para garantir o uso responsável da IA. Um filtro de segurança permite a moderação de conteúdo prejudicial e confidencial para promover a segurança de aplicativos aprimorados por IA.

O Estúdio de IA do Azure oferece monitoramento de modelo para modelos implantados. O monitoramento de modelo para LLMs usa os modelos de linguagem GPT mais recentes para monitorar e alertar quando as saídas do modelo têm um desempenho ruim em relação aos limites definidos de segurança e qualidade de geração. Por exemplo, você pode configurar um monitor para avaliar o quão bem as respostas geradas do modelo se alinham com as informações da fonte de entrada ("aterramento") e correspondem de perto a uma frase ou documento de verdade básica ("similaridade").

Otimizando o desempenho de um modelo implantado

A otimização de LLMs requer uma consideração cuidadosa de vários fatores, incluindo métricas operacionais (por exemplo, latência), métricas de qualidade (ex. precisão) e custo. É importante trabalhar com cientistas e engenheiros de dados experientes para garantir que seu modelo seja otimizado para seu caso de uso específico.