ElevenLabs, uma empresa iniciante com foco em clonagem de voz de IA e API de conversão de texto em fala, lançou recentemente um novo recurso atraente: os usuários podem criar agentes de IA de conversação completos de forma independente. Esta atualização marca a transformação da ElevenLabs de um fornecedor de tecnologia de voz pura para um fornecedor de soluções de IA mais abrangente, proporcionando aos desenvolvedores um espaço de personalização sem precedentes e também anunciando uma competição mais intensa no campo do diálogo de IA. O editor de Downcodes lhe dará uma compreensão profunda do poder desse novo recurso.
Os usuários agora podem personalizar diversas variáveis do agente conversacional de acordo com suas próprias necessidades na plataforma do desenvolvedor ElevenLabs, como entonação de voz e duração da resposta.
A ElevenLabs forneceu principalmente diferentes serviços de fala e conversão de texto em fala no passado. Sam Sklar, chefe de crescimento da empresa, disse ao TechCrunch que muitos clientes já estão usando a plataforma para criar agentes de IA conversacionais. Mas integrar a base de conhecimento e lidar com as interrupções dos clientes são os maiores desafios. Então, a ElevenLabs decidiu construir um pipeline de bot conversacional completo para facilitar esse processo.
Os usuários podem começar a construir agentes conversacionais fazendo login em sua conta ElevenLabs, selecionando um modelo ou criando um novo projeto. Eles podem selecionar o idioma principal do agente, a primeira mensagem e os prompts do sistema para determinar a personalidade do agente.
Além disso, os desenvolvedores precisam escolher um modelo de linguagem grande (como Gemini, GPT ou Claude), a temperatura da resposta (determina a criatividade) e as restrições de uso de tokens.
Os usuários também podem adicionar bases de conhecimento como arquivos, URLs ou blocos de texto de acordo com suas necessidades para aprimorar os recursos do bot de conversação. Ao mesmo tempo, eles podem integrar seus próprios modelos de linguagem grandes e personalizados ao bot. O SDK da ElevenLabs é compatível com Python, JavaScript, React e Swift, e a empresa também fornece uma API WebSocket para personalização adicional.
A empresa também permite que os usuários definam critérios de coleta de dados, como nome e e-mail do cliente que falou com o agente, e utilizem linguagem natural para definir critérios de avaliação do sucesso da ligação.
A ElevenLabs está aproveitando seu pipeline existente de conversão de texto em fala, ao mesmo tempo que desenvolve recursos de conversão de fala em texto para novos produtos de IA de conversação. Atualmente, a empresa não oferece uma API separada de fala para texto, mas poderá lançá-la no futuro, competindo assim com APIs de fala para texto de empresas como Google, Microsoft e Amazon, bem como com As APIs Whisper, AssemblyAI, Deepgram, Speechmatics e Gladia da OpenAI competem.
A empresa planeja levantar uma nova rodada de financiamento avaliada em mais de US$ 3 bilhões e está competindo com outras startups de IA de voz, como Vapi e Retell, que também estão construindo agentes de conversação. Além do mais, o ElevenLabs competirá com a API de conversação em tempo real da OpenAI. No entanto, a ElevenLabs acredita que sua capacidade de personalização e a flexibilidade para trocar de modelo lhe darão uma vantagem sobre a concorrência.
Este novo recurso do ElevenLabs não apenas aumenta sua competitividade no campo de voz de IA, mas também fornece aos desenvolvedores ferramentas convenientes para construir agentes de IA conversacionais mais poderosos e personalizados. No futuro, com o lançamento da função de fala para texto e a adição de mais opções de personalização, espera-se que o ElevenLabs ocupe um lugar no campo do diálogo de IA. O editor do Downcodes continuará atento ao seu desenvolvimento.