O Laboratório de Pesquisa de código aberto francês Kyutai lançou recentemente um modelo multimodal chamado Moshi. O lançamento de Moshi demonstra o enorme potencial da tecnologia de IA na interação de voz e raciocínio em tempo real, trazendo uma nova experiência aos entusiastas da IA em todo o mundo.
No início da manhã de 4 de julho, Kyutai anunciou oficialmente o nascimento de Moshi por meio de seu site oficial. Este modelo tem a mesma funcionalidade que o GPT-4O da OpenAI e pode executar perguntas e respostas em tempo real. No entanto, diferentemente do modo de voz do GPT-4O que precisa esperar até o outono ser totalmente aberto, Moshi foi aberto ao público, o que a torna uma estréia no mercado.
Os principais recursos da Moshi incluem sua capacidade multimodal, ou seja, é capaz de ouvir as perguntas de voz do usuário e realizar respostas de inferência em tempo real. Além disso, o modo de voz de Moshi foi totalmente aberto e, comparado ao plano de lançamento do outono do GPT-4O, o Moshi fornece aos usuários uma experiência mais rápida. Mais importante, o Moshi não tem restrições regionais e pode ser usado por usuários em todo o mundo e suporta telefones celulares.
Kyutai também planeja abrir o Moshi e publicará código, pesos e trabalhos de modelo.
O lançamento de Moshi é sem dúvida uma tentativa ousada à tecnologia de IA. Ele não apenas tem a capacidade de ouvir e falar, mas também pode mostrar a capacidade de ver no futuro, o que nos faz esperar o futuro da IA. O processo de uso do Moshi é muito simples.
Vale ressaltar que o apoio de Moshi ao mandarim precisa ser melhorado, e fazer perguntas em inglês proporcionará uma experiência melhor. Além disso, Moshi não está trancado e pode ser usado diretamente, não importa onde você esteja, o que, sem dúvida, proporciona uma grande conveniência para os entusiastas da IA em todo o mundo.
Esse movimento do laboratório de Kyutai também mostra sua persistência no espírito de código aberto. Eles planejam abrir Moshi em breve, publicar código, modelos de pesos e trabalhos, para que desenvolvedores e pesquisadores de todo o mundo possam participar do desenvolvimento e otimização de Moshi.
Em termos de experiência de uso, a velocidade de resposta de Moshi é extremamente rápida e, mesmo quando usada em rotas nacionais, pode responder a perguntas quase sem demora. Atualmente, o Moshi apóia principalmente o inglês e o francês, e o apoio ao mandarim chinês precisa ser aprimorado. O processo de registro é simples, basta enviar seu endereço de e -mail. Moshi demonstra a capacidade de ouvir e falar e também pode aumentar a capacidade de assistir no futuro. O tom antropomórfico de Moshi é uma de suas principais características, com muito pouco cheiro de máquina, o que torna a experiência da conversa mais natural e suave.
Obviamente, as respostas atuais de Moshi ainda são relativamente limitadas e só podem fornecer um esboço e um resumo geral. Mas com a iteração e otimização contínuas dos produtos, acreditamos que a resposta de Moshi se tornará mais detalhada e precisa.
Além disso, o lançamento de Moshi terá um impacto profundo na indústria educacional. Por exemplo, a IA pode fornecer aos alunos explicações circulares, o que é enorme para a educação. Estamos ansiosos por produtos mais semelhantes no futuro, apoiando mais idiomas locais e tornando a tecnologia de IA mais próxima da vida das pessoas.