ODEIO, em maiúsculas, negrito e linkado à definição de "ódio" do Dicionário Michaelis, aos áudios do WhatsApp. Entendo que são usados, são muito práticos quando você quer dizer algo """"rápido"""" e está com as mãos ocupadas, mas se pensarmos no receptor, na pessoa que tem que ouvir o seu podcast, a realidade é que o áudio apresenta certos problemas que não podem ser ignorados: é necessário ouvir tudo para entender o conteúdo, não dá para fazer buscas, não é conciso e, principalmente, nem sempre é possível ouvir o áudio.
Esse debate, o de áudios sim e áudios não, já tivemos algumas vezes e hoje, como se um ser onipotente, chamem-no de Deus ou de engenheiro da Meta, tivesse ouvido minhas preces, fui abençoado com a chegada da última grande função do WhatsApp. Falo, claro, da transcrição automática, função que já pude testar de primeira mão. E não, não vou mais ouvir um áudio.
O problema dos áudios
São vários, mas o principal é que as mensagens de voz beneficiam enormemente o remetente, mas não o receptor. Uma mensagem de áudio curta bem poderia ser uma mensagem de texto de quatro ou cinco palavras (que são escritas em dois segundos).
Uma mensagem de voz longa poderia ser uma ligação, permitindo uma comunicação bidirecional de forma instantânea. A questão daquele áudio de cinco minutos provavelmente poderia ser resolvida em uma ligação de 30 segundos.
Além disso, ao contrário do texto, os áudios permitem a divagação desnecessária, fruto de um discurso improvisado e desestruturado. Isso faz com que a mensagem central se dilua em anacolutos, digressões, eeeeeh, mmm, um espirro agradável de ouvir, o som de um carro ou do vento, etc. Sem falar que não podem ser buscados usando o buscador do WhatsApp.
A transcrição
Para resolver esse problema, pelo menos de forma parcial, o WhatsApp lançou a transcrição automática. Ela não está disponível para todos, e seu lançamento está sendo gradual, por isso, é possível que ainda não esteja disponível no seu dispositivo.
Além disso, caso esteja disponível, ela não estará ativada por padrão. Para verificar, vá em Ajustes > Chats e veja se aparece uma opção chamada "Transcrição de mensagens de voz". Se aparecer, ative-a e baixe o pacote de idiomas, que tem cerca de 130 MB. Caso contrário, vai ser necessário esperar.

Como funciona
Uma vez configurada e ativada a transcrição, basta esperar para receber um áudio pelo WhatsApp. Ao receber, basta pressionar o mensagem, depois clicar nos três pontinhos e, por fim, em "Transcrever". O WhatsApp começará a converter o áudio em texto e o exibirá logo abaixo, em uma pequena seção.
Seria ótimo se a transcrição fosse automática e/ou com menos etapas, mas, para uma primeira versão, está excelente. Para um áudio de 30 segundos, leva cerca de quatro segundos para transcrever. Para um áudio mais longo, de cerca de quatro minutos, leva cerca de 10-15 segundos.
Como é o desempenho?
Não é perfeito, de jeito nenhum, mas funciona bem. Eu tenho um sotaque cordobês bem marcado, falo rápido (podem ver qualquer TikTok da Xataka para julgar por si mesmos) e o WhatsApp consegue transcrever meus áudios sem problemas.
Às vezes, especialmente em certos ditongos e nas conexões rápidas entre palavras, ele falha ou omite uma palavra, mas nada que impeça de entender a mensagem geral.
Testei o sistema com alguns amigos de diferentes sotaques e a experiência foi surpreendentemente positiva. Em nenhum caso foi perfeita, mas em todos os casos foi mais do que correta e suficiente para entender o conteúdo do áudio sem precisar ouvi-lo.
O WhatsApp omite algumas palavras quando são pronunciadas rapidamente e, como é comum, falha bastante ao transcrever marcas comerciais, nomes de produtos, etc.
Ao transcrever uma conversa sobre impressoras 3D, o WhatsApp não conseguiu entender palavras como Prusa ou BambuLab, mas, como mencionado, isso é totalmente normal. O que ele entende sem problemas são os xingamentos e palavrões.
E ele se indexa, parcialmente
Os áudios não são transcritos automaticamente, mas uma vez transcritos, essa transcrição permanece no chat e é tratada pelo WhatsApp como texto. O que isso significa? Que podemos usar a ferramenta de busca para encontrar áudios, com uma condição.
Não é perfeito, mas obrigado.
Longe de ser uma transcrição excepcional como as que ferramentas como o Whisper podem oferecer, o que o WhatsApp conseguiu é mais do que suficiente para reduzir a fricção dos áudios. Ouvi-los ainda será a melhor forma de entender todo o conteúdo, por causa da entonação e das emoções que só a voz pode expressar, mas a transcrição nos permitirá fazer uma leitura vertical, pegar a ideia geral e, se quisermos, economizar o tempo de ouvir um podcast não solicitado.
Ver 0 Comentários