Brasileiro cria robô de transcrição de áudio mais baixado do mundo

Jonatas Grosman utilizou de sua curiosidade e “nerdice” enquanto passava por momento delicado para criar algo que virou febre no mundo todo.

O brasileiro Jonatas utilizou de sua curiosidade e “nerdice” enquanto passava por momento delicado em sua vida – tratando de câncer no pulmão – para criar algo que virou febre no mundo todo.

O doutor em ciências da computação criou modelo de transcrição que supera os de Facebook, Google e Microsoft, por exemplo.

O modelo foi baixado mais de 71,9 milhões de vezes no Hugging Face, plataforma de compartilhamento de códigos de IA.

Após concluir o mestrado, em 2017, Grosman mudou de tema várias vezes nos dois primeiros anos;
Decidiu-se, por fim, a identificar viés de modelo de linguagem;
O câncer de pulmão o impediu melhorar resultados existentes e o fez deixar o trabalho de lado para se tratar;
Para se distrair, ele buscou algo que envolvesse programação.

Durante suas pesquisas sobre como interagir com a rede neural (complexo sistema que tenta fazer a IA se comportar como nosso cérebro), Grosman resolveu participar de competição promovida pela Hugging Face em 2021.

No fim da disputa, ele havia construído os melhores modelos que reconhecem fala responsáveis por treinar robôs em vários idiomas (ao menos oito). Dessa forma, os robôs transcrevem o que ouviram.

Dei de cara com um trabalho do Facebook Research, agora Meta AI, que tinha relação com reconhecimento de fala, para transcrever áudio, basicamente. Eles propuseram modelo que achei interessante e comecei a implementá-lo.

O resultado fez com que ele, ao voltar ao doutorado, no ano passado, mudasse para outro tema: “Avaliando a Robustez de Grandes Modelos Pré-treinados no Reconhecimento de Fala”, o que o fez ganhar nova edição do torneio da Hugging.

Fico muito lisonjeado por ganhar as duas competições e quando vejo quantos downloads foram feitos do meu modelo.

Usando a tecnologia

Qualquer um pode baixar os meus modelos e usá-los para fins comerciais, inclusive pode ganhar muito dinheiro em cima, enquanto não ganho um centavo. Meu intuito é ajudar a galera do Open Source.

Grosman indica que a solução pode ser usada para várias atividades, como transcrição de entrevistas e produção de legendas automáticas no YouTube.

“Muita gente já entrou em contato comigo pedindo ajuda. Teve uma pessoa que pediu ajuda para usá-la para ‘laudar’ raio-x. Ela gravava o áudio do laudo e depois usava meu modelo para transcrever o áudio.”

Com o passar do tempo, ele moldou a tecnologia para identificar além de palavras comuns, transcendendo para os mundos da medicina e do call center. Hoje, já há modificações do sistema. Por exemplo, um usuário o treinou para identificar emoções nas falas.

Com ele, defini que minha tese seria na área NLP, que é, com muitas aspas, um jeito de fazer o computador entender informações, que podem vir em forma textual ou sonora. Tive que construir uma inteligência para extrair informações de textos.

Fonte