Como o Skype vai aprender a traduzir o que você diz enquanto você fala
O Skype lançou um aplicativo capaz de traduzir conversas em tempo real (ou quase). Para isso, precisou buscar avanços em uma área da inteligência artificial. Outras empresas tentam o mesmo
REDAÇÃO ÉPOCA
O indiano Gurdeep Pall, vice-presidente da Microsft encarregado do
Skype, participava de uma conferência de tecnologia na Califórnia quando
decidiu ter uma conversa digna de um filme de ficção científica. Abriu
seu notebook e, usando o Skype, chamou uma colega sua, funcionária da
Microsoft na Alemanha. O tema do papo que se seguiu, na verdade, foi um
bocado banal. “Oi Diana, tudo bom?”, perguntou ele, num inglês rápido,
carregado de sotaque. “Tudo bem, meu amigo. É verdade que você vai se
mudar para Londres?” respondeu Diana em perfeito...alemão. Todos se
entenderam muito bem, obrigado. À medida que falavam, o Skype traduzia o
que Diana e Pall diziam. Com essa brincadeira, feita na noite de
terça-feira (27), a Microsoft mostrou ao mundo seu novo serviço de
tradução simultânea. “Funciona de um jeito mágico”, disse o CEO da
Microsoft Satya Nadella, presente ao evento, sobre o Skype Translator.
“Ele vai aprendendo com o tempo. Como se fosse um cérebro humano”.
>>A reinvenção da Nokia e o primeiro dia de trabalho na Microsoft Mobile
Your browser does not support iframes.
>>A reinvenção da Nokia e o primeiro dia de trabalho na Microsoft Mobile
Your browser does not support iframes.
A ideia é tornar o Skype Translator disponível para usuários de Windows 8 até o final de 2014. A Microsoft trabalha nele há pelo menos 15 anos. O aplicativo demorou a ficar pronto porque, para funcionar, precisou primeiro que um novo tipo de computador fosse desenvolvido – um computador que, tal qual Nadella disse, conseguisse imitar o funcionamento de um cérebro humano.
Os programas que você usa no trabalho, ou para se divertir em casa, guiam-se por uma lógica de programação linear. Basicamente, respondem a instruções previamente dadas: “se o usuário apertar tal botão, tal coisa vai acontecer”. O aplicativo de tradução do Skype é mais complexo. Para funcionar direito, precisa, primeiro, ser capaz de reconhecer a voz do usuário. Depois, entender o sentido de cada palavra no contexto em que foi usada. Tornou-se possível graças aos avanços em um campo da computação conhecido como “deep learning”. Programas desse gênero criam “redes neurais”. A intenção, com isso, é tentar fazer com que um computador imite o cérebro na sua capacidade de reconhecer padrões e relacionar informações. Assim, as máquinas seriam capazes de aprender – ou quase – à medida que analisam maior quantidade de dados.
>>Satya Nadella assume o comando da Microsoft
Pense em um daqueles scanners de preços, usados em supermercados. Ele leem códigos de barras para reconhecer produtos já cadastrados no sistema. Entendem que dada sequência de risquinhos equivale a um pote de iogurte grego que custa R$2,00. Sempre que vir aquela sequência de risquinhos, o computador vai entender que o cliente quer comprar um potinho de iogurte. Mas só se a sequência for exatamente igual a que foi cadastrada no sistema.
A ideia do deep learning é eliminar o código de barras. Se um desavisado tentar passar uma tartaruga pelo scanner, o computador não vai entender o que houve, porque ninguém nunca cadastrou no sistema um código para representear esse animal. O deep learning permite que o scanner veja o bicho, aprenda que aquilo é uma tartaruga, e torne-se capaz de reconhecer um exemplar da espécie sempre que o vir, seja a tartaruga grande ou pequena, verde ou amarela.
Hoje, programas com essa capacidade são vistos como um novo importante ramo da Inteligência Artificial. Estudos a seu respeito são realizados desde o início da década de1980, mas não tiveram muito impacto fora da academia até, pelo menos , a metade da década de 2000. Foi o tempo necessário para que computadores suficientemente poderosos se tornassem baratos o bastante para que as empresas vissem as aplicações práticas daquelas pesquisas. Além da Microsoft, empresas como Google e Netflix se lançaram nesse campo. O Google contratou , em março de 2013, Geoffrey Hinton, pioneiro no ramo. O Facebook buscou os serviços do guru Yann LeCun e o Netflix tenta aplicar as técnicas para melhorar o algoritmo usado para recomendar aos usuários o que assistir.
O deep learning foi importante para o Skype porque tradução é uma tarefa mais complicada do que pode parecer a princípio. Qualquer pessoa que já tenha tentando traduzir um texto usando o Google tradutor experimentou o desapontamento de terminar com um resultado quase tão incompreensível quanto o texto original. Trechos longos, pontuados por gírias e expressões linguísticas, são um desafio para sistemas de tradução, por mais completos que sejam seus dicionários. As palavras não são como código de barras e, dependendo do contexto em que são utilizadas, têm significados diferentes. Traduzir um texto falado é ainda mais complicado. Enquanto falamos, espalhamos por nossas frases pausas sem função gramatical. A respiração, a entonação...tudo isso atrapalha a difícil tarefa de dividir o que falamos em períodos - e dar sentido a eles.
Para que aprendesse a traduzir, o Skype precisou ser abastecido com dados sobre como as pessoas falam. Para fazer isso, o time da Microsoft recorreu às redes sociais. “A maneira como as pessoas escrevem nas redes sociais não é igual à maneira como elas falam, mas há algumas semelhanças nas gírias e variações que podem ajudar o sistema” disse Arul Menezes, chefe do time de tradução da Microsoft.
Quem já tentou (ou está tentando) fazer o mesmo
Outras empresas tentam criar ferramentas semelhantes. Em 2010, o Google anunciou trabalhar em um aplicativo para celulares Android que traduziria conversas em tempo real. À época, a empresa estava confiante de que, em poucos anos, a tecnologia estaria pronta: “Achamos que a tradução de voz-para-voz pode tornar-se possível e funcional em alguns poucos anos”, disse Fraz Och, o responsável do Google pelos serviços de tradução. “Claramente, para que isso funcione bem, você precisa de uma combinação de máquinas de tradução muito precisas com ferramentas de reconhecimento de voz muito precisas, e é no que estamos trabalhando”. O produto final do Google ainda não veio à tona. Mas, em 2011 – um ano depois das primeiras declarações de Och a respeito – a empresa disponibilizou um aplicativo para usuários Android que oferecia um lampejo disso. O programa reconhece a voz do usuário e traduz suas frases do inglês para o espanhol. Durante uma demonstração do serviço ainda em 2010, o brasileiro Hugo Barra teve alguma dificuldade para colocar o app para funcionar em uma conversa em inglês-alemão.
RC
Nenhum comentário:
Postar um comentário