sábado, 5 de novembro de 2011

Sabia que você está ajudando a digitalizar livros antigos?

Aumentar Letra Diminuir Letra


Uma palestra do TED informou aos mais desavisados que muitos usuários de internet estão ajudando a digitalizar livros antigos sem nem se dar conta disso. O guatemalteco Luis von Ahn fez uma apresentação sobre o sistema CAPTCHA, que ele ajudou a criar, revelando o que está por trás desse transtorno.


Você com certeza já viu aqueles códigos chatinhos que precisa digitar ao preencher um formulário, provando que é realmente um ser humano, em vez de um programa de computador com más intenções. Então, toda vez que você digita aquelas letrinhas, está ajudando a web a digitalizar livros antigos. "No total, 900 milhões de pessoas nos ajudam a digitalizar livros através dos CAPTCHA, ou seja, 10% da humanidade," Luis afirma.

O sistema funciona da seguinte maneira: os programas de OCR, que escaneiam uma página de texto para digitalizar as palavras ali contidas, não consegue distinguir algumas letras que aparecem distorcidas, talvez por causa da posição da página, da tinta gasta, do papel amarelado ou simplesmente porque o texto está em uma língua que utiliza acentos (ou cedilhas) que confundem o computador.

Assim sendo, quando digitamos algumas palavras no sistema CAPTCHA, estamos ensinando o computador a ler e aprender palavras novas que vieram de livros digitalizados, melhorando a qualidade e precisão do texto que queremos ler em um livro antigo. Pense bem, se você visitar o Google Books procurar um livro de mil setecentos e guaraná de rolha ―que já caiu no domínio público, não é impresso há décadas e hoje é distribuído livremente pela internet― o CAPTCHA teve uma mãozinha nisso.

O palestrante também explicou a relação entre essa atividade interativa e a iniciativa de traduzir a internet por meio de voluntários. Uma extensão desse projeto é o programa Duolinguo, que será lançado daqui a menos de um mês. Estou curiosa para ver como ele funciona, já que sou tradutora profissional e muito me preocupa essa ideia de que algum dia os computadores serão capazes de traduzir textos rapidamente e em qualquer idioma... Por enquanto, meu emprego está mais do que garantido, principalmente quando vemos o exemplo de tradução mecânica mostrado na palestra. Um desastre!

Outra informação muito divertida é que existe um movimento chamado CAPTCHArt, no qual usuários capturam a tela (pressionando a tecla PrintScreen ou usando um programa para esse fim) quando se deparam com uma combinação bem esquisita de duas palavras selecionadas aleatoriamente pelo sistema no rodapé de um formulário. Um exemplo mostrado pelo palestrante apresenta as palavras "invisible" e "toaster" e o usuário que estava preenchendo o formulário decidiu capturar a tela e desenhar uma "torradeira invisível" para ilustrar a obra de arte.

Confira essa palestra interessante, disponível em inglês, e leia a matéria completa, em espanhol, aqui. Além disso, diga para a gente se, daqui em diante, você vai se sentir um pouco menos incomodado com aquelas palavrinhas chatas que encontra no final de um formulário.

6 comentários:

  1. Rafa que me desculpe mas eu preferia que o emprego dele não estivesse salvo hahaha...

    O dia que esses programas de tradução automáticas forem tão bons quanto um tradutor real será um grande passo para todos, facilitando o acesso de informações para muitos que falam apenas uma língua.

    eu sei que esse processo ainda está meio precário mas evoluiu muito nos últimos anos até o google translator já faz uma tradução muito melhor do que a alguns anos atrás :D

    ResponderExcluir
  2. Oi Gabriel,

    Na verdade, eu disse que o "meu" emprego está garantido, pois eu sou tradutora profissional. O rapazinho do texto é um mero empreendedor que criou essa ferramenta poderosa que hoje é usada em tudo quanto é canto na internet (e por isso deve ter ganhado rios de dinheiro...) :-D

    Vou te dizer uma coisa: concordo com você em parte. Sim, sou a favor da democratização de informações e acredito que tradutores automáticos tenham o seu lugar no mundo, desempenhando esse papel de estreitar os conhecimentos entre povos de culturas e línguas diferentes. Como usuário, todos têm o direito de ir lá, jogar alguma coisa que não entendem no tradutor do Google e consumir aquele produto ao seu próprio risco.

    Entretanto, sei que o trabalho feito por um computador não se iguala ao de um ser humano pensante, portanto a qualidade técnica do texto final deixa muito a desejar. Sou contra o uso de máquinas de tradução quando a comunicação oficial está envolvida no jogo, ou seja, quando empresas tentam expandir seus negócios para outros países e não querem liberar orçamento para tradução, apelando então para as opções gratuitas. Aí sim a comunicação é que sai perdendo, porque o público não recebe as informações com a qualidade que merece.

    Quanta gente eu conheço aqui na Califórnia que deixou de adquirir os produtos e serviços de uma empresa que tem um péssimo site ou rótulo / etiqueta em espanhol? Muitos se sentem bastante injustiçados, vítimas do preconceito linguístico. Esses consumidores merecem informações corretas para decidir o que querem comprar, além de instruções exatas sobre como usar um produto sem correr nehum risco sério. Imagine só as possibilidades negativas de uma má tradução...

    Dizem que daqui a 20 anos o computador vai poder traduzir textos perfeitamente. Eu literalmente pago para ver, então vamos esperar para conferir até onde a tecnologia vai chegar.

    Abraços,
    Rafa Lombardino
    rlombardino@gmail.com

    ResponderExcluir
  3. Também não acredito em trabalhos 100% automatizados com resultado perfeito quando o assunto é comunicação (mesmo que não no sentido técnico da coisa, como meio de comunicação). Há sutilezas que interferem no entendimento e variam com o contexto e isso dificilmente poderia ser programado com perfeição. De todo modo, achei muitíssimo interessante essa sacada... sequer desconfiava disso.

    ResponderExcluir
  4. Será mesmo? Se o sistema ainda não sabe a priori o que está escrito no captcha porque o OCR falhou, como ele saberá que digitamos errado ou não?

    ResponderExcluir
  5. Gama, vou fazer uma suposição, acredito que o ocr não determinou qual a letra, mas restringiu as opções para 2 ou 3 possíveis, ela pode até já ter reconhecido parte da palavra.
    Além disso a palavra é submetido para muitas pessoas, então o programa determina pelas opções válidas aquela que foi mais "votada"
    acredito que seja algo assim.

    ResponderExcluir
  6. É isso mesmo, Paulo. Assisti ao palestrante falando sobre o assunto na apresentação TED e ele disse que é uma iniciativa coletiva de seres humanos treinando a máquina a ler, então uma palavra pode ser enviada a várias pessoas e, mesmo que uma delas digite algo incorreto, o que foi digitado pela maioria acaba valendo.

    ResponderExcluir