Os sistemas de recomendação (RecSys) estão presentes na maioria das redes sociais e funcionam usando métodos estatísticos para determinar quais conteúdos cada usuário tem maior probabilidade de se engajar.
Em plataformas como a Netflix, o Spotify e o Youtube, os sistemas de recomendação são fundamentais para melhorar a experiência do usuário lidando com um catálogo tão grande de filmes, músicas e vídeos. Grande parte do conteúdo consumido nessas redes chega até o usuário por causa das recomendações que estimulam a permanência nos sites, agregando valor às plataformas pagas e aumentando o preço dos anúncios no YouTube.
E-commerces também utilizam os sistemas de recomendação para sugerir ao comprador produtos parecidos com os outros que foram visualizados ou colocados no carrinho. Isso incentiva a compra e lembra ao usuário que ele pode precisar de outros produtos relacionados. Mas nem tudo são flores, e esses sistemas também são responsáveis por algumas reclamações. O próprio YouTube já foi alvo de polêmicas porque o seu algoritmo estaria recomendando cada vez mais conteúdos extremistas e alimentando o consumo de pedofilia.
Mas como os sistemas de recomendação funcionam? E o que está por trás desses deles? A resposta para essa pergunta nem sempre é simples, mas entendendo como o sistema funciona podemos ter ideias de respostas.
Por que usar sistemas de recomendação?
Plataformas de conteúdo e e-commerces disponibilizam muitas opções para o consumidor e, ao invés dele ter acesso a uma quantidade imensa de informação, as plataformas já selecionam os produtos que ele tem mais chance de se engajar para recomendar primeiro.
Por meios das recomendações baseadas no histórico dos usuários, na similaridade entre os produtos e no que os outros usuários estão fazendo, é possível melhorar a experiência do usuário e estimular a sua permanência dentro do site. Isso agrega valor para plataformas pagas, estimula a compra nas lojas online e aumenta o valor dos anúncios nos sites gratuitos.
O que são usuários iniciais e produtos novos?
Existem os usuários iniciais, que acabaram de entrar na plataforma ou no site e ainda não têm nenhum registro de atividade que possa ser usado como base para gerar recomendações, e os produtos novos, que, da mesma forma, ainda não tem informações e por isso não entram automaticamente nos sistemas de recomendação porque não tem dados.
Para os produtos novos começarem a entrar nas recomendações mesmo sem ninguém ainda ter consumido, ele precisa se valer apenas dos metadados e as ações dos usuários ficam, inicialmente, em segundo plano. Depois de uma quantidade de informações suficiente, esse sistema pode ser trocado para que as informações dos usuários, como notas, tempo de interação com o produto, vezes em que ele foi visto, etc, possam ser usadas prioritariamente.
Como funcionam os sistemas de recomendação?
Existem vários sistemas de recomendação que usam diferentes critérios para fazer as sugestões para usuários novos e antigos. Cada um deles funciona baseado em um critério específico para fazer as recomendações, seja pela similaridade de conteúdo, pelo consumo dos outros usuários, ou uma ferramenta de machine learning que aprende e vai se adaptando às preferências de cada pessoa, reconhecendo as mudanças de gosto e se adaptando a isso.
Sistemas de recomendação baseado em conteúdo
Esse sistema de recomendação se baseia na similaridade entre os produtos ou conteúdos para fazer novas recomendações. O que isso significa? Isso quer dizer que o sistema classifica todos os produtos (filmes, músicas, vídeos, produtos vendidos, notícias etc) e recomenda itens parecidos com o que o usuário já consumiu, mesmo que ele tenha consumido apenas um item.
A vantagem desse sistema é a possibilidade de recomendar itens sem precisar de um histórico de usuário muito grande, ele atende bem plataformas em que o usuário não precisa fazer login para consumir o conteúdo. Sites de notícias por exemplo recomendam outras matérias de acordo com o que você já leu, independente do que você tenha consumido antes ou do que os outros usuários, também anônimos estão lendo.
O maior problema nesse caso é a definição do que é similar. Em uma plataforma de recomendação de músicas, por exemplo, a similaridade é definida pelo gênero? Pelas notas musicais? Pelas letras? Pela similaridade entre os artistas? Por país de origem do cantor?
Mesmo depois de definidos os critérios de similaridade, o sistema de recomendação baseado em conteúdo gera resultados que mantém os usuários em uma bolha de conteúdos muito similares, dificultando a variação que é natural do ser humano. Nossos gostos vão mudando com o tempo e uma recomendação por similaridade pode ficar cansativa para o usuário que procura coisas novas.
Filtragem colaborativa
A filtragem colaborativa resolve o problema de formar uma bolha de conteúdo parecido mas não consegue lidar tão bem com os usuários novos na plataforma.
Esse sistema de recomendação utiliza a avaliação de outros usuários sobre um determinado conteúdo para fazer as recomendações. Ele compara as notas que os usuários deram para os conteúdos: se um usuário A deu uma nota alta para dois filmes diferentes (filme 1 e filme 2) e o usuário B deu nota alta para o filme 1 e não viu o filme 2 ainda, a chance de ele gostar desse filme 2 é grande, porque eles teoricamente têm gostos parecidos, então esse filme é recomendado. Comparando as notas é possível prever se o usuário irá gostar ou não de um conteúdo específico.
Da mesma forma que o sistema reconhece usuários parecidos ele também consegue entender que dois ou mais itens são parecidos e pertencem ao mesmo universo, o que é muito útil em e-commerces. Vamos supor que vários clientes de uma loja online comprem carrinhos de bebê e fraldas, o sistema entende que estes itens pertencem ao mesmo universo e passa a recomendar fraldas para quem coloca um carrinho de bebê na sacola de compras e vice-versa, indicando itens semelhantes com base em compras já feitas por outros usuários
O problema desse sistema é com os usuários iniciais que não têm um histórico de avaliações que possa ser comparado com o de outros, impossibilitando esse sistema de funcionar. Esse sistema também não funciona para sites e plataformas em que os usuários não precisam fazer login para usar, porque sem as informações do login todos os usuários são iniciais.
Sistema híbrido
O híbrido é a junção desses dois sistemas para que eles possam balancear os pontos fortes e fracos um do outro. As listas de recomendação podem ser feitas pela junção das indicações dadas pelos dois sistemas, permitindo que o usuário inicial receba recomendações desde o primeiro momento e os usuários que já estão há mais tempo na plataforma não fiquem restritos a uma bolha de conteúdo parecidos.
Outra forma de ver essas recomendações num sistema híbrido é ter listas separadas: uma com os conteúdos mais vistos pelos outros usuários, outra feita pelas recomendações dos usuários parecidos com você (que teoricamente têm gostos parecidos) e uma outra com os conteúdos que mais se parecem com o que você já consumiu antes.
Machine learning
É usado nos sistemas de recomendação mais avançados e permite que o sistema se adapte rapidamente às escolhas e pesquisas dos usuários porque aprende as mudanças e consegue se adaptar.
Esse sistema consegue distinguir os usuários que estão realmente procurando por um item específico daqueles que estão apenas navegando pelo site. Essa distinção é importante para o sistema descartar os dados desse usuário que está navegando aleatoriamente pelos itens de uma loja por exemplo e usar somente os dados daqueles que buscam por uma categoria específica. Dessa forma as recomendações seguem um objetivo e não são aleatórias.
Os sistemas de recomendação não são criados para divulgar mais conteúdos extremistas e alimentar o consumo de pedofilia, mas esses erros acontecem por causa do uso que se faz dessas plataformas. Quanto mais se consome de um tipo de conteúdo, mais as plataformas no geral vão te recomendar conteúdo parecidos e que pessoas com um gosto parecido com o seu consideraram relevantes.
E usando o YouTube apenas pelos conteúdo recomendados você realmente fica à mercê do algoritmo de recomendação que vai mostrar os conteúdos que mais geraram engajamento, têm mais comentários, likes e dislikes, entre outros. Conteúdos extremistas geralmente apresentam vários desses aspectos engajadores e são recomendados com frequência. Precisamos pensar em maneiras de mudar a forma como a recomendação acontece para conteúdos sensíveis e definir critérios para saber quais conteúdos são sensíveis e quais não são e podem ser livremente recomendados.