Muitos editores, agentes e autores ainda encaram a inteligência artificial com desconfiança: receiam que algoritmos substituam parte da criatividade humana ou diluam a qualidade do catálogo. Essa discussão sobre como usar IA no processo de produção editorial, porém, é secundária diante de um fato mais urgente. Os grandes modelos de linguagem — GPT-4, Claude, Gemini, Mistral e afins — já ‘lêem’ milhões de livros publicados para construir o seu próprio conhecimento interno; em outras palavras, a IA já depende estruturalmente dos conteúdos que o setor livreiro produz.
Reconhecer isso muda o eixo do debate. Se as máquinas são treinadas com obras protegidas por copyright, mas esse uso não gera qualquer repasse de royalties, a questão central deixa de ser “devemos usar IA nos livros?” e passa a ser: “Inteligências Artificiais são treinadas com livros, mas não pagam direitos autorais.”
O que são tokens e sua relação com palavras e textos
Tokens são unidades básicas de texto que os modelos de linguagem processam. Em vez de ler palavras inteiras de uma vez, um modelo quebra o texto em tokens – que podem ser uma palavra curta, parte de uma palavra longa, um sinal de pontuação ou outro símbolo. Em média, na língua inglesa por exemplo, cada palavra corresponde a cerca de 1,3 tokens (ou inversamente, 1 token equivale a ~0,75 palavra). Uma frase de 10 palavras pode ter em torno de 15 tokens após a ‘tokenização’. Da mesma forma, um parágrafo de algumas frases terá dezenas de tokens, enquanto um livro inteiro (com dezenas de milhares de palavras) conterá centenas de milhares de tokens.
Para dimensionar: um romance típico com ~100 mil palavras teria da ordem de ~150 mil tokens. Livros muito extensos podem chegar a ~200 mil tokens – por exemplo, estima-se que 150 mil palavras (aproximadamente o tamanho de O Senhor dos Anéis) correspondam a cerca de 225 mil tokens. Em larga escala, todos os livros únicos digitalizados (cerca de 26 milhões de títulos) poderiam somar algo como 5 trilhões de tokens de texto. Esses números ilustram a granularidade: tokens representam pedaços de informação linguística menores que palavras, mas que juntos formam frases, parágrafos e livros completos. Os modelos de IA operam nesse nível token a token – tanto no treinamento (predizendo o próximo token) quanto na geração de respostas.
Principais modelos de IA e seu volume de uso comercial
Nos últimos anos, modelos de linguagem de grande porte (LLMs) como GPT-4, Claude e outros tiveram uma adoção massiva, impulsionando um enorme volume de uso em aplicações comerciais. A seguir reuni dados públicos sobre alguns desses modelos, incluindo base de usuários e tokens processados em suas operações:
- OpenAI GPT-4 / ChatGPT | Lançado publicamente via ChatGPT, alcançou uma base de usuários sem precedentes. Em abril de 2025, estimava-se que o ChatGPT atingiu ~800 milhões de usuários (aproximadamente 1 em cada 10 pessoas no planeta). Essa popularidade se reflete no tráfego: por volta de fevereiro de 2025 o site recebia 5,2 bilhões de visitas mensais, com mais de 1 bilhão de consultas por dia sendo processadas. Cada consulta pode envolver múltiplos tokens de entrada e saída, o que faz o volume diário de tokens ser astronômico. De fato, o CEO da OpenAI revelou no início de 2024 que seus sistemas já geravam cerca de 100 bilhões de palavras por dia – o que equivale a aproximadamente 4 trilhões de tokens por mês. Esse ritmo de utilização é milhões de vezes maior que o de um usuário individual, e demonstra como os LLMs se tornaram onipresentes em assistentes virtuais, buscas, produtividade e outros serviços.
- Anthropic Claude | Modelo da Anthropic (startup fundada por ex-pesquisadores da OpenAI), o Claude também ganhou adoção significativa, embora em escala menor que o ChatGPT. No início de 2025, estimava-se que o Claude alcançou cerca de 18,9 milhões de usuários ativos mensais, através de sua interface pública e integrações empresariais. A Anthropic foca em parcerias B2B, oferecendo o Claude via API e em plataformas como ferramentas de atendimento ao cliente. Seu uso em tokens não é divulgado abertamente, mas dados financeiros dão pistas: a empresa reportou US$850 milhões de receita anualizada em 2024, projetando US$2,2 bilhões em 2025 – valores que sugerem um volume considerável de chamadas à API (cobradas por token) por clientes comerciais.
- Google Gemini | O Google integrou modelos de linguagem em grande escala aos seus produtos, especialmente em recursos de busca avançada (Search Generative Experience) e no antigo chatbot Bard (baseado inicialmente no modelo PaLM 2 e avançando para o Gemini). Por ter uma base de usuários de busca já na casa dos bilhões, o consumo de tokens dos modelos do Google explodiu em 2024-2025. Dados apresentados pela empresa indicam que o número de tokens gerados mensalmente pelos sistemas de IA do Google saltou de ~9,7 trilhões em abril de 2024 para cerca de 90 trilhões em dezembro de 2024, atingindo ~480 trilhões em abril de 2025. Esse crescimento de ~50 vezes em um ano reflete a rápida incorporação de IA generativa em vários serviços (busca, Workspace, etc.) e a escala massiva de usuários envolvidos.
- Modelos abertos (ex.: Mistral) | Além dos serviços comerciais de grandes empresas, há também modelos de IA de código aberto ganhando tração. A startup europeia Mistral AI, por exemplo, lançou em 2023 o Mistral 7B, um modelo com 7 bilhões de parâmetros disponibilizado sob licença Apache 2.0 (uso irrestrito). Apesar do tamanho relativamente menor, o Mistral 7B surpreendeu por superar modelos maiores (como LLaMA-2 13B da Meta) em vários testes. Por ser aberto e grátis, modelos desse tipo são baixados e rodados localmente por desenvolvedores e empresas, ampliando o uso de IA em soluções customizadas. Estimativas da comunidade indicam que o Mistral (versão de treino básico) foi exposto a ‘alguns trilhões’ de tokens durante seu treinamento. Embora modelos open-source não divulguem ‘base de usuários’ nos mesmos termos, a adoção pode ser medida por downloads e implantações. O sucesso do Mistral 7B (e de outros como LLaMA, Falcon, etc.) mostra que há um ecossistema crescente de IA generativa além dos provedores comerciais, contribuindo para o consumo global de tokens em aplicações diversas.
Os principais modelos de IA já atendem centenas de milhões de usuários e processam trilhões de tokens mensalmente. Serviços como o Azure OpenAI (que hospeda o GPT-4 na nuvem Microsoft) registraram 100 trilhões de tokens processados em um trimestre de 2025 (Q3), com 50 trilhões apenas no último mês desse período. A indústria como um todo caminha para escalas ainda mais altas – a Microsoft reporta crescimento de 5 vezes ano a ano em uso, e o Google já alcança perto de 1 quatrilhão de tokens mensais em 2025. Esse enorme volume de texto gerado e consumido por IA tem implicações diretas sobre os dados de treinamento usados para alcançar tal capacidade, em especial os textos de livros.
Por que livros são fontes ideais de dados para treinar modelos de Inteligência Artificial
Livros publicados são considerados insumos de altíssimo valor para treinar modelos de linguagem, por vários motivos de qualidade e conteúdo:
- Qualidade editorial e coerência | Diferentemente de páginas web (muitas vezes curtas ou informais), os livros oferecem texto de longa extensão, bem estruturado e revisado. Eles apresentam narrativa consistente ao longo de capítulos inteiros, diálogos cuidadosamente construídos e um desenvolvimento aprofundado de ideias. Essa riqueza aparece em gêneros diversos – romances, biografias, ensaios, textos técnicos –, todos com linguagem mais cuidada e consistente do que conteúdo casual da internet. Em suma, livros fornecem aos modelos textos longos e bem-compostos, contendo storytelling, diálogos e estilos variados que diferem de artigos da web. Essa coesão e polimento linguístico ajudam o modelo a aprender padrões de escrita de alta qualidade, melhorando sua capacidade de gerar respostas fluentemente e com lógica de longo prazo.
- Profundidade informacional | Livros (especialmente não-ficção) costumam mergulhar mais fundo nos assuntos do que posts online ou notícias curtas. Obras enciclopédicas, livros acadêmicos e técnicos contêm conhecimento denso e detalhado, enquanto literatura clássica e contemporânea traz referências culturais, históricas e nuances de linguagem. Para um modelo de IA que visa ser geral, treinar em livros amplia sua base de conhecimento e entendimento de contexto. Um romance histórico pode ensinar fatos e estilos da época; um livro de ciência pode prover explicações formais sobre conceitos difíceis – tudo isso enriquece o ‘estoque’ de informações internas do modelo.
- Linguagem diversa e estilo | O conjunto de todos os livros publicados engloba uma imensa variedade de estilos autorais, vocabulário e estruturas narrativas. Isso inclui desde prosa clássica do século XIX até gírias e dialetos modernos em ficção contemporânea, passando por poesia, peças teatrais, etc. Essa diversidade é valiosa para a IA aprender tons e vozes diferentes, adaptando-se melhor a pedidos dos usuários. Livros traduzidos ou multilíngues podem ajudar o modelo a dominar outros idiomas com alta qualidade de texto (já que traduções publicadas são revisadas). Assim, livros contribuem para a riqueza linguística e cultural dos dados de treinamento, reduzindo vieses de estilo unicamente informativo ou curto (típico de web).
- Conteúdo narrativo longo | A habilidade de manter coerência em longas passagens é crucial para LLMs, e livros são a fonte ideal para todo esse processo. Durante o treinamento, apresentar capítulos inteiros de um romance, por exemplo, força o modelo a capturar dependências de longo alcance – lembrando detalhes de enredo e personagens ao longo de centenas de frases. Isso não seria possível treinando apenas com tweets ou artigos curtos. Como resultado, modelos expostos a livros tendem a gerar textos mais coesos e contextualizados quando precisam produzir várias páginas de resposta (como um ensaio, uma história ou análise aprofundada).
Devido a esses fatores, as empresas por trás dos LLMs efetivamente incorporaram livros nos conjuntos de treino sempre que possível. A OpenAI, por exemplo, utilizou dois grandes conjuntos conhecidos como “Books1” e “Books2” no treinamento do GPT-3, totalizando cerca de 16% dos tokens de todo o dataset de GPT-3. Da mesma forma, a Meta incluiu livros de domínio público (Projeto Gutenberg) e um corpus amplo de livros digitalizados (conhecido como Books3) para treinar o LLaMA-1 – somando aproximadamente 85 GB de texto de livros (cerca de 4,5% dos tokens de treinamento) nesse modelo.
Em outras palavras: mesmo modelos treinados principalmente com dados da web usam uma porção significativa de livros para elevar a qualidade. Livros geralmente têm ‘alta fidelidade (capítulos completos em ordem) e consistência’, cobrindo tanto ficção quanto não-ficção de maneira estruturada – características essenciais para ensinar a IA a gerar respostas com começo, meio e fim bem concatenados.
Vale notar, porém, que essa prática não é isenta de controvérsia. Muitos livros disponíveis para IA foram obtidos em repositórios shadow libraries (bibliotecas piratas) sem autorização dos autores. O conjunto Books3, por exemplo, contém 183 mil livros obtidos de fontes piratas e sabemos que empresas como Meta, EleutherAI e Bloomberg utilizaram esse dataset para treinar modelos.
Há atualmente processos jurídicos em andamento nos EUA movidos por escritores que descobriram suas obras nesses datasets. Autores como Sarah Silverman (entre outros) entraram com ações coletivas alegando que sistemas como o ChatGPT e o LLaMA foram treinados em seus livros ilegalmente obtidos. Esse quadro levou algumas empresas a adotarem maior cautela: hoje busca-se filtrar ou licenciar conteúdo de livros para evitar violações de copyright. Ainda assim, o consenso técnico é que livros, quando disponíveis, são insumos valiosos – e a própria escala de uso nas IA (16% dos dados aqui, 4-5% ali) confirma o peso que literatura e obras escritas têm na formação dessas inteligências artificiais.
Como as empresas de IA usam livros no treinamento e geração de modelos
Os modelos de linguagem utilizam livros de duas formas principais: (1) durante o treinamento, para aprender padrões linguísticos e fatos, e (2) na geração de texto, reproduzindo e combinando conhecimentos adquiridos (inclusive os originados de livros).
Durante o treinamento de um LLM, enormes corpora de texto são alimentados no modelo para que ele aprenda por auto-supervisão. O objetivo de treinamento típico é fazer o modelo prever a próxima palavra (ou próximo token) em um texto qualquer. Nesse processo, livros atuam como exemplos de alta qualidade: o modelo lê um trecho de romance ou de livro informativo token por token e tenta adivinhar a continuação.
Por exemplo, se o trecho de entrada for “Alice was beginning to get very tired of sitting by her sister on the bank, and of having nothing to do…” o modelo deve prever que o próximo token provavelmente corresponde a “once” (como em “once or twice she had peeped into the book…” do Alice no País das Maravilhas). Embora não saiba que se trata exatamente desse livro, o modelo usa as regularidades estatísticas aprendidas para continuar o texto de forma plausível.
Ao expor milhões de frases e parágrafos de livros, o treinamento ajusta bilhões de parâmetros internos da rede para codificar: vocabulário extenso, gramática sofisticada, estilos narrativos, fatos do mundo real, estruturas de argumento, desenvolvimento de personagens, etc. Assim, a IA aprende ‘como escrever’ e ‘sobre o que escrever’ de uma maneira influenciada por livros.
Um ponto importante: modelos atuais não armazenam explicitamente capítulos inteiros de um livro de forma recuperável (não há um banco de dados interno de textos memorizados). Em vez disso, eles abstraem padrões. Por exemplo, depois de treinar, o modelo ‘sabe’ imitar o estilo de Shakespeare ou responder perguntas de história, não porque guarde um trecho exato de um livro didático, mas porque ajustou seus pesos via exposição a muitos exemplos dessas categorias.
No entanto, todo o conhecimento factual e linguístico contido nos livros de treino fica implícito nos parâmetros. Se um usuário perguntar ao modelo algo como “Explique a teoria da relatividade”, a resposta gerada poderá refletir trechos conceituais que estavam em algum livro científico do conjunto de treinamento – sem citar o livro, mas aproveitando sua explicação. Em outras palavras, os modelos usam livros como insumo para aprender, e depois reutilizam essa aprendizagem ao gerar saídas inéditas.
Durante a geração de texto para usuários, a influência dos livros também é perceptível. Quando o ChatGPT ou Claude cria uma história longa sob comando do usuário, ele está se baseando em todos os padrões narrativos assimilados de romances e contos que leu durante o treinamento. Da mesma forma, se questionado sobre um fato histórico obscuro, o modelo pode respondê-lo corretamente porque em seu treinamento havia livros de história cobrindo aquele tópico. Até a capacidade dos modelos completarem código de programação se deve, em parte, a terem lido muitos manuais e livros técnicos (além de código-fonte).
Em suma, os livros servem de ‘fertilizante’ intelectual para a IA: alimentam o modelo com conteúdo estruturado e verificado, que depois floresce em respostas mais confiáveis e bem escritas.
Do ponto de vista do uso comercial, isso significa que as respostas valiosas dadas pela IA estão, em parte, apoiadas em trabalho intelectual de autores e editoras. Um usuário que obtém um resumo de um livro clássico via IA, ou que usa o modelo para gerar um capítulo de novela no estilo de certo autor, está se beneficiando diretamente do fato de que o modelo viu textos literários semelhantes durante o treinamento. Essa dinâmica – extração de informação e estilo de livros para atender consultas – levantou a questão: os criadores daqueles livros deveriam ser compensados pelo uso de suas obras na IA? Muitos autores e entidades do setor editorial argumentam que sim, especialmente quando há lucro envolvido na operação do modelo.
Uso de acervos digitais de livros no treinamento de modelos de IA
Os modelos modernos de inteligência artificial baseados em linguagem, como o GPT-4, Claude ou Mistral, dependem de volumes enormes de textos para seu treinamento. Nesse contexto, acervos digitais com vastas coleções de livros despontam como fontes valiosas de dados. Exemplos notáveis incluem:
- Biblioteca do Congresso (EUA) | o maior acervo bibliográfico mundial, com milhões de obras (muitas já digitalizadas);
- Biblioteca Digital da China | um dos mais extensos repositórios digitais mantido pelo governo chinês;
- Google Livros | projeto do Google com milhões de títulos escaneados e texto pesquisável;
- Amazon Kindle | plataforma comercial de eBooks com um catálogo global de obras modernas;
- Europeana | biblioteca digital europeia reunindo obras culturais e históricas de diversos países;
- Portal Domínio Público (MEC, Brasil) | repositório de obras em domínio público disponibilizado pelo governo brasileiro;
- Biblioteca Digital da UNESCO | coleção internacional de obras digitalizadas com apoio da UNESCO.
Esses acervos reúnem milhões de livros que abrangem desde clássicos da literatura até publicações técnicas e contemporâneas. Modelos de IA de última geração provavelmente utilizam partes consideráveis desse conteúdo em seu treinamento para alcançar ampla cobertura de idiomas, estilos e conhecimentos.
Investigações recentes inferiram que sistemas como o GPT-4 demonstram familiaridade impressionante com obras famosas – de clássicos literários (como Moby Dick, O Morro dos Ventos Uivantes) a best-sellers modernos (como Harry Potter, O Código Da Vinci e até Cinquenta Tons de Cinza). Chamou atenção também a forte presença de títulos de ficção científica e fantasia nesse repertório, incluindo autores como J. R. R. Tolkien, Ray Bradbury, Philip K. Dick, George R. R. Martin, entre muitos outros. Esse panorama sugere que grandes coleções de livros digitais disponíveis na internet têm servido de matéria-prima para treinar os modelos de linguagem mais avançados.
É importante notar que cada um desses acervos digitais é controlado por uma entidade específica, responsável pela curadoria e administração do catálogo. Isso significa que o acesso ao conteúdo depende das políticas de cada entidade. Alguns repositórios oferecem acesso gratuito e irrestrito ao público – geralmente quando se trata de obras em domínio público ou projetos de acesso aberto. É o caso, por exemplo, de iniciativas governamentais e multilaterais (como o Portal Domínio Público brasileiro, a biblioteca digital da UNESCO ou coleções públicas da Biblioteca do Congresso). Essas plataformas gratuitas permitem que qualquer interessado leia e utilize os textos livremente, tornando-os candidatos naturais a integrarem conjuntos de dados de treinamento de IA sem barreiras legais.
Há acervos comerciais ou restritos, cujo conteúdo é acessível apenas mediante compra, assinatura ou acordos específicos – por exemplo, os livros disponíveis no Amazon Kindle (protegidos por DRM e sujeitos a licença de uso) ou muitos títulos do Google Livros (que só exibem trechos, a menos que se tenha permissão dos detentores de direitos). Nesses casos, o catálogo é amplíssimo, porém controlado privadamente, exigindo autorização explícita ou parcerias comerciais para uso em larga escala. Em suma, enquanto alguns acervos digitais de livros são abertos por natureza, outros permanecem fechados ou licenciados, refletindo modelos de negócio distintos no mundo editorial. Essa distinção é crucial ao avaliar como esses repositórios podem alimentar modelos de IA – seja de forma legítima (via obras livres ou acordos) ou através de meios questionáveis (como vazamentos e cópias não autorizadas).
Um aspecto central desse debate é que os modelos de linguagem transformam todo esse conteúdo textual em valor comercial direto. As empresas que fornecem IA generativa costumam monetizar seus modelos cobrando pelo volume de texto processado ou gerado – em geral medido em tokens (fragmentos de palavras) usados em cada interação. Por exemplo, a OpenAI (criadora do GPT-4) cobra pelo uso de seus modelos com base no número de tokens processados, com preços variando conforme o modelo escolhido.
Quanto mais conhecimento um modelo adquire de livros e outras fontes, mais útil ele se torna e mais tokens os usuários tendem a gastar em consultas e tarefas complexas. Em outras palavras, o conteúdo proveniente desses vastos acervos literários é convertido em respostas e soluções fornecidas pela IA, pelas quais os clientes pagam. Cada vez que um usuário solicita um resumo de um romance clássico ou uma explicação sobre um conceito científico presente em livros, o sistema gera tokens de saída baseados nos dados absorvidos durante o treinamento – e esses tokens têm custo monetário. Esse modelo de cobrança por uso significa que o conhecimento extraído de milhões de livros acaba por gerar receita financeira diretamente para as empresas de IA. A riqueza informacional dos acervos, portanto, se traduz em valor econômico, já que aprimora a capacidade do modelo e atrai mais usuários dispostos a pagar por suas respostas.
No entanto, surge aqui uma questão delicada: todo esse uso intensivo de livros no treinamento das IAs vem ocorrendo sem que haja pagamento proporcional de royalties aos autores e editoras das obras originais.
Diversos casos recentes indicam que empresas de tecnologia utilizaram catálogos massivos de livros sem autorização dos detentores de direitos. Um exemplo emblemático que faço questão de repetir foi a revelação de um conjunto de dados com aproximadamente 191 mil eBooks obtidos de fontes pirateadas, conhecido como Books3, que foi empregado no treinamento de sistemas de IA de empresas como a Meta (Facebook) e a Bloomberg. Obras contemporâneas publicadas nas últimas décadas foram copiadas sem permissão e incorporadas a esse dataset gigante, que acabou alimentando modelos de linguagem avançados.
Não surpreende que tais práticas tenham gerado indignação entre escritores e editoras – muitos autores descobriram retroativamente que seus livros, nos quais investiram anos de trabalho criativo, foram usados para treinar máquinas sem qualquer consentimento ou compensação. Enquanto os criadores desses modelos de IA lucram enormemente com produtos e serviços construídos sobre esse conteúdo, os autores das obras originais não têm recebido participação nos ganhos. Essa disparidade levanta sérias preocupações éticas e legais.
Oalto valor agregado pelo conteúdo dos livros – que enriquece a inteligência e a precisão das IAs – não tem se refletido em remuneração para quem produziu esse conteúdo. Há denúncias de violação de direitos autorais e várias ações judiciais em andamento. Grupos de autores nos EUA, incluindo membros do Authors Guild, moveram processos coletivos contra empresas de IA, argumentando que o uso de livros protegidos por copyright no treinamento configura infração e exige reparação. Até organizações jornalísticas renomadas entraram na disputa: o New York Times, por exemplo, processou a OpenAI alegando que artigos e conteúdos do jornal foram ingeridos sem autorização para treinar o ChatGPT. Esse caso emblemático faz parte de um movimento maior questionando a legalidade e a justiça do aproveitamento de conteúdo protegido nos modelos de IA.
Reguladores e tribunais começam a ser chamados a decidir se o ato de ler milhões de textos sob copyright para ‘ensinar’ uma máquina pode ser considerado uso aceitável ou se demanda consentimento e pagamento. Enquanto isso, gigantes da tecnologia como OpenAI e Google vêm pleiteando mudanças ou exceções nas leis de direitos autorais, tentando caracterizar o treinamento de IA como um uso justo que dispensaria remuneração aos titulares.
Diante desse panorama dantesco, torna-se imprescindível considerar o papel dos acervos digitais de livros no debate sobre compensação financeira justa para autores e editoras no novo ecossistema da IA. Se as obras literárias – sejam clássicos em domínio público, sejam best-sellers contemporâneos – formam a espinha dorsal do conhecimento dos modelos de linguagem, é legítimo questionar como autores e editoras podem ser remunerados de forma equitativa nesse arranjo.
Alguns passos iniciais já sinalizam caminhos possíveis: acordos de licenciamento começam a emergir, permitindo que conteúdos sejam usados em IA mediante pagamento ou parcerias. A recente parceria entre o New York Times e a Amazon, por exemplo, prevê remuneração e acesso controlado a notícias para uso em sistemas de IA, ilustrando uma via de colaboração remunerada.
No setor de livros, embora ainda haja poucos acordos anunciados, a pressão por soluções aumenta. Organizações de escritores defendem que livros precisam ser licenciados para treino de IA, o que garantiria uma forma de royalty ou compensação quando uma obra é usada nesses megadatasets. Essa discussão vai além de questões legais – trata-se de recalibrar as regras do jogo na era da inteligência artificial, de modo que o valor gerado pela tecnologia seja compartilhado de forma mais justa com quem criou o conteúdo original.
Reconhecer a contribuição dos grandes acervos de livros no sucesso dos modelos de IA reforça a necessidade de mecanismos de compensação inovadores. Assim, à medida que a IA revoluciona os mercados, também nos força a repensar os modelos de direito autoral e remuneração, para que bibliotecas digitais, autores e empresas de IA prosperem em um ecossistema mais equilibrado e sustentável.
Cobrança por tokens e valor do conteúdo extraído dos livros
Nos serviços de IA generativa atuais, a forma de comercialização está diretamente atrelada aos tokens. Empresas como OpenAI, Anthropic e outras cobram dos clientes (usuários finais ou desenvolvedores via API) com base no número de tokens processados em cada interação. Por exemplo, o plano ChatGPT Plus e as APIs do GPT-4 têm preços por 1.000 tokens usados. Isso significa que cada pergunta e resposta gerada tem um custo proporcional ao volume de texto. Se uma resposta do modelo é longa, ela consome mais tokens e custa mais; respostas curtas consomem menos tokens e custam menos. Esse modelo ‘pay as you go’ por token reflete a realidade de que cada token gerado possui um valor informacional e computacional mensurável.
Para ilustrar: a OpenAI cobrava cerca de US$0,0000266 por palavra gerada em seu modelo GPT-3 (equivalente a aproximadamente US$0,02 por 1000 caracteres). Na prática, um artigo de 1000 palavras criado pela IA custaria algo em torno de US$0,026 (cerca de R$0,13) ao usuário nessa modalidade. Pode parecer pouco por uma consulta, mas em escala de milhões de usuários e múltiplas consultas diárias, isso se acumula em receitas enormes para as provedoras de IA. Vale lembrar que assinantes premium já pagam mensalidade por acesso a modelos avançados, e usuários corporativos chegam a gastar valores significativos conforme o volume de tokens consumido. (A Microsoft revelou que alguns de seus clientes empresariais gastam “oitenta mil dólares por dia” em chamadas de IA, algo impulsionado pelo custo por token nas APIs, segundo uma reportagem da Reuters.)
O importante é: cada token tem um preço e gera receita, logo cada token produzido pelo modelo é uma unidade de valor sendo explorada comercialmente. Assim, se uma parcela desse conteúdo gerado deriva de informações que estavam em livros usados no treinamento, podemos argumentar que os detentores daqueles conteúdos deveriam receber uma parcela desse valor. Hoje, esse repasse não existe – os modelos foram treinados (frequentemente sem licença) em um vasto acervo de textos, e as respostas produzidas faturam para as empresas de IA, não para os autores originais.
Do ponto de vista conceitual, a cobrança por token é diretamente proporcional ao valor informacional entregue: usuários pagam mais quando obtêm respostas mais longas ou detalhadas (mais informação). Ora, grande parte da informação de alta qualidade que um modelo oferece vem de ele ter absorvido fontes como livros. Portanto, quando um modelo cobra por seus tokens, indiretamente está cobrando pelo conhecimento cuja origem inclui livros. Isso reforça a lógica de compensar autores. Se uma IA resolve um problema de engenharia graças a ter lido manuais técnicos, ou escreve um poema em estilo Shakespeariano graças às peças de Shakespeare em seu treino, faz sentido que haja um mecanismo reconhecendo financeiramente essa contribuição original.
Não surpreende, portanto, que haja pressão por novas normas e modelos de negócio. Organizações de escritores e editoras argumentam que a situação atual equivale a um uso não remunerado de propriedade intelectual para lucro alheio. Os processos judiciais mencionados anteriormente são um sintoma desse descompasso. Enquanto isso, na ausência de regulação imediata, cabe perguntar: e se existisse um modelo de compensação por token para os livros usados? Como isso se traduziria em números para o mercado editorial?
Projeção dos royalties potenciais para editoras e autores de livros
Para estimar um cenário de remuneração, precisamos combinar os dados de uso de tokens com a participação estimada de conteúdo de livros no treinamento dos modelos. Vejamos os pontos-chave levantados:
- Modelos líderes como GPT-4, Claude e outros estão movimentando trilhões de tokens por mês, e esse uso está crescendo exponencialmente. Apenas o Azure (OpenAI na nuvem da Microsoft) processou 50 trilhões de tokens em um mês recente; o Google ultrapassou 480 trilhões/mês em suas aplicações de IA; o próprio ChatGPT possivelmente estava na faixa de vários trilhões de tokens mensais no fim de 2024/início de 2025. Podemos extrapolar que, globalmente, o consumo anual de tokens gerados por IA comercial em 2025 está na casa dos quatrilhões (10^15).
- A parcela de dados de treinamento oriundos de livros varia por modelo, mas mesmo conservadoramente podemos considerar algo entre 5% e 15%. (GPT-3 teve ~16% de tokens de treino de livros; LLaMA-1 ~4,5%; modelos recentes possivelmente ficam em torno de 10% combinando várias fontes). Vamos adotar, para projeção, um cenário de 10% do conteúdo de treinamento proveniente de livros publicados. Isso é uma suposição razoável dado o mix de modelos e o uso extensivo de web, código etc., mas reconhecendo que livros contribuem acima de sua proporção numérica para a qualidade.
- Se 10% dos tokens gerados em uso derivam de conhecimento adquirido de livros, podemos imaginar um sistema onde cada token ou cada 1000 tokens ‘de origem livreira’ gere um pequeno royalty aos titulares. Quanto seria esse micropagamento? Aqui podemos nos espelhar em analogias como streaming de música (onde cada play vale frações de centavo aos artistas) ou calcular uma fração da tarifa paga pelo usuário. Por exemplo, a OpenAI cobrando ~US$0,03 por 1000 tokens do GPT-4 significa cada token vale $0,00003 para eles. Mesmo que o repasse aos autores fosse, digamos, um décimo disso (US$0,000003 por token, ou ~$0,003 por 1000 tokens), na escala de trilhões de tokens isso soma valores notáveis.
Vamos quantificar: 1 trilhão de tokens (10^12) sob essa taxa hipotética de $0,000003 renderia $3 milhões. Mas o uso está em quatrilhões de tokens/ano; suponha que sejam 5×10^15 tokens anuais globalmente em 2025 (somando todas plataformas). 10% disso = 5×10^14 tokens de conteúdo vindo de livros. Multiplicando pela taxa: $0,000003 × 5×10^14 = $1,5 bilhão de dólares por ano em royalties. Mesmo com margens de erro altas, é seguro dizer que estaríamos falando na ordem de bilhões de dólares anuais a distribuir para o setor editorial.
Outra forma de balizar é olhar a receita das empresas de IA e aplicar um ‘quanto disso deve aos livros’. OpenAI projetou $11 bilhões de faturamento em 2025; Anthropic, $2,2 bilhões em 2025. Juntas somam ~$13,2 bi. Se apenas ~10% desse sucesso veio do uso de livros nos modelos, isso sugeriria $1,3 bilhão potencialmente repassável aos detentores de direitos apenas dessas duas. Incluindo o valor gerado indiretamente por Google (via aumento de receita de busca/produtos graças à IA) e outras empresas, é plausível que um modelo de licenciamento de livros para IA pudesse redirecionar alguns bilhões de dólares por ano globalmente para editoras e autores. Isso ainda seria uma fração relativamente pequena do mercado de IA (e menor ainda frente ao faturamento total das big techs), mas significativa para o mercado editorial – comparável, por exemplo, a toda a receita anual de vendas de ebooks ou ao faturamento de uma grande editora multinacional.
Abraçar a IA para não repetir o erro da era dos eBooks
Em conclusão, os números reunidos indicam um grande desequilíbrio atual: modelos de IA absorveram milhões de livros, geram conteúdo baseado neles e movimentam dezenas de bilhões de dólares, enquanto autores não recebem nada desse bolo. Se houvesse um sistema de compensação proporcional por uso, mesmo micropagamentos por token se traduziriam em valores multimilionários para o setor literário, dado o volume gigantesco de uso de IA. Com a contínua expansão da IA generativa (espera-se que o uso de tokens continue a multiplicar nos próximos anos), essa questão torna-se cada vez mais importante. Uma estrutura de royalties poderia não apenas retribuir justiça financeira aos criadores originais, mas também sustentar a produção de novos conteúdos de qualidade – fechando um ciclo virtuoso onde IA e indústria criativa coexistem beneficamente.
Quando a distribuição digital de livros despontou, grande parte do mercado editorial hesitou; o vácuo de ação foi rapidamente preenchido pelas big techs, que passaram a controlar preços, dados de leitores e fatias decisivas da receita de eBooks. Os resultados desse atraso ainda se fazem sentir: margens encolhidas, pouca influência sobre padrões de formato e dependência de poucos intermediários globais.
Com a inteligência artificial o risco é maior – e a oportunidade também. Os modelos de IA já se alimentam de milhões de livros; quem publica conteúdo, portanto, possui a matéria-prima sem a qual esses sistemas não teriam o mesmo valor. Se autores, editoras e agentes demorarem a agir, assistirão novamente a um cenário em que terceiros exploram comercialmente o patrimônio intelectual do setor sem contrapartida justa.
A resposta não é recusar a tecnologia, mas assumi-la como aliada estratégica: negociar licenças, desenvolver ferramentas próprias, criar padrões de remuneração por token, monitorar usos não autorizados e, sobretudo, experimentar a IA nos fluxos de criação, edição e marketing. Assim, o mercado editorial deixa de ser mero fornecedor involuntário de dados e passa a ser coproprietário do futuro da leitura digital. Abraçar a IA agora é a melhor forma de evitar que se repita a história em que a inovação avança e o livro – e quem vive dele – fica para trás.