Sobre o ALT - Análise de Legibilidade Textual

Este site é dedicado a fornecer índices de legibilidade para textos da língua portuguesa, tomando por base fórmulas adaptadas do inglês. Nosso algoritmo conta o número de letras, de sílabas, de palavras, de frases e de palavras complexas e, a partir das fórmulas de índices conhecidos, como a legibilidade de Flesch-Kincaid e outros, calcula os índices de leiturabilidade dos textos.

Sobre os índices de legibilidade

Índices de legibilidade, de leiturabilidade, de apreensibilidade ou ainda de facilidade de leitura são métricas desenvolvidas para avaliar o grau de dificuldade de leitura de um texto. Essas métricas geralmente se baseiam em duas variáveis:

Comprimento das frases

Essa variável é medida a partir do número médio de palavras por sentença. Todas as métricas que este site utiliza para avaliar o índice de legibilidade de um texto utilizam a razão palavras/sentenças ou sentenças/palavras.

Complexidade das palavras

Como é difícil medir o "grau de dificuldade" de uma palavra, as métricas usam diferentes formas de avaliar a complexidade de uma palavra. Os Índices de Leiturabilidade Automatizado e de Coleman-Liau usam o comprimento médio das palavras em termos do número de letras. Já os testes de Flesch-Kincaid e o Índice de Nebulosidade de Gunning usam o critério da quantidade de sílabas de uma palavra. Há também métricas que usam as frequências das palavras no uso cotidiano para inferir suas complexidades (quanto menos frequente, mais complexa).

Escalas

Os índices de legibilidade usam basicamente duas escalas:

Nos índices baseados na escala 0-100, cem significa um texto muito simples, ao passo que zero indica um texto de compreensão extremamente difícil. Apesar da maioria dos textos ficar com índices no intervalo [0, 100], em alguns poucos casos o índice pode ser negativo bem como pode ultrapassar os 100 pontos.

Na escala 0-20, por outro lado, o nível de legibilidade decresce com o aumento na escala. Nessa escala, o nível obtido representa o total de anos de estudo que uma pessoa deve ter para poder compreender bem o texto. Assim, um texto com nível de legibilidade 6 é bem simples, já que é adequado para crianças na faixa dos 12 anos (sexto ano do ensino fundamental). Em contrapartida, textos com nível de legibilidade 17 são considerados de difícil leitura, pois são textos voltados para graduados e pós-graduandos.

Para textos da língua inglesa, a fórmula de conversão do Flesch Reading Ease ($F$, escala 0 a 100) para o Flesch-Kincaid Grade Level ($FK$, escala 0 a ~20) é dada por

$$ FK = 63{,}88 - 0{,}38424\times F - 20{,}7\times \left(\dfrac{\text{Qnt. de sílabas}}{\text{Qnt. de palavras}}\right). $$

Cálculo dos índices de legibilidade

Todas as métricas (exceto o índice Gulpease) usadas neste aplicativo foram adaptadas para a Língua Portuguesa. Os novos coeficientes foram obtidos a partir de uma regressão linear múltipla considerando uma base de 100 textos de diversos gêneros (jornalísticos, científicos, relatórios, entretenimento, entre outros), que estão listados aqui. Tomamos por base para textos em inglês o site https://www.webfx.com/tools/read-able/check.php e o site https://farfalla-project.org/readability_static/ para textos em italiano (Índice Gulpease). Conforme a base de textos for aumentando, poderão haver leves alterações nos coeficientes. No caso do Índice Gulpease, os coeficientes obtidos foram os mesmos, dentro da margem de erro.

No caso do Índice de Nebulosidade de Gunning, apesar de usarmos a mesma fórmula, consideramos como palavras complexas todas aquelas que não estão listadas nas 5 mil primeiras palavras do banco de palavras disponível aqui (todos os corpos brasileiros) ao invés do critério do número de sílabas maior do que 2. Palavras complexas são, nesse caso, palavras menos usadas em nosso cotidiano. Nenhum nome próprio (que começa com letra maiúscula sem estar necessariamente no início de uma frase) é considerado uma palavra complexa. O mesmo vale para siglas.

O número de sílabas fornecido pelo nosso algoritmo é aproximado, dada a não-trivialidade desse tipo de tarefa. Isso quer dizer que a contagem de sílabas falha em algumas poucas palavras.

Erros de ortografia no texto poderão fornecer resultados imprecisos, tanto pela contagem de letras como de palavras complexas e de sílabas. Como exemplo, observe a palavra "saudade", que possui 3 sílabas. Se ela for escrita (incorretamente) como "saúdade", nosso algoritmo retornará 4 sílabas, já que a letra u pertenceria a um hiato nesse caso.

Fórmulas adaptadas para a língua portuguesa

Abaixo apresentamos as fórmulas do cálculo dos índices de legibilidade adaptadas para o português, que usamos neste aplicativo. Veja aqui uma comparação com as fórmulas originais.

Teste de facilidade de leitura de Flesch (Flesch reading ease):

$$ 226 - 1{,}04\times \left(\dfrac{\text{Qnt. de palavras}}{\text{Qnt. de frases}}\right) - 72\times \left(\dfrac{\text{Qnt. de sílabas}}{\text{Qnt. de palavras}}\right) $$

Índice Gulpease* (Indice Gulpease):

$$ 89 + \dfrac{ 300\times (\text{Qnt. de sentenças}) - 10\times (\text{Qnt. de letras}) }{ \text{Qnt. de palavras} } $$

Nível de graduação (ou de escolaridade) de Flesch-Kincaid (Flesch-Kincaid grade level):

$$ 0{,}36 \times \left( \dfrac{ \text{Qnt. de palavras} }{ \text{Qnt. de sentenças} } \right) + 10{,}4 \times \left( \dfrac{ \text{Qnt. de sílabas} }{ \text{Qnt. de palavras} } \right) - 18 $$

Índice de nebulosidade de Gunning adaptado** (Gunning fog index):

$$ 0{,}49 \times \left( \dfrac{ \text{Qnt. de palavras} }{ \text{Qnt. de sentenças} } \right) + 19\times \left( \dfrac{ \text{Qnt. de palavras complexas} }{ \text{Qnt. de palavras} } \right) $$

Índice de leiturabilidade automatizado (Automated readability index - ARI):

$$ 4{,}6 \times \left( \dfrac{ \text{Qnt. de letras} }{ \text{Qnt. de palavras} } \right) + 0{,}44 \times \left( \dfrac{ \text{Qnt. de palavras} }{ \text{Qnt. de sentenças} } \right) - 20 $$

Índice de Coleman-Liau (Coleman-Liau index):

$$ 5{,}4 \times \left( \dfrac{ \text{Qnt. de letras} }{ \text{Qnt. de palavras} } \right) - 21 \times \left( \dfrac{ \text{Qnt. de sentenças} }{ \text{Qnt. de palavras} } \right) - 14 $$

*O Índice Gulpease não apresentou alterações nos seus coeficientes após a regressão linear múltipla. O Índice Gulpease, portanto, pode ser usado para textos da língua portuguesa a partir da equação original desenvolvida para o italiano.

**Consideramos adaptar o Índice Gunning fog a partir de uma definição alternativa de "palavra complexa". Ao invés de considerar palavras com muitas sílabas como indicador de complexidade, optamos por fazer uma comparação direta entre as palavras do texto a ser analisado e as 5 mil primeiras palavras de um banco de palavras. Esse banco contém as palavras mais usadas no português brasileiro, ordenadas por frequência de uso. Uma palavra é definida como "complexa" quando ela não se encontra nas 5 mil primeiras posições do banco. Essa abordagem alternativa é interessante por tornar possível um peso diferente na complexidade de um texto, já que o número de sílabas como critério de legibilidade já é usado no nível de graduação de Flesch-Kincaid.

Fórmula Final

Nossa fórmula final é a média aritmética de quatro índices da escala de nível de graduação (0-20): $$ \text{Fórmula Final} = \dfrac{ \text{Flesch-Kincaid} + \text{Gunning fog} + \text{ARI} + \text{Coleman-Liau} }{4} $$

Limitações dos índices de legibilidade

Os índices de legibilidade precisam ser usados com bastante critério, já que nem sempre um índice baixo (na escala 0-20) indica um texto de fácil leitura. Continua ...

Exemplos

Exemplos de textos e seus índices de legibilidade:

Texto Título FK GF ARI CL RF
1 Dom Casmurro (M. de Assis) (Caps. 1 e 2) 8.1 11.9 7.8 8.8 9
2 Notícia Portal G1 13.1 13.6 12.6 12.4 13
3 Jornal GGN 12.1 11.6 11.5 13.1 12
4 O Patinho feio 6.7 9.7 6.1 8.7 8
5 Pinóquio 8.3 10.6 7.2 8.6 9
6 João e Maria 8.9 12.4 9.0 9.1 10
7 Vida de Droga, págs. 5, 6 e 7 (Walcyr Carrasco) 6.3 8.3 5.5 8.6 7
8 Contabilidade Rural, págs. 61-63 (J. C. Marion) 13.6 15.9 13.2 11.4 14
9 Fund. de Física Vol. 1, pág. 5 (Halliday) 10.5 13.8 11.1 11.1 12
10 C# e .Net, págs. 3 e 4 (J. E. Saraiva) 11.0 12.0 11.8 12.9 12
11 O Senhor dos Anéis, Vol. 1, cap, 1, 3 prim. pág. (Tolkien) 8.2 10.5 7.9 9.2 9
12 Artigo Rev. Educação e Pesquisa (Introdução) 18.8 20.2 19.5 14.5 18
13 Artigo Rev. Saúde e Debate (Introdução) 17.2 16.8 17.3 14.2 16
14 Artigo Rev. Ensino de Física (Introdução) 16.0 15.9 16.3 15.1 16
15 Artigo Rev. Physis (Arquivos) 15.3 17.5 16.1 13.4 16
16 Artigo Rev. Est. Teo. Psicanalítica (Introdução) 17.2 19.7 18.2 13.2 17
17 Artigo Rev. Cont. Contemp. (Introdução) 15.6 16.5 16.7 14.9 16
18 Artigo Rev. Direito e Praxis (Introdução) 17.1 19.6 18.3 14.6 17
19 Fís. Atômica e Conhec. Humano, págs. 85-87 (N. Bohr) 20.0 20.0 21.2 17.1 20
20 Relat. Sustentabilidade Coca-Cola, pág. 5 16.3 17.0 17.7 15.6 17
21 Relat. Gerdau, pág. 17 14.8 16.6 15.3 12.2 15
22 Relat. Itaú 2019, pág. 28 12.8 11.9 12.9 14.4 13
Tabela de correlação de Pearson, conforme dados da tabela acima
Flesch-Kincaid Gunning fog ARI Coleman-Liau
Flesch-Kincaid 100% 94,3% 99,4% 91,4%
Gunning fog 100% 95,2% 76,8%
ARI 100% 92,1%
Coleman-Liau 100%
Para detalhes adicionais, acesse o preprint ALT: um software para análise de legibilidade de textos em Língua Portuguesa, disponível em https://doi.org/10.48550/arXiv.2203.12135