Comparações com os índices de legibilidade para a língua inglesa

Abaixo apresentamos uma análise comparativa entre o legibilidade.com (voltado para textos em português) e a ferramenta Readability Test Tool, voltada para textos em inglês. A partir de 22 textos da tabela abaixo e de suas respectivas versões em inglês obtidas pelo Google Tradutor, chegamos aos seguintes resultados com base nos coeficientes de correlação de Pearson e a diferença média entre os resultados:

Correlação de Pearson e diferença média dos resultados obtidos entre o legibilidade.com e o Readability Test Tool. O "erro" foi considerado com dois desvios-padrões para cada lado, o que deve abranger em torno de 95% dos textos.
Correlação Diferença média
Índice de Flesch 96,3% -2 ± 12
Flesch-Kincaid 98,0% 0,7 ± 1,8
Gunning fog 91,3% -0,4 ± 4,2
ARI 97,9% 0,7 ± 2,0
Coleman-Liau 95,3% -0,4 ± 1,6
Resultado final 97,2% 0,6 ± 2,0

Três pontos merecem destaque:

  1. A diferença média é sempre menor do que o desvio-padrão da diferença média, o que indica que não há diferença significativa entre os resultados obtidos usando as fórmulas adaptadas para o português e as fórmulas originais desenvolvidas para os textos em língua inglesa.
  2. O Índice de Nebulosidade de Gunning foi o que apresentou o menor grau de correlação, ainda que alto, e o maior desvio-padrão. Além disso, 95% dos textos devem apresentar uma diferença de no máximo 3,8 pontos para cima e 4,6 pontos para baixo entre os índices nas versões em português e em inglês. Isso se deve, provavelmente, à forma diferente com que identificamos as palavras complexas dos textos, conforme já apontado.
  3. Apesar do alto grau de correlação entre os resultados finais obtidos entre o legibilidade.com e o Readability Test Tool, vale mencionar que essas calculadoras usam índices ligeiramente diferentes na obtenção do resultado final. O último aplicativo usa, além dos quatro últimos índices da lista acima, o Índice SMOG, uma métrica não-linear que preferimos não utilizar no legibilidade.com.

Gráficos comparativos

Tabela base de textos

Textos usados no cálculo das correlações e da diferença média, limitados ao máximo de 5000 caracteres. Apresentamos os índices de legibilidade obtidos com as fórmulas adaptadas para o português, através do legibilidade.com, e com as fórmulas originais para o inglês (entre parênteses).

Texto Título FK GF ARI CL RF
1 Dom Casmurro (M. de Assis) (Caps. 1 e 2) 7.8 (7.7) 11.6 (10.5) 7.5 (7.2) 8.5 (8.3) 9 (8)
2 Notícia Portal G1 13.3 (12.5) 13.7 (13.8) 12.8 (11.7) 12.5 (13.2) 13 (13)
3 Jornal GGN 12.2 (11.5) 11.9 (12.7) 11.7 (11.6) 13.1 (14.3) 12 (12)
4 O Patinho feio 6.7 (4.9) 9.7 (7.7) 6.1 (4.3) 8.7 (8.8) 8 (6)
5 Pinóquio 8.3 (6.6) 10.6 (8) 7.2 (6.3) 8.6 (9.1) 9 (7)
6 João e Maria 8.9 (7.3) 12.4 (9.5) 9.0 (7.7) 9.1 (8.2) 10 (8)
7 Vida de Droga, págs. 5, 6 e 7 (Walcyr Carrasco) 6.3 (5.2) 8.3 (7.7) 5.5 (4.6) 8.6 (10.1) 7 (7)
8 Contabilidade Rural, págs. 61-63 (J. C. Marion) 15.4 (15.2) 17.3 (18.7) 14.9 (16.3) 11.8 (12.1) 15 (15)
9 Fund. de Física Vol. 1, pág. 5 (Halliday) 13.8 (11.4) 17.4 (14.4) 14.3 (11.5) 11.3 (10.5) 14 (12)
10 C# e .Net, págs. 3 e 4 (J. E. Saraiva) 11.0 (9.2) 12.0 (12) 11.8 (9.5) 12.9 (12.2) 12 (10)
11 O Senhor dos Anéis, Vol. 1, cap, 1, 3 prim. pág. (Tolkien) 10.1 (9) 12.1 (11.2) 10.1 (9.2) 10.4 (10.8) 11 (10)
12 Artigo Rev. Educação e Pesquisa (Introdução) 16.9 (17) 18.2 (19.4) 17.2 (17.2) 13.5 (13.6) 16 (16)
13 Artigo Rev. Saúde e Debate (Introdução) 17.2 (16.5) 16.8 (19.5) 17.3 (17.1) 14.2 (14.8) 16 (17)
14 Artigo Rev. Ensino de Física (Introdução) 16.0 (16) 15.9 (19.4) 16.3 (16.1) 15.1 (15.5) 16 (16)
15 Artigo Rev. Physis (Arquivos) 15.5 (16.1) 18 (19.5) 16.5 (17.3) 13.4 (14.9) 16 (16)
16 Artigo Rev. Est. Teo. Psicanalítica (Introdução) 17.2 (17.3) 19.7 (20) 18.2 (18.5) 13.2 (13.5) 17 (17)
17 Artigo Rev. Cont. Contemp. (Introdução) 15.2 (16.1) 16.2 (19) 16.4 (16.1) 14.6 (15.8) 16 (17)
18 Artigo Rev. Direito e Praxis (Introdução) 17.1 (17.6) 19.6 (20.9) 18.3 (18.6) 14.6 (14.4) 17 (17)
19 Fís. Atômica e Conhec. Humano, págs. 85-87 (N. Bohr) 20.0 (18.2) 20.0 (22.6) 21.2 (19.7) 17.1 (16.4) 20 (19)
20 Relat. Sustentabilidade Coca-Cola, pág. 41 15.1 (13.9) 17.3 (16.3) 15.8 (13.8) 13.9 (14.4) 16 (14)
21 Relat. Gerdau, pág. 17 14.8 (15.3) 16.6 (18.1) 15.3 (14.9) 12.2 (14.2) 15 (15)
22 Relat. Itaú 2019, pág. 28 13.6 (13.1) 12.8 (17.7) 13.9 (13.2) 14.4 (15.1) 14 (14)
Para detalhes adicionais, acesse o preprint ALT: um software para análise de legibilidade de textos em Língua Portuguesa, disponível em https://doi.org/10.48550/arXiv.2203.12135