NILC

NILC-Metrix


Índice



1. Medidas Descritivas
2. Simplicidade Textual
3. Coesão Referencial
4. Coesão Semântica
5. Medidas Psicolinguísticas
6. Diversidade Lexical
7. Conectivos
8. Léxico Temporal
9. Complexidade Sintática
10. Densidade de Padrões Sintáticos
11. Informações Morfossintáticas de Palavras
12. Informações Semânticas de Palavras
13. Frequência de Palavras
14. Índices de Leiturabilidade

Id Grupo Métrica Descrição
1 Coesão Referencial adj_arg_ovl Quantidade média de referentes que se repetem nos pares de sentenças adjacentes do texto
2 Coesão Referencial adj_cw_ovl Quantidade média de palavras de conteúdo que se repetem nos pares de sentenças adjacentes do texto
3 Coesão Referencial adj_stem_ovl Quantidade média de radicais de palavras de conteúdo que se repetem nos pares de sentenças adjacentes do texto
4 Coesão Referencial arg_ovl Quantidade média de referentes que se repetem nos pares de sentenças do texto
5 Coesão Referencial stem_ovl Quantidade média de radicais de palavras de conteúdo que se repetem nos pares de sentenças do texto
6 Coesão Semântica cross_entropy Média da entropia cruzadas das sentenças do texto
7 Coesão Semântica lsa_adj_mean Média de similaridade entre pares de sentenças adjacentes no texto
8 Coesão Semântica lsa_adj_std Desvio padrão de similaridade entre pares de sentenças adjacentes no texto
9 Coesão Semântica lsa_all_mean Média de similaridade entre todos os pares de sentenças no texto
10 Coesão Semântica lsa_all_std Desvio padrão de similaridade entre todos os pares possíveis de sentenças do texto
11 Coesão Semântica lsa_givenness_mean Média do *givenness* da cada sentença do texto a partir da segunda
12 Coesão Semântica lsa_givenness_std Desvio padrão do *givenness* da cada sentença do texto a partir da segunda
13 Coesão Semântica lsa_paragraph_mean Média de similaridade entre pares de parágrafos adjacentes no texto
14 Coesão Semântica lsa_paragraph_std Desvio padrão entre parágrafos adjacentes no texto
15 Coesão Semântica lsa_span_mean Média do *span* da cada sentença do texto a partir da segunda
16 Coesão Semântica lsa_span_std Desvio padrão do span da cada sentença do texto a partir da segunda
17 Coesão Referencial adjacent_refs Média das proporções de candidatos a referentes na sentença anterior em relação aos pronomes pessoais do caso reto nas sentenças
18 Coesão Referencial anaphoric_refs Média das proporções de candidatos a referentes nas 5 sentenças anteriores em relação aos pronomes anafóricos das sentenças
19 Complexidade Sintática adjunct_per_clause Quantidade média de adjuntos adverbiais por oração do texto
20 Complexidade Sintática adverbs_before_main_verb_ratio Proporção de orações com advérbio antes do verbo principal em relação à quantidade de orações do texto
21 Complexidade Sintática apposition_per_clause Quantidade média de apostos por oração do texto
22 Complexidade Sintática clauses_per_sentence Quantidade média de orações por sentença
23 Complexidade Sintática coordinate_conjunctions_per_clauses Proporção de conjunções coordenativas em relação a todas as orações do texto
24 Complexidade Sintática dep_distance Distância na árvore de dependências
25 Complexidade Sintática frazier Fórmula de Complexidade Sintática de Frazier
26 Complexidade Sintática infinite_subordinate_clauses Proporção de orações subordinadas reduzidas pela quantidade de orações do texto
27 Complexidade Sintática non_svo_ratio Proporção de orações que não estão no formato SVO (sujeito-verbo-objeto) em relação a todas orações do texto
28 Complexidade Sintática passive_ratio Proporção de orações na voz passiva analítica em relação à quantidade de orações do texto
29 Complexidade Sintática postponed_subject_ratio Proporção de sujeitos pospostos em relação a todos os sujeitos do texto
30 Complexidade Sintática ratio_coordinate_conjunctions Proporção de conjunções coordenativas em relação a todas as conjunções do texto
31 Complexidade Sintática ratio_subordinate_conjunctions Proporção de conjunções subordinativas em relação a todas conjunções do texto
32 Complexidade Sintática relative_clauses Proporção de orações relativas em relação à quantidade de orações do texto
33 Complexidade Sintática sentences_with_five_clauses Proporção de sentenças com 5 orações em relação a todas as sentenças do texto
34 Complexidade Sintática sentences_with_four_clauses Proporção de sentenças com 4 orações em relação a todas as sentenças do texto
35 Complexidade Sintática sentences_with_one_clause Proporção de sentenças com 1 oração em relação a todas as sentenças do texto
36 Complexidade Sintática sentences_with_seven_more_clauses Proporção de sentenças com 7 ou mais orações em relação a todas as sentenças do texto
37 Complexidade Sintática sentences_with_six_clauses Proporção de sentenças com 6 orações em relação a todas as sentenças do texto
38 Complexidade Sintática sentences_with_three_clauses Proporção de sentenças com 3 orações em relação a todas as sentenças do texto
39 Complexidade Sintática sentences_with_two_clauses Proporção de sentenças com 2 orações em relação a todas as sentenças do texto
40 Complexidade Sintática sentences_with_zero_clause Proporção de sentenças sem verbos em relação a todas as sentenças do texto
41 Complexidade Sintática std_noun_phrase Desvio-padrão do tamanho dos sintagmas nominais do texto
42 Complexidade Sintática subordinate_clauses Proporção de orações subordinadas pela quantidade de orações do texto
43 Complexidade Sintática temporal_adjunct_ratio Proporção de adjuntos adverbiais de tempo em relação a todos os adjuntos adverbiais do texto
44 Complexidade Sintática words_before_main_verb Quantidade Média de palavras antes dos verbos principais das orações principais das sentenças
45 Complexidade Sintática yngve Fórmula de Complexidade Sintática de Yngve
46 Conectivos add_neg_conn_ratio Proporção de conectivos aditivos negativos em relação à quantidade de palavras do texto
47 Conectivos add_pos_conn_ratio Proporção de conectivos aditivos positivos em relação à quantidade de palavras do texto
48 Conectivos and_ratio Proporção do operador lógico E em relação à quantidade de palavras do texto
49 Conectivos cau_neg_conn_ratio Proporção de conectivos causais negativos em relação à quantidade de palavras do texto
50 Conectivos cau_pos_conn_ratio Proporção de conectivos causais positivos em relação à quantidade de palavras do texto
51 Conectivos conn_ratio Proporção de Conectivos em relação à quantidade de palavras do texto
52 Conectivos if_ratio Proporção do operador lógico SE em relação à quantidade de palavras do texto
53 Conectivos log_neg_conn_ratio Proporção de Conectivos Lógicos Negativos em relação à quantidade de palavras do texto
54 Conectivos log_pos_conn_ratio Proporção de Conectivos Lógicos Positivos em relação à quantidade de palavras do texto
55 Conectivos logic_operators Proporção de Operadores Lógicos em relação à quantidade de palavras do texto
56 Conectivos negation_ratio Proporção de palavras que denotam negação em relação à quantidade de palavras do texto
57 Conectivos or_ratio Proporção do operador lógico OU em relação à quantidade de palavras do texto
58 Densidade de Padrões Sintáticos gerund_verbs Proporção de verbos no gerúndio em relação a todos os verbos do texto
59 Densidade de Padrões Sintáticos max_noun_phrase Máximo entre os tamanhos de sintagmas nominais do texto
60 Densidade de Padrões Sintáticos mean_noun_phrase Média dos tamanhos médios dos sintagmas nominais nas sentenças
61 Densidade de Padrões Sintáticos min_noun_phrase Mínimo entre os tamanhos de sintagmas nominais do texto
62 Diversidade Lexical adjective_diversity_ratio Proporção de types de adjetivos em relação à quantidade de tokens de adjetivos no texto
63 Diversidade Lexical content_density Proporção de palavras de conteúdo em relação à quantidade de palavras funcionais do texto
64 Diversidade Lexical content_word_diversity Proporção de types de palavras de conteúdo em relação à quantidade de tokens de palavras de conteúdo no texto
65 Diversidade Lexical content_word_max Proporção máxima de palavras de conteúdo em relação à quantidade de palavras das sentenças
66 Diversidade Lexical content_word_min Proporção Mínima de palavras de conteúdo por quantidade de palavras nas sentenças
67 Diversidade Lexical content_word_standard_deviation Desvio padrão das proporções entre as palavras de conteúdo e a quantidade de palavras das sentenças
68 Diversidade Lexical function_word_diversity Proporção de types de palavras funcionais em relação à quantidade de tokens de palavras funcionais no texto
69 Diversidade Lexical indefinite_pronouns_diversity Proporção de types de pronomes indefinidos em relação à quantidade de tokens de pronomes indefinidos no texto
70 Diversidade Lexical noun_diversity Proporção de types de substantivos em relação à quantidade de tokens de substantivos no texto
71 Diversidade Lexical preposition_diversity Proporção de types de preposições em relação à quantidade de tokens de preposições no texto
72 Diversidade Lexical pronoun_diversity Proporção de types de pronomes em relação à quantidade de tokens de pronomes no texto
73 Diversidade Lexical punctuation_diversity Proporção de types de pontuações em relação à quantidade de tokens de pontuações no texto
74 Diversidade Lexical relative_pronouns_diversity_ratio Proporção de types de pronomes relativos em relação à quantidade de tokens de pronomes relativos no texto
75 Diversidade Lexical ttr Proporção de types (despreza repetições de palavras) em relação à quantidade de tokens (computa repetições de palavras) no texto
76 Diversidade Lexical verb_diversity Proporção de types de verbos em relação à quantidade de tokens de verbos no texto
77 Frequência de Palavras cw_freq Média das frequências absolutas das palavras de conteúdo do texto
78 Frequência de Palavras cw_freq_bra Média dos valores das frequências das palavras de conteúdo do texto na escala logarítmica Zipf via Corpus Brasileiro
79 Frequência de Palavras cw_freq_brwac Média dos valores das frequências das palavras de conteúdo do texto na escala logarítmica Zipf via BrWac
80 Frequência de Palavras freq_bra Média dos valores das frequências das palavras do texto na escala logarítmica Zipf via Corpus Brasileiro
81 Frequência de Palavras freq_brwac Média dos valores das frequências das palavras do texto na escala logarítmica Zipf via BrWac
82 Frequência de Palavras min_cw_freq Média das frequências das palavras de conteúdo mais raras das sentenças do texto
83 Frequência de Palavras min_cw_freq_bra Média dos valores das frequências das palavras de conteúdo mais raras das sentenças do texto na escala logarítmica Zipf via Corpus Brasileiro
84 Frequência de Palavras min_cw_freq_brwac Média dos valores das frequências das palavras de conteúdo do texto na escala logarítmica Zipf via BrWac
85 Frequência de Palavras min_freq_bra Média dos valores das frequências das palavras mais raras das sentenças do texto na escala logarítmica Zipf via Corpus Brasileiro
86 Frequência de Palavras min_freq_brwac Média dos valores das frequências das palavras mais raras das sentenças do texto na escala logarítmica Zipf via BrWac
87 Informações Morfossintáticas de Palavras adjective_ratio Proporção de Adjetivos em relação à quantidade de palavras do texto
88 Informações Morfossintáticas de Palavras adjectives_max Proporção máxima de adjetivos em relação à quantidade de palavras das sentenças
89 Informações Morfossintáticas de Palavras adjectives_min Proporção mínima de adjetivos em relação à quantidade de palavras das sentenças
90 Informações Morfossintáticas de Palavras adjectives_standard_deviation Desvio padrão das proporções entre adjetivos e a quantidade de palavras das sentenças
91 Informações Morfossintáticas de Palavras adverbs Proporção de Advérbios em relação à quantidade de palavras do texto
92 Informações Morfossintáticas de Palavras adverbs_diversity_ratio Proporção de types de advérbios em relação à quantidade de tokens de advérbios no texto
93 Informações Morfossintáticas de Palavras adverbs_max Proporção máxima de advérbios em relação à quantidade de palavras das sentenças
94 Informações Morfossintáticas de Palavras adverbs_min Proporção mínima de advérbios em relação à quantidade de palavras das sentenças
95 Informações Morfossintáticas de Palavras adverbs_standard_deviation Desvio padrão das proporções entre advérbios e a quantidade de palavras das sentenças
96 Informações Morfossintáticas de Palavras content_words Proporção de palavras de conteúdo em relação à quantidade de palavras do texto
97 Informações Morfossintáticas de Palavras first_person_possessive_pronouns Proporção de pronomes possessivos nas primeiras pessoas em relação à quantidade de pronomes possessivos do texto
98 Informações Morfossintáticas de Palavras first_person_pronouns Proporção de pronomes pessoais nas primeiras pessoas em relação à quantidade de pronomes pessoais do texto
99 Informações Morfossintáticas de Palavras function_words Proporção de Palavras Funcionais em relação à quantidade de palavras do texto
100 Informações Morfossintáticas de Palavras indefinite_pronoun_ratio Proporção de pronomes indefinidos em relação a todos os pronomes do texto
101 Informações Morfossintáticas de Palavras indicative_condition_ratio Proporção de Verbos no Futuro do Pretérito do Indicativo em relação à quantidade de verbos flexionados do texto
102 Informações Morfossintáticas de Palavras indicative_future_ratio Proporção de Verbos no Futuro do Presente do Indicativo em relação à quantidade de verbos flexionados do texto
103 Informações Morfossintáticas de Palavras infinitive_verbs Proporção de verbos no infinitivo em relação a todos os verbos do texto
104 Informações Morfossintáticas de Palavras inflected_verbs Proporção de verbos flexionados em relação a todos os verbos do texto
105 Informações Morfossintáticas de Palavras non-inflected_verbs Proporção de verbos no gerúndio/particípio/infinitivo em relação a todos os verbos do texto
106 Informações Morfossintáticas de Palavras noun_ratio Proporção de substantivos em relação à quantidade de palavras do texto
107 Informações Morfossintáticas de Palavras nouns_max Proporção máxima de substantivos em relação à quantidade de palavras das sentenças
108 Informações Morfossintáticas de Palavras nouns_min Proporção mínima de substantivos em relação à quantidade de palavras das sentenças
109 Informações Morfossintáticas de Palavras nouns_standard_deviation Desvio padrão das proporções entre substantivos e a quantidade de palavras das sentenças
110 Informações Morfossintáticas de Palavras oblique_pronouns_ratio Proporção de pronomes oblíquos em relação a todos os pronomes do texto
111 Informações Morfossintáticas de Palavras personal_pronouns Proporção de Pronomes Pessoais em relação à quantidade de palavras do texto
112 Informações Morfossintáticas de Palavras prepositions_per_clause Proporção de preposições em relação à quantidade de orações no texto
113 Informações Morfossintáticas de Palavras prepositions_per_sentence Quantidade Média de preposições por sentença no texto
114 Informações Morfossintáticas de Palavras pronoun_ratio Proporção de pronomes em relação à quantidade de palavras do texto
115 Informações Morfossintáticas de Palavras pronouns_max Proporção máxima de pronomes em relação à quantidade de palavras das sentenças
116 Informações Morfossintáticas de Palavras pronouns_min Proporção mínima de pronomes em relação à quantidade de palavras das sentenças
117 Informações Morfossintáticas de Palavras pronouns_standard_deviation Desvio padrão das proporções entre pronomes e a quantidade de palavras das sentenças
118 Informações Morfossintáticas de Palavras punctuation_ratio Proporção de sinais de pontuação em relação à quantidade de palavras do texto
119 Informações Morfossintáticas de Palavras ratio_function_to_content_words Proporção de palavras funcionais em relação à quantidade de palavras de conteúdo do texto
120 Informações Morfossintáticas de Palavras relative_pronouns_ratio Proporção de Pronomes Relativos em relação à quantidade de pronomes do texto
121 Informações Morfossintáticas de Palavras second_person_possessive_pronouns Proporção de pronomes possessivos nas segundas pessoas em relação à quantidade de pronomes possessivos do texto
122 Informações Morfossintáticas de Palavras second_person_pronouns Proporção de pronomes pessoais nas segundas pessoas em relação à quantidade de pronomes pessoais do texto
123 Informações Morfossintáticas de Palavras third_person_possessive_pronouns Proporção de pronomes possessivos nas terceiras pessoas em relação à quantidade de pronomes possessivos do texto
124 Informações Morfossintáticas de Palavras third_person_pronouns Proporção de pronomes pessoais nas terceiras pessoas em relação à quantidade de pronomes pessoais do texto
125 Informações Morfossintáticas de Palavras verbs Proporção de Verbos em relação à quantidade de palavras do texto
126 Informações Morfossintáticas de Palavras verbs_max Proporção máxima de verbos em relação à quantidade de palavras das sentenças
127 Informações Morfossintáticas de Palavras verbs_min Proporção mínima de verbos em relação à quantidade de palavras das sentenças
128 Informações Morfossintáticas de Palavras verbs_standard_deviation Desvio padrão das proporções entre verbos e a quantidade de palavras das sentenças
129 Informações Semânticas de Palavras abstract_nouns_ratio Proporção de substantivos abstratos em relação à quantidade de palavras do texto
130 Informações Semânticas de Palavras adjectives_ambiguity Proporção de sentidos dos adjetivos do texto em relação à quantidade de adjetivos do texto
131 Informações Semânticas de Palavras adverbs_ambiguity Proporção de sentidos dos advérbios do texto em relação à quantidade de advérbios do texto
132 Informações Semânticas de Palavras content_words_ambiguity Média de sentidos por palavra de conteúdo do texto
133 Informações Semânticas de Palavras hypernyms_verbs Quantidade Média de Hiperônimos por verbo nas sentenças
134 Informações Semânticas de Palavras named_entity_ratio_sentence Média das proporções de Nomes Próprios em relação à quantidade de palavras das Sentenças
135 Informações Semânticas de Palavras named_entity_ratio_text Proporção de Nomes Próprios em relação à quantidade de palavras do Texto
136 Informações Semânticas de Palavras negative_words Proporção de palavras de polaridade negativa em relação a todas palavras do texto
137 Informações Semânticas de Palavras nouns_ambiguity Proporção de sentidos dos substantivos do texto em relação à quantidade de substantivos do texto
138 Informações Semânticas de Palavras positive_words Proporção de palavras de polaridade positiva em relação a todas palavras do texto
139 Informações Semânticas de Palavras verbs_ambiguity Proporção de sentidos dos verbos do texto em relação à quantidade de verbos do texto
140 Léxico Temporal verbal_time_moods_diversity Quantidade de diferentes tempos-modos verbais que ocorrem no texto
141 Léxico Temporal aux_plus_PCP_per_sentence Proporção de verbos auxiliares seguidos de particípio em relação à quantidade de sentenças do texto
142 Léxico Temporal indicative_imperfect_ratio Proporção de Verbos no Pretérito Imperfeito do Indicativo em relação à quantidade de verbos flexionados no texto
143 Léxico Temporal indicative_pluperfect_ratio Proporção de Verbos no Pretérito Mais que Perfeito do Indicativo em relação à quantidade de verbos flexionados no texto
144 Léxico Temporal indicative_present_ratio Proporção de Verbos no Presente do Indicativo em relação à quantidade de verbos flexionados no texto
145 Léxico Temporal indicative_preterite_perfect_ratio Proporção de Verbos no Pretérito Perfeito Simples do Indicativo em relação à quantidade de verbos flexionados no texto
146 Léxico Temporal participle_verbs Proporção de verbos no particípio em relação a todos os verbos do texto
147 Léxico Temporal subjunctive_future_ratio Proporção de Verbos no Futuro do Subjuntivo em relação à quantidade de verbos flexionados no texto
148 Léxico Temporal subjunctive_imperfect_ratio Proporção de Verbos no Pretérito Imperfeito do Subjuntivo em relação à quantidade de verbos flexionados no texto
149 Léxico Temporal subjunctive_present_ratio Proporção de Verbos no Presente do Subjuntivo em relação à quantidade de verbos flexionados no texto
150 Léxico Temporal tmp_neg_conn_ratio Proporção de conectivos temporais negativos em relação à quantidade de palavras do texto
151 Léxico Temporal tmp_pos_conn_ratio Proporção de conectivos temporais positivosem relação à quantidade de palavras do texto
152 Medidas Descritivas paragraphs Quantidade de Parágrafos no texto
153 Medidas Descritivas sentence_length_max Quantidade Máxima de palavras por sentença
154 Medidas Descritivas sentences Quantidade de Sentenças no texto
155 Medidas Descritivas sentences_per_paragraph Quantidade média de sentenças por parágrafo no texto
156 Medidas Descritivas subtitles Proporção de Subtítulos em relação à quantidade de sentenças do texto
157 Medidas Descritivas syllables_per_content_word Quantidade média de sílabas por palavra de conteúdo no texto
158 Medidas Descritivas words Quantidade de Palavras no texto
159 Medidas Descritivas words_per_sentence Média de Palavras por Sentença
160 Medidas Psicolinguísticas concretude_1_25_ratio Proporção de palavras com valor de concretude entre 1 e 2.5 em relação a todas as palavras de conteúdo do texto
161 Medidas Psicolinguísticas concretude_25_4_ratio Proporção de palavras com valor de concretude entre 2.5 e 4 em relação a todas as palavras de conteúdo do texto
162 Medidas Psicolinguísticas concretude_4_55_ratio Proporção de palavras com valor de concretude entre 4 e 5.5 em relação a todas as palavras de conteúdo do texto
163 Medidas Psicolinguísticas concretude_55_7_ratio Proporção de palavras com valor de concretude entre 5.5 e 7 em relação a todas as palavras de conteúdo do texto
164 Medidas Psicolinguísticas concretude_mean Média dos valores de concretude das palavras de conteúdo do texto
165 Medidas Psicolinguísticas concretude_std Desvio padrão do valor de concretude das palavras de conteúdo do texto
166 Medidas Psicolinguísticas familiaridade_1_25_ratio Proporção de palavras com valor de familiaridade entre 1 e 2.5 em relação a todas as palavras de conteúdo do texto
167 Medidas Psicolinguísticas familiaridade_25_4_ratio Proporção de palavras com valor de familiaridade entre 2.5 e 4 em relação a todas as palavras de conteúdo do texto
168 Medidas Psicolinguísticas familiaridade_4_55_ratio Proporção de palavras com valor de familiaridade entre 4 e 5.5 em relação a todas as palavras de conteúdo do texto
169 Medidas Psicolinguísticas familiaridade_55_7_ratio Proporção de palavras com valor de familiaridade entre 5.5 e 7 em relação a todas as palavras de conteúdo do texto
170 Medidas Psicolinguísticas familiaridade_mean Média dos valores de familiaridade das palavras de conteúdo do texto
171 Medidas Psicolinguísticas familiaridade_std Desvio padrão dos valores de familiaridade das palavras de conteúdo do texto
172 Medidas Psicolinguísticas idade_aquisicao_1_25_ratio Proporção de palavras com valor de idade de aquisição entre 1 e 2.5 em relação a todas as palavras de conteúdo do texto
173 Medidas Psicolinguísticas idade_aquisicao_25_4_ratio Proporção de palavras com valor de idade de aquisição entre 2.5 e 4 em relação a todas as palavras de conteúdo do texto
174 Medidas Psicolinguísticas idade_aquisicao_4_55_ratio Proporção de palavras com valor de idade de aquisição entre 4 e 5.5 em relação a todas as palavras de conteúdo do texto
175 Medidas Psicolinguísticas idade_aquisicao_55_7_ratio Proporção de palavras com valor de idade de aquisição entre 5.5 e 7 em relação a todas as palavras de conteúdo do texto
176 Medidas Psicolinguísticas idade_aquisicao_mean Média dos valores de idade de aquisição das palavras de conteúdo do texto
177 Medidas Psicolinguísticas idade_aquisicao_std Desvio padrão dos valores de idade de aquisição das palavras de conteúdo do texto
178 Medidas Psicolinguísticas imageabilidade_1_25_ratio Proporção de palavras com valor de imageabilidade entre 1 e 2.5 em relação a todas as palavras de conteúdo do texto
179 Medidas Psicolinguísticas imageabilidade_25_4_ratio Proporção de palavras com valor de imageabilidade entre 2.5 e 4 em relação a todas as palavras de conteúdo do texto
180 Medidas Psicolinguísticas imageabilidade_4_55_ratio Proporção de palavras com valor de imageabilidade entre 4 e 5.5 em relação a todas as palavras de conteúdo do texto
181 Medidas Psicolinguísticas imageabilidade_55_7_ratio Proporção de palavras com valor de imageabilidade entre 5.5 e 7 em relação a todas as palavras de conteúdo do texto
182 Medidas Psicolinguísticas imageabilidade_mean Média dos valores de imageabilidade das palavras de conteúdo do texto
183 Medidas Psicolinguísticas imageabilidade_std Desvio padrão dos valores de imageabilidade das palavras de conteúdo do texto
184 Medidas Descritivas sentence_length_min Quantidade Mínima de palavras por sentença
185 Medidas Descritivas sentence_length_standard_deviation Desvio Padrão da quantidade de palavras por sentença
186 Simplicidade Textual dialog_pronoun_ratio Proporção de pronomes pessoais que indicam uma conversa com o leitor em relação à quantidade de pronomes pessoais do texto
187 Simplicidade Textual easy_conjunctions_ratio Proporção de conjunções fáceis em relação à quantidade de palavras do texto
188 Simplicidade Textual hard_conjunctions_ratio Proporção de conjunções difíceis em relação à quantidade de palavras do texto
189 Simplicidade Textual long_sentence_ratio Proporção de Sentenças Muito Longas em relação a todas as sentenças do texto
190 Simplicidade Textual medium_long_sentence_ratio Proporção de Sentenças Longas em relação a todas as sentenças do texto
191 Simplicidade Textual medium_short_sentence_ratio Proporção de Sentenças Médias em relação a todas as sentenças do texto
192 Simplicidade Textual short_sentence_ratio Proporção de Sentenças Curtas em relação a todas as sentenças do texto
193 Simplicidade Textual simple_word_ratio Proporção de palavras de conteúdo simples em relação a todas palavras de conteúdo do texto
194 coesão Referencial coreference_pronoun_ratio Média de candidatos a referente (na sentença anterior) por pronome anafórico do caso reto
195 coesão Referencial demonstrative_pronoun_ratio Média de candidatos a referente (na sentença anterior) por pronome demonstrativo anafórico
196 Índices de Leiturabilidade brunet Índice de Brunet
197 Índices de Leiturabilidade dalechall_adapted Fórmula Dale Chall adaptada
198 Índices de Leiturabilidade flesch Índice Flesch
199 Índices de Leiturabilidade gunning_fox Índice Gunning Fog
200 Índices de Leiturabilidade honore Estatística de Honoré

1. Medidas Descritivas


Quantidade de Parágrafos no texto (id: 152)


Nome da Métrica: paragraphs

Interpretação: quanto maior o número de parágrafos, maior a complexidade textual

Descrição da métrica: quantidade de parágrafos do texto.

Definição dos termos que aparecem na descrição da métrica: são consideradas marcas de parágrafos somente a quebra de linha e não as identações.

Limitações da métrica: não há.

Teste:

Os vermes – também chamados de helmintos – são parasitos, animais que, em geral, dependem da relação com outros seres para viver.

Eles podem se hospedar no organismo de diversos animais, como bois, aves e peixes. Por isso, podemos também contraí-los comendo carnes cruas ou mal cozidas.

Contagens: 2 parágrafos

Resultado Esperado: 2

Resultado Obtido: 2



Quantidade de Sentenças no texto (id: 154)


Nome da Métrica: sentences

Interpretação: quanto maior o número de sentenças, maior a complexidade do texto.

Descrição da métrica: quantidade de sentenças no texto

Definição dos termos que aparecem na descrição da métrica: sentença é o segmento do texto iniciado por letra maiúscula e terminado por ponto final, ponto de interrogação, ponto de exclamação ou reticências.

Limitações da métrica: não há

Teste: O acessório polêmico entrou no projeto, de autoria do senador Cícero Lucena (PSDB-PB), graças a uma emenda aprovada na Comissão de Educação do Senado em outubro. Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 4 sentenças

Resultado Esperado: 4

Resultado Obtido: 4



Quantidade média de sentenças por parágrafo no texto (id: 155)


Nome da Métrica: sentences_per_paragraph

Interpretação: a relação dessa métrica com o nível de complexidade não é direta; um parágrafo grande é menos complexo se for constituído de várias sentenças.

Descrição da métrica: média da quantidade de sentenças por parágrafo.

Definição dos termos que aparecem na descrição da métrica: sentença é a unidade sintática iniciada por letra maiúscula e terminada por ponto final, ponto de exclamação, ponto de interrogação ou reticências; parágrafo é cada unidade do texto delimitada por uma quebra de linha (não consideradas as identações).

Limitações da métrica: não há

Teste: Se, como parece cada vez mais provável, as diretrizes nutricionais que seguimos por quarenta anos estavam profundamente equivocadas, tal erro não pode ser posto na conta dos bichos-papões das grandes empresas. Tampouco pode ser considerado um engano científico inócuo. O massacre sofrido por John Yudkin contradiz essa interpretação e sugere ter ocorrido um erro que os cientistas impuseram a si próprios – e, por consequência, a todos nós.

Tendemos a pensar que os hereges são pessoas que nadam contra a corrente, indivíduos inclinados a desafiar o conhecimento dominante. Às vezes, porém, um herege é apenas um pensador convencional que permanece olhando na mesma direção, ao passo que todos os demais passaram a olhar na direção contrária. Quando, em 1957, John Yudkin aventou pela primeira vez a possibilidade de o açúcar representar um perigo para a saúde pública, a hipótese foi levada a sério, assim como seu proponente. Ao se aposentar, catorze anos depois, tanto a teoria como seu autor haviam sido ridicularizados e marginalizados. Somente agora, postumamente, é que seu trabalho vem sendo reconduzido ao pensamento científico consolidado.

As guinadas na avaliação do legado de Yudkin pouco têm a ver com a metodologia científica: devem-se em grande medida ao comportamento não científico da ciência da nutrição ao longo dos anos. Essa história começou a vir à tona na última década, menos por obra de nutricionistas de peso do que por céticos em relação à ciência nutricional. Na pesquisa meticulosa que resultou no livro “The Big Fat Surprise”(A Surpresa Grande e Gorda), a jornalista Nina Teicholz investiga o postulado “gordura saturada provoca doença cardíaca”, e revela que a passagem de teoria controversa a verdade aceita não ocorreu pela comprovação, e sim graças à influência de umas poucas personalidades poderosas – e de uma delas em particular.

Teicholz também descreve como todo um establishment de importantes cientistas nutricionais, inseguro quanto à própria autoridade médica e atento a ameaças a ela, perpetrou tanto a defesa contínua e exagerada de uma alimentação com baixo teor de gordura, quanto o ataque a quem oferecia indícios ou argumentos contrários. John Yudkin foi apenas a primeira e mais célebre vítima.

Hoje, enquanto nutricionistas lutam para compreender um desastre que não previram – mas decerto podem ter deflagrado –, a ciência da nutrição passa por um doloroso período de reavaliação. Aos poucos, evita proibições relativas ao colesterol e à gordura, enquanto intensifica advertências ao uso do açúcar, sem, no entanto, recuar por completo. Seus representantes mais antigos, porém, seguem munidos de um instinto corporativo que os leva a difamar quem desafia, em alto e bom som, aquele conhecimento em ruínas. É isso que Teicholz vem experimentando nos últimos tempos.

Contagens: 17 sentenças e 5 parágrafos

Resultado Esperado: 3,4

Resultado Obtido: 3,4



Quantidade média de sílabas por palavra no texto (id: 157)


Nome da Métrica: syllables_per_content_word

Interpretação: quanto maior o número de sílabas por palavras, maior a complexidade textual

Descrição da métrica: Número médio de sílabas por palavras de conteúdo no texto

Definição dos termos que aparecem na descrição da métrica: são palavras de conteúdo as palavras de 4 classes gramaticais: substantivos, verbos, adjetivos e advérbios. São consideradas palavras de conteúdo as palavras de 5 categorias de etiquetas do tagger nlpnet: substantivos (tags N, NPROP), verbos (tags V, VAUX, PCP), adjetivos (tag ADJ), advérbios (tag ADV) e palavras denotativas (tag PDEN).

Limitações da métrica: a precisão da métrica depende do desempenho do tagger.

Teste: Acessório utilizado por adolescentes, o boné é um dos itens que compõem a vestimenta idealizada pela proposta

Contagens: 10 palavras de conteúdo (acessório, utilizado, adolescentes, boné, itens, compõem, idealizada, vestimenta, proposta), 35 sílabas (o silabificador considera “acessório” proparoxítona)

Resultado Esperado: 35/10 = 3,5

Resultado Obtido: 3,5



Quantidade de Palavras no texto (id: 158)


Nome da Métrica: words

Interpretação: quanto maior a quantidade de palavras, maior a complexidade textual

Descrição da métrica: quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: palavras, para fins de contagem, são tokens, ou seja, sequências de letras separadas por espaços.

Limitações da métrica: a contagem depende do critério de tokenização adotado (separação das contrações, união de multiwords, união de nomes próprios)

Teste: Acessório utilizado por adolescentes, o boné é um dos itens que compõem a vestimenta idealizada pela proposta.

Contagens: 17 palavras

Resultado Esperado: 17

Resultado Obtido: 17



Média de Palavras por Sentença (id: 159)


Nome da Métrica: words_per_sentence

Interpretação: quanto maior a métrica, maior a complexidade

Descrição da métrica: Número de palavras dividido pelo número de sentenças

Definição dos termos que aparecem na descrição da métrica:

Limitações da métrica: não há.

Teste: O acessório polêmico entrou no projeto, de autoria do senador Cícero Lucena (PSDB-PB), graças a uma emenda aprovada na Comissão de Educação do Senado em outubro. Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 95 palavras e 4 sentenças

Resultado Esperado: 95/4 = 23,75

Resultado Obtido: 23,75



Quantidade Máxima de palavras por sentença (id: 153)


Nome da Métrica: sentence_length_max

Interpretação: quanto maior a sentença, maior a complexidade textual; se a maior sentença for considerada pequena, a complexidade do texto como um todo tende a ser baixa.

Descrição da métrica: Quantidade máxima de palavras por sentença

Definição dos termos que aparecem na descrição da métrica: a quantidade máxima de palavras por sentença é o tamanho da maior sentença do texto

Limitações da métrica: não há

Teste: O papel do código aberto é permitir a inovação localmente. A inovação é dificultada quando se demanda muito capital (seja dinheiro ou “alicerce”) para começar. As restrições insensatas que nos são impostas, chamadas “patentes” e “direitos autorais”, impedem as pessoas de construir sobre ideias geradas, e algumas grandes ideias são perdidas por nunca poderem superar a “inércia” gerada por essas restrições.

Contagens: 3 orações, com 11, 15 e 36 palavras

Resultado Esperado: 36

Resultado Obtido: 37 (o tokenizador anotou como NUM (numeral) as aspas abertas antes de “direitos autorais”



Quantidade Mínima de palavras por sentença (id: 184)


Nome da Métrica: sentence_length_min

Interpretação: quanto maior a sentença, maior a complexidade textual; se a menor sentença for considerada grande, a complexidade do texto como um todo tende a ser alta.

Descrição da métrica: Quantidade mínima de palavras por sentença

Definição dos termos que aparecem na descrição da métrica: a quantidade mínima de palavras por sentença é o tamanho da menor sentença do texto

Limitações da métrica: não há

Teste: O papel do código aberto é permitir a inovação localmente. A inovação é dificultada quando se demanda muito capital (seja dinheiro ou “alicerce”) para começar. As restrições insensatas que nos são impostas, chamadas “patentes” e “direitos autorais”, impedem as pessoas de construir sobre ideias geradas, e algumas grandes ideias são perdidas por nunca poderem superar a “inércia” gerada por essas restrições.

Contagens: 3 orações, com 10, 15 e 36 palavras

Resultado Esperado: 10

Resultado Obtido: 10



Desvio Padrão da quantidade de palavras por sentença (id: 185)


Nome da Métrica: sentence_length_standard_deviation

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Desvio Padrão da quantidade de palavras por sentença

Definição dos termos que aparecem na descrição da métrica: desvio-padrão é o quanto as medidas variam em relação à média

Limitações da métrica: não há

Teste: O papel do código aberto é permitir a inovação localmente. A inovação é dificultada quando se demanda muito capital (seja dinheiro ou “alicerce”) para começar. As restrições insensatas que nos são impostas, chamadas “patentes” e “direitos autorais”, impedem as pessoas de construir sobre ideias geradas, e algumas grandes ideias são perdidas por nunca poderem superar a “inércia” gerada por essas restrições.

Contagens: 3 sentenças, com 10, 15 e 36 palavras

Resultado Esperado: 13,796

Resultado Obtido: 13,597 (na última sentença o nlpnet reconheceu 37 palavras)



Proporção de subtítulos em relação à quantidade de sentenças do texto (id: 156)


Nome da Métrica: subtitles

Interpretação: não é direta a relação da métrica com a complexidade textual, mas supõe-se que os subtítulos contribuam para a clareza pelo fato de delimitarem assuntos no texto.

Descrição da métrica: Proporção de Subtítulos em relação à quantidade de sentenças do texto

Definição dos termos que aparecem na descrição da métrica: subtítulos são títulos intermediários ao longo do texto

Limitações da métrica: os subtítulos só são identificados se estiverem anotados com <subtitle> ... </subtitle>

Teste 1:

A Mudança de Consciência

Robert Lustig trabalha como endocrinologista pediátrico na Universidade da Califórnia, especializado no tratamento da obesidade infantil. Em 2009, ele proferiu a palestra “Açúcar: a amarga verdade”, que teve mais de 6 milhões de visualizações no YouTube. No decorrer de uma hora e meia, Lustig defende com veemência que a frutose, um açúcar onipresente na alimentação moderna, é o “veneno” responsável pela epidemia de obesidade nos Estados Unidos.

A Mudança na Saúde

É possível que esse vídeo faça uma enorme diferença na mudança dos hábitos alimentares dos americanos e provoque um decréscimo dos índices de colesterol da população.

Teste 2:

A Mudança de Consciência

Robert Lustig trabalha como endocrinologista pediátrico na Universidade da Califórnia, especializado no tratamento da obesidade infantil. Em 2009, ele proferiu a palestra “Açúcar: a amarga verdade”, que teve mais de 6 milhões de visualizações no YouTube. No decorrer de uma hora e meia, Lustig defende com veemência que a frutose, um açúcar onipresente na alimentação moderna, é o “veneno” responsável pela epidemia de obesidade nos Estados Unidos.

A Mudança na Saúde

É possível que esse vídeo faça uma enorme diferença na mudança dos hábitos alimentares dos americanos e provoque um decréscimo dos índices de colesterol da população.

Contagens: 2 subtítulos, 4 sentenças

Resultado Esperado: 2/4 = 0,5

Resultado Obtido: 0,5




2. Simplicidade Textual


Proporção de pronomes pessoais que indicam uma conversa com o leitor em relação à quantidade de pronomes pessoais do texto (id: 186)


Nome da Métrica: dialog_pronoun_ratio

Interpretação: textos que estabelecem diálogo com o leitor têm menor complexidade, portanto, quanto maior o resultado, menor a complexidade.

Descrição da métrica: proporção de pronomes pessoais que indicam uma conversa com o leitor em relação ao total de pronomes pessoais presentes no texto.

Definição dos termos que aparecem na descrição da métrica: pronomes pessoais que indicam uma conversa com o leitor são: "eu", "tu", "você" e "vocês".

Limitações da métrica: Para identificar as pessoas do discurso, seria importante incluir tanto os pronomes quanto as flexões verbais, pois é comum a supressão do pronome em língua portuguesa, já que a felexão deixa claro de que pessoa se trata.

Teste: Você acredita que já chegou o final do ano? O tempo voou e a gente já começa a ver o Papai Noel nos outdoors e nas vitrines. Mas eu acho que o comércio está se antecipando demais e deveria esperar dezembro para começar as propagandas de Natal.

Contagens: 3 pronomes pessoais que indicam diálogo com o leitor (você, a gente, eu)

Resultado Esperado: 3/3 = 1,00

Resultado Obtido: 1,00 (2/2) (como não reconhece “a gente”, não computa no numerador nem no denominador



Proporção de conjunções fáceis em relação à quantidade de palavras do texto (id: 187)


Nome da Métrica: easy_conjunctions_ratio

Interpretação: quanto maior o resultado da métrica, menor a complexidade textual

Descrição da métrica: Proporção de conjunções fáceis em relação a todas as palavras do texto

Definição dos termos que aparecem na descrição da métrica: “conjunções fáceis” é uma das duas subdivisões do conjunto de conjunções segundo o nível de complexidade. A lista conjuncoes_fund_1 é de conjunções fáceis e a lista conjuncoes_fund_2 é de conjunções difíceis. As duas listas incluem tanto conjunções constituídas de uma única palavra quanto locuções conjuntivas (ou seja, duas ou mais palavras que funcionam como uma conjunção, como por exemplo: “a fim de que” (conjunção final), “cada vez que” (conjunção temporal) “se bem que” (conjunção concessiva)). A lista conjunções_fund_1 contém as seguintes palavras e expressões: como, se, mas, quando, ou, que, porque, e, assim, porém, caso, por isso que por isso, por enquanto, enquanto isso, enquanto, pois, além de, então, daí, por exemplo, ou seja, sem que, para que, cada vez que, antes que, assim como, tanto quanto, feito, que nem, toda vez que, a não ser que, depois que, até que, na medida em que, desde, nem bem, tanto que, segundo, assim que, tanto que, tão que, sem que, ora.

Limitações da métrica:

1) os itens lexicais que compõem a lista utilizada nessa métrica foram definidos por linguista da Guten e, embora alguns deles possam pertencer a mais de uma categoria gramatical, não há estratégias de desambiguação em contexto implementadas.

2) a proporção talvez fosse mais útil se calculada em relação ao total de conjunções, que é a classe à qual pertencem as conjunções fáceis.

Teste: Eles brincaram o dia todo e foi muito divertido. Além de brincarem, fizeram muitos amigos.

Contagens: 15 palavras e 2 conjunções fáceis (e, além de)

Resultado Esperado: 2/15 = 0,133

Resultado Obtido: 0,133



Proporção de conjunções difíceis em relação à quantidade de palavras do texto (id: 188)


Nome da Métrica: hard_conjunctions_ratio

Interpretação: quanto maior o resultado da métrica, maior a complexidade textual

Descrição da métrica: Proporção de conjunções difíceis em relação a todas as palavras do texto

Definição dos termos que aparecem na descrição da métrica: “conjunções difíceis” é uma das duas subdivisões do conjunto de conjunções segundo o nível de complexidade. A lista conjuncoes_fund_2 é de conjunções difíceis e a lista conjuncoes_fund_1 é de conjunções fáceis. As duas listas incluem tanto conjunções constituídas de uma única palavra quanto locuções conjuntivas (ou seja, duas ou mais palavras que funcionam como uma conjunção, como por exemplo: “a fim de que” (conjunção final), “cada vez que” (conjunção temporal) “se bem que” (conjunção concessiva)). A lista conjunções_fund_2 é composta das seguintes palavras e expressões: todavia, eis, a fim de, ao passo que, para que, conforme, tais, ou seja, contudo, bem como, logo, à medida que, entretanto, desde que, mesmo que, ainda que, de acordo com, uma vez que, por sua vez, sobretudo, até, ainda, caso, no entanto, nem, quanto, já, como, já que, outrossim, mas também, como também, não só, mas ainda, tampouco, senão também, bem assim, ademais, antes, não obstante, sem embargo, ao passo que, de outra forma, em todo caso, aliás, de outro modo, por conseguinte, em consequência de, por consequência, consequentemente, conseguintemente, isso posto, pelo que, de modo que, de maneira que, de forma que, em vista disso, por onde, porquanto, posto que, isto é, ademais, senão, dado que, visto como, vez que, de vez que, pois que, agora, na medida em que, sendo que, como que, como quer que, eis que, sendo assim, tal qual, ao invés de, conquanto, por muito que, visto que, uma vez que, quanto mais, quanto menos, se bem que, apesar de que, suposto que, ainda quando, quando mesmo, a despeito de, conquanto que, sem embargo de que, por outro lado, em contrapartida, sem embargo, muito embora, inclusive se, por mais que, por menos que, por pouco que, contanto que, salvo se, com tal que, caso que, consoante, tal que, de forma que, à proporção que, ao passo que, mal, tão logo, entretanto, sob esse aspecto, sob esse prisma, sob esse ponto de vista, sob esse enfoque, embora, portanto, além disso.

Limitações da métrica:

1) os itens lexicais que compõem a lista utilizada nessa métrica foram definidos por linguista da Guten e, embora alguns deles possam pertencer a mais de uma categoria gramatical, não há estratégias de desambiguação em contexto implementadas.

2) a proporção talvez fosse mais útil se calculada em relação ao total de conjunções, que é a classe à qual pertencem as conjunções difíceis.

Teste: Visto que muitas pessoas saíram feridas, foi necessário tomar uma medida imediata a fim de neutralizar os danos causados e reverter a situação.

Contagens: 23 palavras e 2 conjunções difíceis (a fim de, visto que)

Resultado Esperado: 2/23 = 0,087

Resultado Obtido: 0,087



Proporção de Sentenças Muito Longas em relação a todas as sentenças do texto (id: 189)


Nome da Métrica: long_sentence_ratio

Interpretação: quanto maior a proporção de sentenças muito longas, maior a complexidade do texto

Descrição da métrica: Proporção de Sentenças muito longas em relação a todas as sentenças do texto

Definição dos termos que aparecem na descrição da métrica: há 4 tamanhos de sentença: curto, médio, longo e muito longo. Os números de quantidade de palavras que separam os quatro tipos de sentenças são 11, 763 - 13,027 e 15,908. Na prática, isso significa que sentenças curtas têm 11 palavras ou menos; sentenças médias têm 12 ou 13 palavras; sentenças longas têm 14 ou 15 palavras e sentenças muito longas têm mais de 15 palavras.

Limitações da métrica: não há

Os intervalos entre as sentenças curtas, médias, longas e muito longas é curto (duas palavras)

Teste: O papel do código aberto é permitir a inovação localmente. A inovação é dificultada quando se demanda muito capital (seja dinheiro ou “alicerce”) para começar. As restrições insensatas que nos são impostas, chamadas “patentes” e “direitos autorais”, impedem as pessoas de construir sobre ideias geradas, e algumas grandes ideias são perdidas por nunca poderem superar a “inércia” gerada por essas restrições.

Contagens: 3 sentenças (de 10, 15 e 36 palavras, portanto, 1 pequena, 1 longa e uma muito longa)

Resultado Esperado: 1/3 = 0,333

Resultado Obtido: 0,333



Proporção de Sentenças Longas em relação a todas as sentenças do texto (id: 190)


Nome da Métrica: medium_long_sentence_ratio

Interpretação: Em relação às sentenças curtas e médias, as longas são mais complexas, já em relação às sentenças muito longas, as longas são menos complexas.

Descrição da métrica: Proporção de Sentenças longas em relação a todas as sentenças do texto

Definição dos termos que aparecem na descrição da métrica: há 4 tamanhos de sentença: curto, médio, longo e muito longo. Os números de quantidade de palavras que separam os quatro tipos de sentenças são 11, 763 - 13,027 e 15,908. Na prática, isso significa que sentenças curtas têm 11 palavras ou menos; sentenças médias têm 12 ou 13 palavras; sentenças longas têm 14 ou 15 palavras e sentenças muito longas têm mais de 15 palavras.

q Limitações da métrica: não há

Os intervalos entre as sentenças curtas, médias, longas e muito longas é curto (duas palavras)

Teste: O papel do código aberto é permitir a inovação localmente. A inovação é dificultada quando se demanda muito capital (seja dinheiro ou “alicerce”) para começar. As restrições insensatas que nos são impostas, chamadas “patentes” e “direitos autorais”, impedem as pessoas de construir sobre ideias geradas, e algumas grandes ideias são perdidas por nunca poderem superar a “inércia” gerada por essas restrições.

Contagens: 3 sentenças (de 10, 15 e 36 palavras, portanto, 1 pequena, 1 longa e uma muito longa)

Resultado Esperado: 1/3 = 0,333

Resultado Obtido: 0,333



Proporção de Sentenças Médias em relação a todas as sentenças do texto (id: 191)


Nome da Métrica: medium_short_sentence_ratio

Interpretação: Em relação às sentenças curtas, as médias são mais complexas, já em relação às sentenças longas ou muito longas, as médias são menos complexas.

Descrição da métrica: Proporção de Sentenças Médias em relação a todas as sentenças do texto

Definição dos termos que aparecem na descrição da métrica: há 4 tamanhos de sentença: curto, médio, longo e muito longo. Os números de quantidade de palavras que separam os quatro tipos de sentenças são 11, 763 - 13,027 e 15,908. Na prática, isso significa que sentenças curtas têm 11 palavras ou menos; sentenças médias têm 12 ou 13 palavras; sentenças longas têm 14 ou 15 palavras e sentenças muito longas têm mais de 15 palavras.

Limitações da métrica: não há

Os intervalos entre as sentenças curtas, médias, longas e muito longas é curto (duas palavras)

Teste: Todo mundo usa software livre, mas não sabe disso, como expliquei anteriormente. E mais pessoas usariam software livre se não houvesse tanta pirataria de software no mundo. No Brasil, 84% dos softwares de desktops são piratas.

Contagens: 3 sentenças, uma das quais é média (12 palavras).

Resultado Esperado: 1/3 = 0,333

Resultado Obtido: 0,333



Proporção de Sentenças Curtas em relação a todas as sentenças do texto (id: 192)


Nome da Métrica: short_sentence_ratio

Interpretação: quanto maior a proporção de sentenças curtas, menos complexo é o texto

Descrição da métrica: Proporção de Sentenças Curtas em relação a todas as sentenças do texto

Definição dos termos que aparecem na descrição da métrica: há 4 tamanhos de sentença: curto, médio, longo e muito longo. Os números de quantidade de palavras que separam os quatro tipos de sentenças são 11, 763 - 13,027 e 15,908. Na prática, isso significa que sentenças curtas têm 11 palavras ou menos; sentenças médias têm 12 ou 13 palavras; sentenças longas têm 14 ou 15 palavras e sentenças muito longas têm mais de 15 palavras.

Limitações da métrica: não há

Os intervalos entre as sentenças curtas, médias, longas e muito longas é muito curto (duas palavras)

Teste: Todo mundo usa software livre, mas não sabe disso, como expliquei anteriormente. E mais pessoas usariam software livre se não houvesse tanta pirataria de software no mundo. No Brasil, 84% dos softwares de desktops são piratas.

Contagens: 3 sentenças, uma das quais é curta (9 palavras).

Resultado Esperado: 1/3 = 0,333

Resultado Obtido: 0,333



Proporção de palavras de conteúdo simples em relação a todas palavras de conteúdo do texto (id: 193)


Nome da Métrica: simple_word_ratio

Interpretação: quanto maior a proporção, menor a complexidade textual

Descrição da métrica: proporção de palavras de conteúdo simples, sobre o total de palavras de conteúdo do texto

Definição dos termos que aparecem na descrição da métrica:"palavras simples" são palavras de baixa complexidade (atualmente é utilizada a lista de palavras do Dicionário de Palavras Simples de Maria Tereza Biderman e uma lista de 909 palavras concretas); "palavras de conteúdo" são as palavras que pertencem às classes gramaticais abertas (que admitem novas palavras), ou seja, substantivos, adjetivos, verbos e advérbios.

Limitações da métrica: a precisão do cálculo está condicionada à precisão dos recursos utilizados (lematizador, tagger e lista de palavras simples).

Teste: Mesmo assim, o pão francês chegou cerca de uma hora mais tarde para os fregueses, que entenderam o atraso.

Contagens: 19 palavras, 11 palavras de conteúdo (mesmo, assim, pão, francês, chegou, hora, mais, tarde, fregueses, entenderam, atraso), 10 palavras de conteúdo na lista de palavras simples (mesmo, assim, pão, francês, chegar, hora, mais, tarde, entender, atraso)

Resultado Esperado: 0,909 (10/11)

Resultado Obtido: 0,909




3. Coesão referencial


Média das proporções de candidatos a referentes na sentença anterior em relação aos pronomes pessoais do caso reto nas sentenças (id: 17)


Nome da Métrica: adjacent_refs

Interpretação: quanto maior a métrica, maior a complexidade textual

Descrição da métrica: Média de candidatos a referente, na sentença anterior, por pronome anafórico

Definição dos termos que aparecem na descrição da métrica: pronomes anafóricos são aqueles que retomam um referente que ocorreu antes no texto. No caso desta métrica, o referente do pronome anafórico é procurado na sentença adjacente anterior. Usa-se uma lista de pronomes, com suas respectivas etiquetas de gênero e número, para identificar os pronomes anafóricos.

Limitações da métrica: se o referente for um substantivo que não está no DELAF ou se tiver gênero e número diferente do pronome anafórico, não será identificado.

Teste: As principais propostas apresentadas na última convenção do partido foram feitas pelas mulheres. Elas estão engajadas na missão de reformar o estatuto até o final do ano. Mas muitos integrantes do partido não querem que ele seja reformado.

Contagens: 2 pronomes anafóricos: “elas” tem 2 candidatos a referente na sentença anterior (propostas, mulheres) e “ele” tem 3 candidatos a referente na sentença anterior (estatuto, final, ano).

Resultado Esperado: 5/2 = 2,5

Resultado Obtido: 2,5



Média das proporções de candidatos a referentes nas 5 sentenças anteriores em relação aos pronomes anafóricos das sentenças (id: 18)


Nome da Métrica: anaphoric_refs

Interpretação: quanto maior a métrica, maior a complexidade textual

Descrição da métrica: Média de candidatos a referente, em até 5 sentenças anteriores, por pronome anafórico

Definição dos termos que aparecem na descrição da métrica: pronomes anafóricos são aqueles que retomam um referente que ocorreu antes no texto. No caso desta métrica, o referente do pronome anafórico é procurado em até 5 sentenças anteriores. Usa-se uma lista de pronomes, com suas respectivas etiquetas de gênero e número, para identificar os pronomes anafóricos.

Limitações da métrica: A métrica não elimina os candidatos a referentes repetidos. No exemplo do teste, por exemplo, as palavras “alunos”, “professores”, “trabalhos” e “relatórios” foram contados duas vezes para o segundo “eles”.

Teste: Os professores recomendaram aos alunos que fizessem seus trabalhos de conclusão de curso com muita dedicação. Eles também lhes recomendaram que não deixassem os relatórios finais para serem escritos na última hora. São recomendações importantes, porque todos os anos os alunos pedem prorrogação dos prazos de entrega dos trabalhos e acabam entregando relatórios escritos às pressas e cheios de erros de português. Eles têm dificuldade em se planejar com antecedência.

Contagens: 4 sentenças, 3 pronomes (eles, eles, lhes), 17 candidatos: 3 para o primeiro “eles” (professores, alunos, trabalhos); 3 para o “lhes” (professores, alunos, trabalhos); 11 para o segundo “eles” (todos, anos, erros, relatórios, trabalhos, prazos, alunos, relatórios, trabalhos, alunos, professores)

Resultado Esperado: 15/3 = 5,667

Resultado Obtido: 5,667



Quantidade média de referentes que se repetem nos pares de sentenças adjacentes do texto (id: 1)


Nome da Métrica: adj_arg_ovl

Interpretação: repetição de referentes é um recurso de simplificação; portanto, quanto maior a métrica, menor a complexidade textual (exceto em textos constituídos de uma única sentença)

Descrição da métrica: a quantidade média de referentes que se repetem nos pares de sentenças adjacentes do texto indicam se a formação de uma cadeia de correferência é facilitada ou não.

Definição dos termos que aparecem na descrição da métrica: pares de sentenças adjacentes são todas as possíveis combinações de 2 sentenças em sequência, por exemplo: 1-2, 2-3, 3-4, 4-5 (em um texto com 5 sentenças); referentes são substantivos e pronomes.

Limitações da métrica: a precisão da métrica depende do desempenho do sentenciador, do tagger e do stemmer

Teste: As crianças aprendem muito rápido. Pesquisas mostram que até os três anos de vida, o desenvolvimento do cérebro ocorre num ritmo bem acelerado. O que os pais fazem no dia-a-dia, como ler, cantar e demonstrar carinho, é crucial para o desenvolvimento saudável da criança. Mas de acordo com certo estudo, apenas cerca da metade dos pais com crianças entre dois e oito anos lê diariamente para elas. Você talvez se pergunte: ‘Será que ler para o meu filho realmente faz diferença?’

Contagens:

5 sentenças, 4 pares de sentenças adjacentes (o sentenciador, porém, reconheceu 6 sentenças, o que produziu 5 pares de sentenças adjacentes).

2 referentes que se repetem em sentenças adjacentes: desenvolvimento (2-3), pais (3-4)

Resultado Esperado: 0,50 (2/4)

Resultado Obtido: 0,40 (2/5)



Quantidade média de palavras de conteúdo que se repetem nos pares de sentenças adjacentes do texto (id: 2)


Nome da Métrica: adj_cw_ovl

Interpretação: repetição de referentes é um recurso de simplificação; portanto, quanto maior a métrica, menor a complexidade textual (exceto em textos constituídos de uma única sentença).

Descrição da métrica: Quantidade média de palavras de conteúdo que se repetem nos pares de sentenças adjacentes do texto.

Definição dos termos que aparecem na descrição da métrica: palavras de conteúdo são substantivos, verbos, adjetivos e advérbios; pares de sentenças adjacentes são todas as possíveis combinações de 2 sentenças do texto em sequência: 1-2, 2-3, 3-4 (em um texto com 4 sentenças).

Limitações da métrica: a precisão da métrica é dependente do desempenho do setnenciador e do tagger

Teste: As crianças aprendem muito rápido. Pesquisas mostram que até os três anos de vida, o desenvolvimento do cérebro ocorre num ritmo bem acelerado. O que os pais fazem no dia-a-dia, como ler, cantar e demonstrar carinho, é crucial para o desenvolvimento saudável da criança. Mas de acordo com certo estudo, apenas cerca da metade dos pais com crianças entre dois e oito anos lê diariamente para elas. Você talvez se pergunte: ‘Será que ler para o meu filho realmente faz diferença?’

Contagens:

4 pares de sentenças adjacentes (o sentenciador, porém, reconheceu 6 sentenças, o que produziu 5 pares de sentenças adjacentes),

2 palavras de conteúdo que se repetem nos pares: desenvolvimento (2-3), pais (3-4)

Resultado Esperado: 0,50 (2/4)

Resultado Obtido: 0,4 (2/5)



Quantidade média de radicais de palavras de conteúdo que se repetem nos pares de sentenças adjacentes do texto. (id: 3)


Nome da Métrica: adj_stem_ovl

Interpretação: repetição de referentes é um recurso de simplificação; portanto, quanto maior a métrica, menor a complexidade textual (exceto em textos constituídos de uma única sentença).

Descrição da métrica: Quantidade média de radicais de palavras de conteúdo que se repetem nos pares de sentenças adjacentes do texto.

Definição dos termos que aparecem na descrição da métrica: radicais são a parte inicial das palavras flexionáveis, desprezando-se a parte da flexão (ex: menin é o radical de menino, menina, menininho, meninos, etc.); palavras de conteúdo são: substantivos, verbos, adjetivos e advérbios; sentenças adjacentes são 2 sentenças do texto em sequência: 1-2, 2-3, 3-4 (em um texto com 4 sentenças).

Limitações da métrica: a precisão da métrica depende do desempenho do sentenciador, do stemmer e do tagger.

Teste: As crianças aprendem muito rápido. Pesquisas mostram que até os três anos de vida, o desenvolvimento do cérebro ocorre num ritmo bem acelerado. O que os pais fazem no dia-a-dia, como ler, cantar e demonstrar carinho, é crucial para o desenvolvimento saudável da criança. Mas de acordo com certo estudo, apenas cerca da metade dos pais com crianças entre dois e oito anos lê diariamente para elas. Você talvez se pergunte: ‘Será que ler para o meu filho realmente faz diferença?’

Contagens:

5 sentenças, 4 pares de sentenças adjacentes (o sentenciador, porém, reconheceu 6 sentenças, o que produziu 5 pares de sentenças adjacentes)

5 radicais de palavras de conteúdo que se repetem nas adjacentes: desenvolvimento (2-3), pais (3-4), ler/lê (3-4), criança/crianças (3-4), lê/ler (4-5).

Resultado Esperado: 1,25 (5/4)

Resultado Obtido: 1,0 (5/5)



Quantidade média de referentes que se repetem nos pares de sentenças do texto (id: 4)


Nome da Métrica: arg_ovl

Interpretação: repetição de referentes é um recurso de simplificação; portanto, quanto maior a métrica, menor a complexidade textual (exceto em textos constituídos de uma única sentença)

Descrição da métrica: a quantidade média de referentes que se repetem nos pares de sentenças do texto indicam se a formação de uma cadeia de correferência é facilitada ou não.

Definição dos termos que aparecem na descrição da métrica: referentes são substantivos ou pronomes; pares de sentenças são todas as possíveis combinações de 2 sentenças do texto: 1-2, 1-3, 2-3 (em um texto com 3 sentenças).

Limitações da métrica: a precisão da métrica depende do desempenho do sentenciador, do tagger e do stemmer

Teste: As crianças aprendem muito rápido. Pesquisas mostram que até os três anos de vida, o desenvolvimento do cérebro ocorre num ritmo bem acelerado. O que os pais fazem no dia-a-dia, como ler, cantar e demonstrar carinho, é crucial para o desenvolvimento saudável da criança. Mas de acordo com certo estudo, apenas cerca da metade dos pais com crianças entre dois e oito anos lê diariamente para elas. Você talvez se pergunte: ‘Será que ler para o meu filho realmente faz diferença?’

Contagens:

10 pares de sentenças no texto (1-2, 1-3, 1-4, 1-5, 2-3, 2-4, 2-5, 3-4, 3-5, 4-5). O sentenciador, contudo, reconheceu 6 sentenças (uma é constituída pelas aspas, totalmente vazia), o que produziu 15 pares de sentenças.

4 referentes que se repetem nos pares: crianças (1-4), anos (2-4) desenvolvimento (2-3), pais (3-4).

Resultado Esperado: 0,40 (4/10)

Resultado Obtido: 0,267 (4/15)



Quantidade média de radicais de palavras de conteúdo que se repetem nos pares de sentenças do texto (id: 5)


Nome da Métrica: stem_ovl

Interpretação: repetição de referentes é um recurso de simplificação; portanto, quanto maior a métrica, menor a complexidade textual (exceto em textos constituídos de uma única sentença).

Descrição da métrica: Quantidade média de radicais de palavras de conteúdo que se repetem nos pares de sentenças do texto.

Definição dos termos que aparecem na descrição da métrica: radicais são a parte inicial das palavras flexionáveis (despreza-se a parte da flexão: menin- é o radical de menino, menina, menininho, meninos, etc.); palavras de conteúdo são substantivos, verbos, adjetivos e advérbios; pares de sentenças são todas as possíveis combinações de 2 sentenças do texto: 1-2, 1-3, 2-3 (em um texto com 3 sentenças).

Limitações da métrica: a precisão da métrica é dependente do desempenho do sentenciador, do stemmer e do tagger.

Teste: As crianças aprendem muito rápido. Pesquisas mostram que até os três anos de vida, o desenvolvimento do cérebro ocorre num ritmo bem acelerado. O que os pais fazem no dia-a-dia, como ler, cantar e demonstrar carinho, é crucial para o desenvolvimento saudável da criança. Mas de acordo com certo estudo, apenas cerca da metade dos pais com crianças entre dois e oito anos lê diariamente para elas. Você talvez se pergunte: ‘Será que ler para o meu filho realmente faz diferença?’

Contagens:

10 pares de sentenças (1-2, 1-3, 1-4, 1-5, 2-3, 2-4, 2-5, 3-4, 3-5, 4-5). O sentenciador reconheceu mais uma sentença, devido aos parênteses na última sentença, o que gerou 15 pares.

8 radicais que se repetem nos pares de sentenças do texto: criança (1-3), criança (1-4), criança (3-4), ano (2-4), desenvolvimento (2-3), pais (3-4), fazer (3-5), ler (3-4), ler (3-5) e ler (4-5).

Resultado Esperado: 1,00 (10/10)

Resultado Obtido: 0,667 (10/15)



Média de candidatos a referente, na sentença anterior, por pronome anafórico do caso reto (id: 194)


Nome da Métrica: coreference_pronoun_ratio

Interpretação: quanto maior a métrica, maior a complexidade textual

Descrição da métrica: Média de candidatos a referente, na sentença anterior, por pronome anafórico do caso reto.

Definição dos termos que aparecem na descrição da métrica: pronomes anafóricos são aqueles que retomam um referente que ocorreu antes no texto. No caso desta métrica, são considerados apenas os pronomes anafóricos do caso reto: ele, ela, eles, elas. O referente do pronome anafórico é procurado na sentença adjacente anterior.

Limitações da métrica: a precisão da métrica depende do desempenho do tagger.

Teste: As principais propostas apresentadas na última convenção do partido foram feitas pelas mulheres. Elas estão engajadas na missão de reformar o estatuto até o final do ano. Mas muitos integrantes do partido não querem que ele seja reformado.

Contagens: 2 pronomes anafóricos do caso reto: “elas” tem 2 candidatos a referente na sentença anterior (propostas, mulheres) e “ele” tem 3 candidatos a referente na sentença anterior (estatuto, final, ano).

Resultado Esperado: 5/2 = 2,5

Resultado Obtido: 2,5



Média de candidatos a referente, na sentença anterior, por pronome demonstrativo anafórico (id 195)


Nome da Métrica: demonstrative_pronoun_ratio

Interpretação: quanto mais candidatos a referentes houver para resolver a referência anafórica, maior é a complexidade textual

Descrição da métrica: Média de candidatos a referente, na sentença anterior, por pronome demonstrativo anafórico

Definição dos termos que aparecem na descrição da métrica: referência anafórica é a relação entre um pronome e o termo anterior que ele substitui. O pronome é a anáfora e o nome que ele substitui é o referente. Por exemplo, quando digo “Gosto desse livro”, podem me perguntar: “Desse qual?” A resposta é o referente do pronome anafórico “desse”: “Comprei a obra “Sapiens”, que é um best seller desde que foi lançado. Gosto desse livro.” Leitores proficientes sabem que “desse” = “a obra ‘Sapiens’”. Na sentença anterior, contudo, há três substantivos candidatos a referente do pronome “desse”: “obra”, “Sapiens’” e “best seller”. Decidir entre os candidatos pode ser uma tarefa difícil para um leitor menos proficiente e por isso a quantidade de candidatos por pronome anafórico é uma medida de complexidade textual.

Limitações da métrica: se os candidatos a referente não estiverem no léxico DELAF ou se não tiverem o mesmo número e grau do pronome demonstrativo, eles não serão reconhecidos, como é visto no primeiro teste.

Teste 1: Comprei a obra “Sapiens”, que é um best-seller desde que foi lançado. Gosto desse livro.

Contagens: 1 pronome demonstrativo (desse) e 3 candidatos a referentes na sentença anterior (obra, Sapiens, best-seller)

Resultado Esperado: 3/1 = 3

Resultado Obtido: 0 (“desse” é masculino singular e “obra” é feminino singular; “Sapiens” e “best seller” não estão no léxico do DELAF)

Teste 2: Ouvi dizer que estão tentando incluir orientação nutricional no currículo escolar. Sou totalmente defensor dessa proposta.

Contagens: 1 pronome demonstrativo (dessa) e 1 candidato a referentes na sentença anterior (orientação)

Resultado Esperado: 1/1 = 1

Resultado Obtido: 1




4. Coesão Semântica


Média de similaridade entre pares de sentenças adjacentes no texto (id: 7)


Nome da Métrica: lsa_adj_mean

Interpretação: Esta métrica calcula coesão local usando o valor cosseno médio entre pares adjacentes de sentenças no texto.

Descrição da métrica: Média de similaridade entre pares de sentenças adjacentes no texto.

Definição dos termos que aparecem na descrição da métrica: Análise Semântica Latente (LSA, em inglês - http://lsa.colorado.edu/) foi adotada no Coh-Metrix e também no NILC Metrix como uma medida de coesão e de coerência semânticas. LSA computa similaridade entre trechos de textos (palavras, orações, textos) considerando conhecimento implícito além de palavras similares. Duas palavras tem similaridade de significado se compartilham palavras similares no seu contexto de uso. Por exemplo, carteira (escolar) é altamente associada com palavras que aparecem no mesmo contexto de uma sala de aula, tal como lousa, giz, professor, aluno, escola.

Forma de cálculo da métrica: O LSA usa um método estatístico denominado decomposição de valor singular (SVD) para reduzir uma grande matriz de coocorrência de palavras de um documento para aproximadamente 100–500 dimensões funcionais. A matriz de coocorrência do documento é simplesmente um registro do número de vezes que a palavra Pi ocorre no documento Dj. Um documento pode ser definido como uma sentença, parágrafo ou seção de um artigo. Cada palavra, sentença, parágrafo ou texto acaba sendo um vetor ponderado nas K dimensões. A correspondência/casamento (ou seja, semelhança de significado) entre dois conjuntos não ordenados de palavras (palavras únicas, sentenças ou textos) é calculada como um cosseno geométrico entre os dois vetores, com valores que variam de -1 a 1, podendo ser ajustado para variar de 0 a 1.

Recursos de PLN utilizados durante o cálculo: Para a implantação das 10 métricas de LSA no NILC Metrix foi treinado um modelo LSA em um grande corpus de textos da Web, chamado BrWaC (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC), com 300 dimensões. BrWac foi disponibilizado em janeiro de 2017, possui 3.53 milhões de documentos, 2.68 bilhões de palavras e 5.79 milhões de formas únicas (TTR 0.0021).

Limitações da métrica:O modelo LSA foi treinado no maior corpus público para o português do Brasil (o BrWaC), em 2021, data da disponibilização pública do NILC METRIX. Entretanto, o BrWaC é um corpus de textos da Web e, assim, pode sofrer limitações deste gênero de textos.

Teste: Paubrasilia echinata é o nome científico do pau-brasil, que é uma leguminosa nativa da floresta atlântica e que está ameaçada de extinção, incluída na Lista Oficial de Espécies da Flora Brasileira Ameaçadas de Extinção. A árvore pode chegar a até 30 metros de altura, tem seu tronco e galhos de cor acinzentada e com espinhos. As flores apresentam cinco pétalas, quatro totalmente amarelas e uma que é amarela com uma mancha vermelha no centro. Essa pétala diferente é chamada de “estandarte”, por chamar a atenção das abelhas, que são seus polinizadores. Ela funciona como um guia visual para as abelhas encontrarem o néctar ao visitarem as flores do pau-brasil.

O exemplo acima possui 5 sentenças, e, portanto, 4 pares de sentenças adjacentes. A similaridade LSA entre a primeira e a segunda sentenças, segundo o modelo utilizado na versão atual do NILC Metrix, é 0.67832, e a similaridade entre a segunda e a terceira sentenças é 0.88399. Entre a terceira e quarta é 0.88495. Entre a quarta e quinta é 0.86569.
Nesse caso, a média entre esses valores é de 0.82824

Resultado Esperado: 0.82824
Resultado Obtido: 0.82824



Desvio padrão de similaridade entre pares de sentenças adjacentes no texto (id: 8)


Nome da Métrica: lsa_adj_std

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Desvio padrão de similaridade entre pares de sentenças adjacentes no texto.

Definição dos termos que aparecem na descrição da métrica: Análise Semântica Latente (LSA, em inglês - http://lsa.colorado.edu/) foi adotada no Coh-Metrix e também no NILC Metrix como uma medida de coesão e de coerência semânticas. LSA computa similaridade entre trechos de textos (palavras, orações, textos) considerando conhecimento implícito além de palavras similares. Duas palavras tem similaridade de significado se compartilham palavras similares no seu contexto de uso. Por exemplo, carteira (escolar) é altamente associada com palavras que aparecem no mesmo contexto de uma sala de aula, tal como lousa, giz, professor, aluno, escola.

Forma de cálculo da métrica: O LSA usa um método estatístico denominado decomposição de valor singular (SVD) para reduzir uma grande matriz de coocorrência de palavras de um documento para aproximadamente 100–500 dimensões funcionais. A matriz de coocorrência do documento é simplesmente um registro do número de vezes que a palavra Pi ocorre no documento Dj. Um documento pode ser definido como uma sentença, parágrafo ou seção de um artigo. Cada palavra, sentença, parágrafo ou texto acaba sendo um vetor ponderado nas K dimensões. A correspondência/casamento (ou seja, semelhança de significado) entre dois conjuntos não ordenados de palavras (palavras únicas, sentenças ou textos) é calculada como um cosseno geométrico entre os dois vetores, com valores que variam de -1 a 1, podendo ser ajustado para variar de 0 a 1.

Recursos de PLN utilizados durante o cálculo: Para a implantação das 10 métricas de LSA no NILC Metrix foi treinado um modelo LSA em um grande corpus de textos da Web, chamado BrWaC (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC), com 300 dimensões. BrWac foi disponibilizado em janeiro de 2017, possui 3.53 milhões de documentos, 2.68 bilhões de palavras e 5.79 milhões de formas únicas (TTR 0.0021).

Limitações da métrica:O modelo LSA foi treinado no maior corpus público para o português do Brasil (o BrWaC), em 2021, data da disponibilização pública do NILC METRIX. Entretanto, o BrWaC é um corpus de textos da Web e, assim, pode sofrer limitações deste gênero de textos.

Teste: Paubrasilia echinata é o nome científico do pau-brasil, que é uma leguminosa nativa da floresta atlântica e que está ameaçada de extinção, incluída na Lista Oficial de Espécies da Flora Brasileira Ameaçadas de Extinção. A árvore pode chegar a até 30 metros de altura, tem seu tronco e galhos de cor acinzentada e com espinhos. As flores apresentam cinco pétalas, quatro totalmente amarelas e uma que é amarela com uma mancha vermelha no centro. Essa pétala diferente é chamada de “estandarte”, por chamar a atenção das abelhas, que são seus polinizadores. Ela funciona como um guia visual para as abelhas encontrarem o néctar ao visitarem as flores do pau-brasil.

O exemplo acima possui 5 sentenças, e, portanto, 4 pares de sentenças adjacentes. A similaridade LSA entre a primeira e a segunda sentenças, segundo o modelo utilizado na versão atual do NILC Metrix, é 0.67832, e a similaridade entre a segunda e a terceira sentenças é 0.88399. Entre a terceira e quarta é 0.88495. Entre a quarta e quinta é 0.86569. Nesse caso, o desvio padrão entre esses valores é de 0.08689.

Resultado Esperado: 0.08689
Resultado Obtido: 0.08689



Média de similaridade entre todos os pares de sentenças no texto (id: 9)


Nome da Métrica: lsa_all_mean

Interpretação: Esta métrica calcula coesão global usando o valor médio do cosseno de todos os pares possíveis de sentenças do texto.

Descrição da métrica: Média de similaridade entre todos os pares de sentenças no texto.

Definição dos termos que aparecem na descrição da métrica: Análise Semântica Latente (LSA, em inglês - http://lsa.colorado.edu/) foi adotada no Coh-Metrix e também no NILC Metrix como uma medida de coesão e de coerência semânticas. LSA computa similaridade entre trechos de textos (palavras, orações, textos) considerando conhecimento implícito além de palavras similares. Duas palavras tem similaridade de significado se compartilham palavras similares no seu contexto de uso. Por exemplo, carteira (escolar) é altamente associada com palavras que aparecem no mesmo contexto de uma sala de aula, tal como lousa, giz, professor, aluno, escola.

Forma de cálculo da métrica: O LSA usa um método estatístico denominado decomposição de valor singular (SVD) para reduzir uma grande matriz de coocorrência de palavras de um documento para aproximadamente 100–500 dimensões funcionais. A matriz de coocorrência do documento é simplesmente um registro do número de vezes que a palavra Pi ocorre no documento Dj. Um documento pode ser definido como uma sentença, parágrafo ou seção de um artigo. Cada palavra, sentença, parágrafo ou texto acaba sendo um vetor ponderado nas K dimensões. A correspondência/casamento (ou seja, semelhança de significado) entre dois conjuntos não ordenados de palavras (palavras únicas, sentenças ou textos) é calculada como um cosseno geométrico entre os dois vetores, com valores que variam de -1 a 1, podendo ser ajustado para variar de 0 a 1.

Recursos de PLN utilizados durante o cálculo: Para a implantação das 10 métricas de LSA no NILC Metrix foi treinado um modelo LSA em um grande corpus de textos da Web, chamado BrWaC (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC), com 300 dimensões. BrWac foi disponibilizado em janeiro de 2017, possui 3.53 milhões de documentos, 2.68 bilhões de palavras e 5.79 milhões de formas únicas (TTR 0.0021).

Limitações da métrica:O modelo LSA foi treinado no maior corpus público para o português do Brasil (o BrWaC), em 2021, data da disponibilização pública do NILC METRIX. Entretanto, o BrWaC é um corpus de textos da Web e, assim, pode sofrer limitações deste gênero de textos.

Teste: Paubrasilia echinata é o nome científico do pau-brasil, que é uma leguminosa nativa da floresta atlântica e que está ameaçada de extinção, incluída na Lista Oficial de Espécies da Flora Brasileira Ameaçadas de Extinção. A árvore pode chegar a até 30 metros de altura, tem seu tronco e galhos de cor acinzentada e com espinhos. As flores apresentam cinco pétalas, quatro totalmente amarelas e uma que é amarela com uma mancha vermelha no centro.

O exemplo acima possui 3 sentenças, e, portanto, 3 pares de sentenças diferentes. A similaridade LSA entre a primeira e a segunda sentenças, segundo o modelo utilizado na versão atual do NILC Metrix, é 0.67832, e a similaridade entre a segunda e a terceira sentenças é 0.88399. A similaridade entre a primeira e terceira sentenças é 0.68723. Nesse caso, a média entre esses valores é de 0.74985

Resultado Esperado: 0.74985
Resultado Obtido: 0.74985



Desvio padrão de similaridade entre todos os pares possíveis de sentenças do texto (id: 10)


Nome da Métrica: lsa_all_std

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Desvio padrão de similaridade entre todos os pares possíveis de sentenças do texto.

Definição dos termos que aparecem na descrição da métrica: Análise Semântica Latente (LSA, em inglês - http://lsa.colorado.edu/) foi adotada no Coh-Metrix e também no NILC Metrix como uma medida de coesão e de coerência semânticas. LSA computa similaridade entre trechos de textos (palavras, orações, textos) considerando conhecimento implícito além de palavras similares. Duas palavras tem similaridade de significado se compartilham palavras similares no seu contexto de uso. Por exemplo, carteira (escolar) é altamente associada com palavras que aparecem no mesmo contexto de uma sala de aula, tal como lousa, giz, professor, aluno, escola.

Forma de cálculo da métrica: O LSA usa um método estatístico denominado decomposição de valor singular (SVD) para reduzir uma grande matriz de coocorrência de palavras de um documento para aproximadamente 100–500 dimensões funcionais. A matriz de coocorrência do documento é simplesmente um registro do número de vezes que a palavra Pi ocorre no documento Dj. Um documento pode ser definido como uma sentença, parágrafo ou seção de um artigo. Cada palavra, sentença, parágrafo ou texto acaba sendo um vetor ponderado nas K dimensões. A correspondência/casamento (ou seja, semelhança de significado) entre dois conjuntos não ordenados de palavras (palavras únicas, sentenças ou textos) é calculada como um cosseno geométrico entre os dois vetores, com valores que variam de -1 a 1, podendo ser ajustado para variar de 0 a 1.

Recursos de PLN utilizados durante o cálculo: Para a implantação das 10 métricas de LSA no NILC Metrix foi treinado um modelo LSA em um grande corpus de textos da Web, chamado BrWaC (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC), com 300 dimensões. BrWac foi disponibilizado em janeiro de 2017, possui 3.53 milhões de documentos, 2.68 bilhões de palavras e 5.79 milhões de formas únicas (TTR 0.0021).

Limitações da métrica: O modelo LSA foi treinado no maior corpus público para o português do Brasil (o BrWaC), em 2021, data da disponibilização pública do NILC METRIX. Entretanto, o BrWaC é um corpus de textos da Web e, assim, pode sofrer limitações deste gênero de textos.

Teste: Paubrasilia echinata é o nome científico do pau-brasil, que é uma leguminosa nativa da floresta atlântica e que está ameaçada de extinção, incluída na Lista Oficial de Espécies da Flora Brasileira Ameaçadas de Extinção. A árvore pode chegar a até 30 metros de altura, tem seu tronco e galhos de cor acinzentada e com espinhos. As flores apresentam cinco pétalas, quatro totalmente amarelas e uma que é amarela com uma mancha vermelha no centro.

O exemplo acima possui 3 sentenças, e, portanto, 3 pares de sentenças diferentes. A similaridade LSA entre a primeira e a segunda sentenças, segundo o modelo utilizado na versão atual do NILC Metrix, é 0.67832, e a similaridade entre a segunda e a terceira sentenças é 0.88399. A similaridade entre a primeira e terceira sentenças é 0.68723.
Nesse caso, o desvio padrão entre esses valores é de 0.09492.

Resultado Esperado: 0.09492
Resultado Obtido: 0.09492



Média do *givenness* da cada sentença do texto, a partir da segunda (id: 11)


Nome da Métrica: lsa_givenness_mean

Interpretação: A média de *givenness* das sentenças computa quanto de informação dada (em oposto a nova informação) existe em cada sentença de um texto, comparando com o conteúdo de informação anterior no texto. Se o texto possui apenas uma sentença, define-se a métrica como 0,0.

Descrição da métrica: Média do *givenness* da cada sentença do texto, a partir da segunda.

Definição dos termos que aparecem na descrição da métrica: Define-se o *givenness* de uma sentença como a similaridade LSA entre a sentença e todo o texto que a precede.
LSA computa similaridade entre trechos de textos (palavras, orações, textos) considerando conhecimento implícito além de palavras similares. Duas palavras tem similaridade de significado se compartilham palavras similares no seu contexto de uso. Por exemplo, carteira (escolar) é altamente associada com palavras que aparecem no mesmo contexto de uma sala de aula, tal como lousa, giz, professor, aluno, escola.

Forma de cálculo da métrica: Todo o texto anterior à sentença é mapeado em um vetor e então calcula-se a similaridade do cosseno entre o vetor da sentença atual e esse vetor.

Recursos de PLN utilizados durante o cálculo: Para a implantação das 10 métricas de LSA no NILC Metrix foi treinado um modelo LSA em um grande corpus de textos da Web, chamado BrWaC (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC), com 300 dimensões. BrWac foi disponibilizado em janeiro de 2017, possui 3.53 milhões de documentos, 2.68 bilhões de palavras e 5.79 milhões de formas únicas (TTR 0.0021).

Limitações da métrica: O modelo LSA foi treinado no maior corpus público para o português do Brasil (o BrWaC), em 2021, data da disponibilização pública do NILC METRIX. Entretanto, o BrWaC é um corpus de textos da Web e, assim, pode sofrer limitações deste gênero de textos.

Teste: Atualmente, o pau-brasil é muito encontrado em áreas urbanas (praças, parques e avenidas) e dessa forma podem contribuir para a movimentação dos polinizadores entre espaços verdes urbanos e áreas naturais de floresta atlântica próximas desses espaços. Assim, dizemos que suas árvores plantadas nesses locais podem ajudar para a conservação “ex situ” que para a ciência quer dizer “fora do seu lugar de origem”. Mesmo assim, a espécie continua interagindo com o meio ambiente e cumprindo seu papel na natureza.

O exemplo acima possui 3 sentenças, e, portanto, 2 pares de trechos para avaliação da métrica média de *givenness*. O primeiro cálculo será entre a segunda e o contexto anterior que é a primeira sentença; o segundo cálculo será entre a terceira e o contexto anterior composto das primeira/segunda sentenças. Calcula-se, então, a média entre estes valores.

Resultado Esperado: 0.87081
Resultado Obtido: 0.87081



Desvio padrão do *givenness* da cada sentença do texto, a partir da segunda (id: 12)


Nome da Métrica: lsa_givenness_std

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Desvio padrão do *givenness* da cada sentença do texto, a partir da segunda. Se o texto possui apenas uma sentença, define-se a métrica como 0,0. Define-se o *givenness* de uma sentença como a similaridade LSA entre a sentença e todo o texto que a precede.

Definição dos termos que aparecem na descrição da métrica: Define-se o *givenness* de uma sentença como a similaridade LSA entre a sentença e todo o texto que a precede. LSA computa similaridade entre trechos de textos (palavras, orações, textos) considerando conhecimento implícito além de palavras similares. Duas palavras tem similaridade de significado se compartilham palavras similares no seu contexto de uso. Por exemplo, carteira (escolar) é altamente associada com palavras que aparecem no mesmo contexto de uma sala de aula, tal como lousa, giz, professor, aluno, escola.

Forma de cálculo da métrica: O LSA usa um método estatístico denominado decomposição de valor singular (SVD) para reduzir uma grande matriz de coocorrência de palavras de um documento para aproximadamente 100–500 dimensões funcionais. A matriz de coocorrência do documento é simplesmente um registro do número de vezes que a palavra Pi ocorre no documento Dj. Um documento pode ser definido como uma sentença, parágrafo ou seção de um artigo. Cada palavra, sentença, parágrafo ou texto acaba sendo um vetor ponderado nas K dimensões. A correspondência/casamento (ou seja, semelhança de significado) entre dois conjuntos não ordenados de palavras (palavras únicas, sentenças ou textos) é calculada como um cosseno geométrico entre os dois vetores, com valores que variam de -1 a 1, podendo ser ajustado para variar de 0 a 1.

Recursos de PLN utilizados durante o cálculo: Para a implantação das 10 métricas de LSA no NILC Metrix foi treinado um modelo LSA em um grande corpus de textos da Web, chamado BrWaC (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC), com 300 dimensões. BrWac foi disponibilizado em janeiro de 2017, possui 3.53 milhões de documentos, 2.68 bilhões de palavras e 5.79 milhões de formas únicas (TTR 0.0021).

Limitações da métrica: O modelo LSA foi treinado no maior corpus público para o português do Brasil (o BrWaC), em 2021, data da disponibilização pública do NILC METRIX. Entretanto, o BrWaC é um corpus de textos da Web e, assim, pode sofrer limitações deste gênero de textos.

Teste: Atualmente, o pau-brasil é muito encontrado em áreas urbanas (praças, parques e avenidas) e dessa forma podem contribuir para a movimentação dos polinizadores entre espaços verdes urbanos e áreas naturais de floresta atlântica próximas desses espaços. Assim, dizemos que suas árvores plantadas nesses locais podem ajudar para a conservação “ex situ” que para a ciência quer dizer “fora do seu lugar de origem”. Mesmo assim, a espécie continua interagindo com o meio ambiente e cumprindo seu papel na natureza.

O exemplo acima possui 3 sentenças, e, portanto, 2 pares de trechos para avaliação da métrica desvio padrão de *givenness*. O primeiro cálculo será entre a segunda e o contexto anterior que é a primeira sentença; o segundo cálculo será entre a terceira e o contexto anterior composto das primeira/segunda sentenças. Calcula-se, então, o desvio padrão entre estes valores.

Resultado Esperado: 0.02301
Resultado Obtido: 0.02301



Média de similaridade entre pares de parágrafos adjacentes no texto (id: 13)


Nome da Métrica: lsa_paragraph_mean

Interpretação: O LSA relacionado aos parágrafos é outra métrica do LSA, via média entre parágrafos adjacentes. Isso mede a semelhança de um parágrafo com os outros parágrafos do texto. Esta métrica é calculada do mesmo modo que a média entre sentenças adjacentes, mas utilizando-se parágrafos, ao invés de sentenças, como unidades.

Descrição da métrica: Média de similaridade entre pares de parágrafos adjacentes no texto.

Definição dos termos que aparecem na descrição da métrica: Análise Semântica Latente (LSA, em inglês - http://lsa.colorado.edu/) foi adotada no Coh-Metrix e também no NILC Metrix como uma medida de coesão e de coerência semânticas. LSA computa similaridade entre trechos de textos (palavras, orações, textos) considerando conhecimento implícito além de palavras similares. Duas palavras tem similaridade de significado se compartilham palavras similares no seu contexto de uso. Por exemplo, carteira (escolar) é altamente associada com palavras que aparecem no mesmo contexto de uma sala de aula, tal como lousa, giz, professor, aluno, escola.

Forma de cálculo da métrica: O LSA usa um método estatístico denominado decomposição de valor singular (SVD) para reduzir uma grande matriz de coocorrência de palavras de um documento para aproximadamente 100–500 dimensões funcionais. A matriz de coocorrência do documento é simplesmente um registro do número de vezes que a palavra Pi ocorre no documento Dj. Um documento pode ser definido como uma sentença, parágrafo ou seção de um artigo. Cada palavra, sentença, parágrafo ou texto acaba sendo um vetor ponderado nas K dimensões. A correspondência/casamento (ou seja, semelhança de significado) entre dois conjuntos não ordenados de palavras (palavras únicas, sentenças ou textos) é calculada como um cosseno geométrico entre os dois vetores, com valores que variam de -1 a 1, podendo ser ajustado para variar de 0 a 1.

Recursos de PLN utilizados durante o cálculo: Para a implantação das 10 métricas de LSA no NILC Metrix foi treinado um modelo LSA em um grande corpus de textos da Web, chamado BrWaC (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC), com 300 dimensões. BrWac foi disponibilizado em janeiro de 2017, possui 3.53 milhões de documentos, 2.68 bilhões de palavras e 5.79 milhões de formas únicas (TTR 0.0021).

Limitações da métrica:O modelo LSA foi treinado no maior corpus público para o português do Brasil (o BrWaC), em 2021, data da disponibilização pública do NILC METRIX. Entretanto, o BrWaC é um corpus de textos da Web e, assim, pode sofrer limitações deste gênero de textos.

Teste: Paubrasilia echinata é o nome científico do pau-brasil, que é uma leguminosa nativa da floresta atlântica e que está ameaçada de extinção, incluída na Lista Oficial de Espécies da Flora Brasileira Ameaçadas de Extinção. A árvore pode chegar a até 30 metros de altura, tem seu tronco e galhos de cor acinzentada e com espinhos. As flores apresentam cinco pétalas, quatro totalmente amarelas e uma que é amarela com uma mancha vermelha no centro. Essa pétala diferente é chamada de “estandarte”, por chamar a atenção das abelhas, que são seus polinizadores. Ela funciona como um guia visual para as abelhas encontrarem o néctar ao visitarem as flores do pau-brasil.

Os frutos são vagens verdes que quando estão maduras se tornam secas e marrons. Esse tipo de fruto é chamado de legume, que é um fruto bem comum na família do pau-brasil. No pau-brasil há espinhos até nas vagens, que alguns autores já compararam com ouriços.

Atualmente, o pau-brasil é muito encontrado em áreas urbanas (praças, parques e avenidas) e dessa forma podem contribuir para a movimentação dos polinizadores entre espaços verdes urbanos e áreas naturais de floresta atlântica próximas desses espaços. Assim, dizemos que suas árvores plantadas nesses locais podem ajudar para a conservação “ex situ” que para a ciência quer dizer “fora do seu lugar de origem”. Mesmo assim, a espécie continua interagindo com o meio ambiente e cumprindo seu papel na natureza.

O exemplo acima possui 3 parágrafos, e, portanto, 2 pares de parágrafos adjacentes. A similaridade LSA entre o primeiro e segundo parágrafos, segundo o modelo utilizado na versão atual do NILC Metrix, é 0.92724, e a similaridade entre o segundo e terceiro parágrafos é 0.89615. Nesse caso, a média entre esses valores é de 0.91162.

Resultado Esperado: 0.91162
Resultado Obtido: 0.91162



Desvio padrão entre parágrafos adjacentes no texto (id: 14)


Nome da Métrica: lsa_paragraph_std

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Desvio padrão entre parágrafos adjacentes no texto é uma métrica calculada do mesmo modo que o desvio padrão entre sentenças adjacentes, mas utilizando-se parágrafos, ao invés de sentenças, como unidades.

Definição dos termos que aparecem na descrição da métrica: Análise Semântica Latente (LSA, em inglês - http://lsa.colorado.edu/) foi adotada no Coh-Metrix e também no NILC Metrix como uma medida de coesão e de coerência semânticas. LSA computa similaridade entre trechos de textos (palavras, orações, textos) considerando conhecimento implícito além de palavras similares. Duas palavras tem similaridade de significado se compartilham palavras similares no seu contexto de uso. Por exemplo, carteira (escolar) é altamente associada com palavras que aparecem no mesmo contexto de uma sala de aula, tal como lousa, giz, professor, aluno, escola.

Forma de cálculo da métrica: O LSA usa um método estatístico denominado decomposição de valor singular (SVD) para reduzir uma grande matriz de coocorrência de palavras de um documento para aproximadamente 100–500 dimensões funcionais. A matriz de coocorrência do documento é simplesmente um registro do número de vezes que a palavra Pi ocorre no documento Dj. Um documento pode ser definido como uma sentença, parágrafo ou seção de um artigo. Cada palavra, sentença, parágrafo ou texto acaba sendo um vetor ponderado nas K dimensões. A correspondência/casamento (ou seja, semelhança de significado) entre dois conjuntos não ordenados de palavras (palavras únicas, sentenças ou textos) é calculada como um cosseno geométrico entre os dois vetores, com valores que variam de -1 a 1, podendo ser ajustado para variar de 0 a 1.

Recursos de PLN utilizados durante o cálculo: Para a implantação das 10 métricas de LSA no NILC Metrix foi treinado um modelo LSA em um grande corpus de textos da Web, chamado BrWaC (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC), com 300 dimensões. BrWac foi disponibilizado em janeiro de 2017, possui 3.53 milhões de documentos, 2.68 bilhões de palavras e 5.79 milhões de formas únicas (TTR 0.0021).

Limitações da métrica: O modelo LSA foi treinado no maior corpus público para o português do Brasil (o BrWaC), em 2021, data da disponibilização pública do NILC METRIX. Entretanto, o BrWaC é um corpus de textos da Web e, assim, pode sofrer limitações deste gênero de textos.

Teste: Paubrasilia echinata é o nome científico do pau-brasil, que é uma leguminosa nativa da floresta atlântica e que está ameaçada de extinção, incluída na Lista Oficial de Espécies da Flora Brasileira Ameaçadas de Extinção. A árvore pode chegar a até 30 metros de altura, tem seu tronco e galhos de cor acinzentada e com espinhos. As flores apresentam cinco pétalas, quatro totalmente amarelas e uma que é amarela com uma mancha vermelha no centro. Essa pétala diferente é chamada de “estandarte”, por chamar a atenção das abelhas, que são seus polinizadores. Ela funciona como um guia visual para as abelhas encontrarem o néctar ao visitarem as flores do pau-brasil.

Os frutos são vagens verdes que quando estão maduras se tornam secas e marrons. Esse tipo de fruto é chamado de legume, que é um fruto bem comum na família do pau-brasil. No pau-brasil há espinhos até nas vagens, que alguns autores já compararam com ouriços.

Atualmente, o pau-brasil é muito encontrado em áreas urbanas (praças, parques e avenidas) e dessa forma podem contribuir para a movimentação dos polinizadores entre espaços verdes urbanos e áreas naturais de floresta atlântica próximas desses espaços. Assim, dizemos que suas árvores plantadas nesses locais podem ajudar para a conservação “ex situ” que para a ciência quer dizer “fora do seu lugar de origem”. Mesmo assim, a espécie continua interagindo com o meio ambiente e cumprindo seu papel na natureza.

O exemplo acima possui 3 parágrafos, e, portanto, 2 pares de parágrafos adjacentes. A similaridade LSA entre o primeiro e segundo parágrafos, segundo o modelo utilizado na versão atual do NILC Metrix, é 0.92724, e a similaridade entre o segundo e terceiro parágrafos é 0.89615. Nesse caso, o desvio padrão entre esses valores é de 0.01554.

Resultado Esperado: 0.01554
Resultado Obtido: 0.01554



Média do *span* da cada sentença do texto, a partir da segunda (id: 15)


Nome da Métrica: lsa_span_mean

Interpretação: O span de uma sentença, assim como o givenness, é uma forma de medir a proximidade entre uma sentença e o contexto que a precede. Se o texto possui apenas uma sentença, define-se a métrica como 0,0.

Descrição da métrica: Média do *span* da cada sentença do texto, a partir da segunda.

Definição dos termos que aparecem na descrição da métrica: O span procura capturar a similaridade não apenas com o conteúdo explícito apresentado anteriormente no texto, mas também com tudo o que se pode inferir com base nesse conteúdo.

Forma de cálculo da métrica: Este método consiste em, ao invés de transformar as k sentenças anteriores à sentença atual em um único vetor no espaço, utiliza-se essas sentenças como a base de um sub-espaço vetorial. Em seguida, decompõe-se a sentença atual em duas componentes: uma componente pertencente ao sub-espaço das sentenças anteriores, e uma componente perpendicular a esse espaço. A componente que pertence ao espaço é interpretada como informação dada (givenness), e a componente perpendicular como informação nova (newness).

Recursos de PLN utilizados durante o cálculo: Para a implantação das 10 métricas de LSA no NILC Metrix foi treinado um modelo LSA em um grande corpus de textos da Web, chamado BrWaC (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC), com 300 dimensões. BrWac foi disponibilizado em janeiro de 2017, possui 3.53 milhões de documentos, 2.68 bilhões de palavras e 5.79 milhões de formas únicas (TTR 0.0021).

Limitações da métrica: O modelo LSA foi treinado no maior corpus público para o português do Brasil (o BrWaC), em 2021, data da disponibilização pública do NILC METRIX. Entretanto, o BrWaC é um corpus de textos da Web e, assim, pode sofrer limitações deste gênero de textos.

Teste: Atualmente, o pau-brasil é muito encontrado em áreas urbanas (praças, parques e avenidas) e dessa forma podem contribuir para a movimentação dos polinizadores entre espaços verdes urbanos e áreas naturais de floresta atlântica próximas desses espaços. Assim, dizemos que suas árvores plantadas nesses locais podem ajudar para a conservação “ex situ” que para a ciência quer dizer “fora do seu lugar de origem”. Mesmo assim, a espécie continua interagindo com o meio ambiente e cumprindo seu papel na natureza.

O exemplo acima possui 3 sentenças, e, portanto, 2 pares de trechos para avaliação da métrica média de span. O primeiro cálculo será entre a segunda e o contexto anterior que é a primeira sentença; o segundo cálculo será entre a terceira e o contexto anterior composto das primeira/segunda sentenças. Calcula-se, então, a média entre estes valores.

Resultado Esperado: 0.88261
Resultado Obtido: 0.88261



Desvio padrão do span da cada sentença do texto, a partir da segunda (id: 16)


Nome da Métrica: lsa_span_std

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Desvio padrão do span da cada sentença do texto, a partir da segunda. O span de uma sentença, assim como o givenness, é uma forma de medir a proximidade entre uma sentença e o contexto que a precede. Se o texto possui apenas uma sentença, define-se a métrica como 0,0.

Definição dos termos que aparecem na descrição da métrica: O span procura capturar a similaridade não apenas com o conteúdo explícito apresentado anteriormente no texto, mas também com tudo o que se pode inferir com base nesse conteúdo.

Forma de cálculo da métrica: Este método consiste em, ao invés de transformar as k sentenças anteriores à sentença atual em um único vetor no espaço, utiliza-se essas sentenças como a base de um sub-espaço vetorial. Em seguida, decompõe-se a sentença atual em duas componentes: uma componente pertencente ao sub-espaço das sentenças anteriores, e uma componente perpendicular a esse espaço. A componente que pertence ao espaço é interpretada como informação dada (givenness), e a componente perpendicular como informação nova (newness).

Recursos de PLN utilizados durante o cálculo: Para a implantação das 10 métricas de LSA no NILC Metrix foi treinado um modelo LSA em um grande corpus de textos da Web, chamado BrWaC (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC), com 300 dimensões. BrWac foi disponibilizado em janeiro de 2017, possui 3.53 milhões de documentos, 2.68 bilhões de palavras e 5.79 milhões de formas únicas (TTR 0.0021).

Limitações da métrica: O modelo LSA foi treinado no maior corpus público para o português do Brasil (o BrWaC), em 2021, data da disponibilização pública do NILC METRIX. Entretanto, o BrWaC é um corpus de textos da Web e, assim, pode sofrer limitações deste gênero de textos.

Teste: Atualmente, o pau-brasil é muito encontrado em áreas urbanas (praças, parques e avenidas) e dessa forma podem contribuir para a movimentação dos polinizadores entre espaços verdes urbanos e áreas naturais de floresta atlântica próximas desses espaços. Assim, dizemos que suas árvores plantadas nesses locais podem ajudar para a conservação “ex situ” que para a ciência quer dizer “fora do seu lugar de origem”. Mesmo assim, a espécie continua interagindo com o meio ambiente e cumprindo seu papel na natureza.

O exemplo acima possui 3 sentenças, e, portanto, 2 pares de trechos para avaliação da métrica desvio padrão de span. O primeiro cálculo será entre a segunda e o contexto anterior que é a primeira sentença; o segundo cálculo será entre a terceira e o contexto anterior composto das primeira/segunda sentenças. Calcula-se, então, o desvio padrão entre estes valores.

Resultado Esperado: 0.03488
Resultado Obtido: 0.03488



Média da entropia cruzadas das sentenças do texto (id: 6)


Nome da Métrica: cross_entropy

Interpretação: Os valores da métrica variam de 0 a 1 e quanto maior a entropia cruzada de uma sentença, maior a complexidade das palavras em relação ao modelo de língua estatístico treinado - um modelo de trigramas. Valores maiores de entropia cruzada significam que a sentença possui combinações não usuais de palavras.

Descrição da métrica: Média da entropia cruzadas das sentenças do texto.

Definição dos termos que aparecem na descrição da métrica: A entropia cruzada mede o nível de "surpresa" do modelo de língua diante da sentença. Um modelo de língua estatístico é uma distribuição de probabilidade sobre sequências de palavras. Dada essa sequência, por exemplo, com m palavras, ele atribui uma probabilidade a toda a sequência. Um modelo de língua de trigramas denota um modelo n-gram em que o n=3.

Forma de cálculo da métrica: Para o cálculo da entropia cruzada, foi utilizado um modelo de língua estatístico de trigramas com suavização Kneser-Ney modificada, gerado pela ferramenta KenLM (https://github.com/kpu/kenlm) sobre o corpus de 120.813.620 tokens, que consiste na união dos corpus Wikipedia, PLN-BR, Lácio-Web, e Revista Pesquisa FAPESP. O n=3 foi escolhido devido ao tamanho do corpus de treinamento e a suavização de Kneser-Ney por ser a mais utilizada para modelos n-gram.

Recursos de PLN utilizados durante o cálculo: O corpus de treinamento consiste na união de 4 corpus de gêneros diversos: (i) Wikipedia, gênero enciclopédico, parte de m dump de 2014 (ii) PLN-BR citado no (http://www.NILC.icmc.usp.br/NILC/index.php/repositorio-de-word-embeddings-do-NILC), gênero jornalístico, (iii) Lácio-Web (http://143.107.183.175:22180/lacioweb/index.htm), misto, e (iv) Revista Pesquisa FAPESP (http://www.NILC.icmc.usp.br/NILC/tools/fapesp-corpora.tar.gz), gênero de divulgação científica. Em termos de número de tokens, cada corpus possui, respectivamente, 96.183.280, 18.003.126, 3.723.109 e 2.904.105 tokens.

Limitações da métrica: Esta métrica é dependente do gênero (ou gêneros) do corpus que foi usado para treinar o modelo de língua. Ao avaliar um texto de um novo gênero, não conhecido pelo modelo treinado, o resultado pode ser inadequado. O teste abaixo foi extraído de um texto de divulgação científica para crianças, da Revista Ciência Hoje das Crianças, que possui sentenças da fala coloquial para atrair a atenção das crianças para o assunto científico. Observa-se um contrassenso nos valores da primeira, terceira e última sentenças, que estão em uma linguagem mais informal e ao mesmo tempo apresentam os valores mais altos para a métrica (veja o resultado esperado abaixo).

Teste: Pode apostar que sim, eles fazem um tipo de rapel de macaco! Foi isso que chamou a atenção de alguns pesquisadores que recentemente visitaram Ilhabela, município-arquipélago localizado no litoral norte de São Paulo. Por lá, a Mata Atlântica é muito exuberante e está protegida por um Parque Estadual. Nesse ambiente livre de caçadores, os macacos-prego se divertem à vontade e foram vistos fazendo rapel, ou seja, subindo e descendo um imenso paredão, carregando o que parece ser algum fruto. Devia ser algo muito saboroso para compensar essa escalada toda!

Resultado Esperado: Para o teste, a entropia cruzada da primeira sentença, segundo o modelo, é 0.72494, para a segunda é 0.50363, para a terceira 0.82416, para a quarta 0.52078 e para a última é 0.60233. A média dos valores, com 5 casas decimais, é 0.63517.
Resultado Obtido: 0.63517




5. Medidas Psicolinguísticas


Proporção de palavras com valor de concretude entre 1 e 2,5 em relação a todas as palavras de conteúdo do texto (id: 160)


Nome da Métrica: concretude_1_25_ratio

Interpretação: quanto menor a concretude, maior a complexidade textual. Portanto, quanto maior a proporção de palavras nessa faixa, maior a complexidade.

Descrição da métrica: proporção de palavras com valor de concretude entre 1 a 2,5, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. O repositório psicolinguístico é um recurso lexical com valores para 4 características psicolinguísticas das palavras: concretude, familiaridade, idade de aquisição e imageabilidade. Os valores de concretude variam de 1 a 7 e quanto maior o valor, mais alta a concretude. Palavras com alto valor de concretude são palavras concretas e palavras com baixo valor de concretude são palavras abstratas.

Teste: O aumento de casos frustrou expectativas e fez as autoridades reverem estratégias.

Contagens:

8 palavras de conteúdo, com seus respectivos valores de concretude:

frustrar 2.50
expectativa 2.82
rever 3.09
aumento 3.35
caso 3.95
autoridade 3.50
estratégia 3.86
fazer 3.88

8 palavras de conteúdo identificadas: ('aumento', 'N'), ('casos', 'N'), ('frustrou', 'V'), ('expectativas', 'N'), ('fez', 'V'), ('autoridades', 'N'), ('reverem', 'V'), ('estratégias', 'N')

8 palavras lematizadas: ['aumento', 'caso', 'frustrar', 'expectativa', 'fazer', 'autoridade', 'rever', 'estratégia']

Resultado Esperado: 0,125 (1/8)

Resultado Obtido: 0,125



Proporção de palavras com valor de concretude entre 2,5 e 4 em relação a todas as palavras de conteúdo do texto (id: 161)


Nome da Métrica: concretude_25_4_ratio

Interpretação: quanto menor a concretude, maior a complexidade textual. Portanto, quanto maior a proporção de palavras nessa faixa e na inferior, maior a complexidade.

Descrição da métrica: proporção de palavras com valores de concretude entre 2,5 e 4, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. O repositório psicolinguístico é um recurso lexical com valores para 4 características psicolinguísticas das palavras: concretude, familiaridade, idade de aquisição e imageabilidade. Os valores de concretude variam de 1 a 7 e quanto maior o valor, mais alta a concretude. Palavras com alto valor de concretude são palavras concretas e palavras com baixo valor de concretude são palavras abstratas.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: O aumento de casos frustrou expectativas e fez as autoridades reverem estratégias.

Contagens:

8 palavras de conteúdo, com seus respectivos valores de concretude:

frustrar 2.50
expectativa 2.82
rever 3.09
aumento 3.35
caso 3.95
autoridade 3.50
estratégia 3.86
fazer 3.88

8 palavras de conteúdo identificadas: ('aumento', 'N'), ('casos', 'N'), ('frustrou', 'V'), ('expectativas', 'N'), ('fez', 'V'), ('autoridades', 'N'), ('reverem', 'V'), ('estratégias', 'N')

8 palavras lematizadas: ['aumento', 'caso', 'frustrar', 'expectativa', 'fazer', 'autoridade', 'rever', 'estratégia']

7 palavras no intervalo entre 2,5 e 4,00 de concretude

Resultado Esperado: 0,875 (9/8)

Resultado Obtido: 0,875 (9/8)



Proporção de palavras com valor de concretude entre 4 e 5,5 em relação a todas as palavras de conteúdo do texto (id: 162)


Nome da Métrica: concretude_4_55_ratio

Interpretação: quanto menor a concretude, maior a complexidade textual. Portanto, quanto maior a proporção de palavras nessa faixa e na superior, menor a complexidade.

Descrição da métrica: proporção de palavras com valor de concretude de médio para entre 4 e 5,5, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. O repositório psicolinguístico é um recurso lexical com valores para 4 características psicolinguísticas das palavras: concretude, familiaridade, idade de aquisição e imageabilidade. Os valores de concretude variam de 1 a 7 e quanto maior o valor, mais alta a concretude. Palavras com alto valor de concretude são palavras concretas e palavras com baixo valor de concretude são palavras abstratas.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: O aumento de casos frustrou expectativas e fez as autoridades reverem estratégias.

Contagens:

8 palavras de conteúdo, com seus respectivos valores de concretude:

frustrar 2.50
expectativa 2.82
rever 3.09
aumento 3.35
caso 3.95
autoridade 3.50
estratégia 3.86
fazer 3.88

8 palavras de conteúdo identificadas: ('aumento', 'N'), ('casos', 'N'), ('frustrou', 'V'), ('expectativas', 'N'), ('fez', 'V'), ('autoridades', 'N'), ('reverem', 'V'), ('estratégias', 'N')

8 palavras lematizadas: ['aumento', 'caso', 'frustrar', 'expectativa', 'fazer', 'autoridade', 'rever', 'estratégia']

Nenhuma palavra no intervalo de 4,00 a 5,50 de concretude

Resultado Esperado: 0,0

Resultado Obtido: 0,0



Proporção de palavras com valor de concretude entre 5,5 e 7 em relação a todas as palavras de conteúdo do texto (id 163)


Nome da Métrica: concretude_55_7_ratio

Interpretação: quanto menor a concretude, maior a complexidade textual. Portanto, quanto maior a proporção de palavras nessa faixa, menor a complexidade.

Descrição da métrica: proporção de palavras com valor de concretude entre 5,5 e 7, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. O repositório psicolinguístico é um recurso lexical com valores para 4 características psicolinguísticas das palavras: concretude, familiaridade, idade de aquisição e imageabilidade. Os valores de concretude variam de 1 a 7 e quanto maior o valor, mais alta a concretude. Palavras com alto valor de concretude são palavras concretas e palavras com baixo valor de concretude são palavras abstratas.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: O aumento de casos frustrou expectativas e fez as autoridades reverem estratégias.

Contagens:

8 palavras de conteúdo, com seus respectivos valores de concretude:

frustrar 2.50
expectativa 2.82
rever 3.09
aumento 3.35
caso 3.95
autoridade 3.50
estratégia 3.86
fazer 3.88

8 palavras de conteúdo identificadas: ('aumento', 'N'), ('casos', 'N'), ('frustrou', 'V'), ('expectativas', 'N'), ('fez', 'V'), ('autoridades', 'N'), ('reverem', 'V'), ('estratégias', 'N')

8 palavras lematizadas: ['aumento', 'caso', 'frustrar', 'expectativa', 'fazer', 'autoridade', 'rever', 'estratégia']

Nenhuma palavra no intervalo de 5,50 a 7,00 de concretude

Resultado Esperado: 0,0

Resultado Obtido: 0,0



Média dos valores de concretude das palavras de conteúdo do texto (id: 164)


Nome da Métrica: concretude_mean

Interpretação: Quanto maior a média de concretude, menor a complexidade textual

Descrição da métrica: Identificam-se as palavras de conteúdo do texto. Em seguida, lematizam-se essas palavras, usando o DELAF, e procuram-se seus respectivos valores de concretude. Calcula-se a média desses valores (somam-se os valores e divide-se o resultado pela quantidade de palavras de conteúdo do texto presentes no repositório psicolinguístico).

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Concretude é uma característica psicolinguística das palavras de conteúdo e significa o quanto a palavra pode ser traduzida por uma imagem na opinião dos falantes da língua. Os valores variam de 1 a 7 e quanto maior o valor, maior a concretude.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: O aumento de casos frustrou expectativas e fez as autoridades reverem estratégias.

Contagens:

8 palavras de conteúdo, com seus respectivos valores de concretude:

frustrar 2.50
expectativa 2.82
rever 3.09
aumento 3.35
caso 3.95
autoridade 3.50
estratégia 3.86
fazer 3.88

8 palavras de conteúdo identificadas: ('aumento', 'N'), ('casos', 'N'), ('frustrou', 'V'), ('expectativas', 'N'), ('fez', 'V'), ('autoridades', 'N'), ('reverem', 'V'), ('estratégias', 'N')

8 palavras lematizadas: ['aumento', 'caso', 'frustrar', 'expectativa', 'fazer', 'autoridade', 'rever', 'estratégia']

Resultado esperado: 3,36923
Resultado Obtido: 3,36923



Desvio padrão do valor de concretude das palavras de conteúdo do texto (id: 165)


Nome da Métrica: concretude_std

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Identificam-se as palavras de conteúdo do texto. Em seguida, lematizam-se essas palavras, usando o DELAF, e procuram-se seus respectivos valores de concretude. Calcula-se o desvio-padrão desses valores.

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Concretude é uma característica psicolinguística das palavras de conteúdo e significa o quanto a palavra pode ser traduzida por uma imagem na opinião dos falantes da língua. Os valores variam de 1 a 7 e quanto maior o valor, maior a concretude.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: O aumento de casos frustrou expectativas e fez as autoridades reverem estratégias.

Contagens:

8 palavras de conteúdo, com seus respectivos valores de concretude:

frustrar 2.50
expectativa 2.82
rever 3.09
aumento 3.35
caso 3.95
autoridade 3.50
estratégia 3.86
fazer 3.88

8 palavras de conteúdo identificadas: ('aumento', 'N'), ('casos', 'N'), ('frustrou', 'V'), ('expectativas', 'N'), ('fez', 'V'), ('autoridades', 'N'), ('reverem', 'V'), ('estratégias', 'N')

8 palavras lematizadas: ['aumento', 'caso', 'frustrar', 'expectativa', 'fazer', 'autoridade', 'rever', 'estratégia']

Resultado esperado: 0.50112
Resultado Obtido: 0.50112



Proporção de palavras com valor de familiaridade entre 1 e 2,5 em relação a todas as palavras de conteúdo do texto (id: 166)


Nome da Métrica: familiaridade_1_25_ratio

Interpretação: quanto maior a proporção de palavras nessa faixa, maior a complexidade textual

Descrição da métrica: Proporção de palavras de conteúdo com valores de familiaridade entre 1 a 2,5, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico.

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Familiaridade é uma característica psicolinguística das palavras de conteúdo e representa o quanto os falantes da língua conhecem e usam uma palavra em suas vidas cotidianas. Os valores variam de 1 a 7 e quanto maior o valor, maior a familiaridade.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Desde que a canonização foi confirmada pelo Vaticano, o movimento no Mosteiro da Luz tem aumentado -- e o interesse da imprensa também.

Contagens:

12 palavras de conteúdo, com os seguintes valores de familiaridade:

Canonização 2,48; Mosteiro 3,04; Vaticano 3,45; Confirmada 4,38; Movimento 4,84; Luz 5,57; Aumentar 4,89; Imprensa 4,90; Interesse 5,31; Também 5,44; Ser 5,50; Ter 5,81

9 palavras de conteúdo reconhecidas e lematizadas pelo programa: ['canonização', 'ir', 'confirmado', 'movimento', 'ter', 'aumentado', 'interesse', 'imprensa', 'também'] O programa não reconheceu os Nomes Próprios (Vaticano, Mosteiro, Luz) como palavras de conteúdo. O verbo “foi” (que é uma forma ambígua) foi lematizado incorretamente para “ir” e não para “ser”.

7 palavras encontradas no repositório psicolinguístico (os particípios “confirmado” e “aumentado” foram lematizado como adjetivos e por isso não foram encontrados no repositório; eles só seriam encontrados se fossem lematizados como verbos: confirmar” e “aumentar”).

1 palavra com familiaridade de 1 a 2,5 (canonização)

Resultado Esperado: 0,083 (1/12)

Resultado Obtido: 0,143 (1/7)



Proporção de palavras com valor de familiaridade entre 2,5 e 4 em relação a todas as palavras de conteúdo do texto (id: 167)


Nome da Métrica: familiaridade_25_4_ratio

Interpretação: quanto maior a proporção de palavras nessa faixa e na inferior, maior a complexidade textual

Descrição da métrica: Proporção de palavras de conteúdo com familiaridade entre 2,5 e 4, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico.

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Familiaridade é uma característica psicolinguística das palavras de conteúdo e significa o quanto a palavra pode ser traduzida por uma imagem na opinião dos falantes da língua. Os valores variam de 1 a 7 e quanto maior o valor, maior a familiaridade.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Desde que a canonização foi confirmada pelo Vaticano, o movimento no Mosteiro da Luz tem aumentado -- e o interesse da imprensa também.

Contagens:

12 palavras de conteúdo, com os seguintes valores de familiaridade:

Canonização 2,48; Mosteiro 3,04; Vaticano 3,45; Confirmada 4,38; Movimento 4,84; Luz 5,57; Aumentar 4,89; Imprensa 4,90; Interesse 5,31; Também 5,44; Ser 5,50; Ter 5,81

9 palavras de conteúdo reconhecidas e lematizadas pelo programa: ['canonização', 'ir', 'confirmado', 'movimento', 'ter', 'aumentado', 'interesse', 'imprensa', 'também'] O programa não reconheceu os Nomes Próprios (Vaticano, Mosteiro, Luz) como palavras de conteúdo. O verbo “foi” (que é uma forma ambígua) foi lematizado incorretamente para “ir” e não para “ser”.

7 palavras encontradas no repositório psicolinguístico (os particípios “confirmado” e “aumentado” foram lematizado como adjetivos e por isso não foram encontrados no repositório; eles só seriam encontrados se fossem lematizados como verbos: confirmar” e “aumentar”).

2 palavras com familiaridade de 2,5 a 4,0: 2 (mosteiro, vaticano)

Resultado Esperado: 0,167 (2/12)

Resultado Obtido: 0,0



Proporção de palavras com valor de familiaridade entre 4 e 5,5 em relação a todas as palavras de conteúdo do texto (id: 168)


Nome da Métrica: familiaridade_4_55_ratio

Interpretação: quanto maior a proporção de palavras nessa faixa e na superior, menor a complexidade textual.

Descrição da métrica: proporção de palavras com valor de familiaridade entre 4 a 5,5, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. O repositório psicolinguístico é um recurso lexical com valores para 4 características psicolinguísticas das palavras: concretude, familiaridade, idade de aquisição e imageabilidade. Familiaridade é uma característica psicolinguística das palavras de conteúdo e representa o quanto os falantes da língua conhecem e usam uma palavra em suas vidas cotidianas. Os valores variam de 1 a 7 e quanto maior o valor, maior a familiaridade.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Desde que a canonização foi confirmada pelo Vaticano, o movimento no Mosteiro da Luz tem aumentado -- e o interesse da imprensa também.

Contagens:

12 palavras de conteúdo, com os seguintes valores de familiaridade:

Canonização 2,48; Mosteiro 3,04; Vaticano 3,45; Confirmada 4,38; Movimento 4,84; Luz 5,57; Aumentar 4,89; Imprensa 4,90; Interesse 5,31; Também 5,44; Ser 5,50; Ter 5,81

9 palavras de conteúdo reconhecidas e lematizadas pelo programa: ['canonização', 'ir', 'confirmado', 'movimento', 'ter', 'aumentado', 'interesse', 'imprensa', 'também']

O programa não reconheceu os Nomes Próprios (Vaticano, Mosteiro, Luz) como palavras de conteúdo. O verbo “foi” (que é uma forma ambígua) foi lematizado incorretamente para “ir” e não para “ser”.

7 palavras encontradas no repositório psicolinguístico (os particípios “confirmado” e “aumentado” foram lematizado como adjetivos e por isso não foram encontrados no repositório; eles só seriam encontrados se fossem lematizados como verbos: confirmar” e “aumentar”).

6 palavras com familiaridade de 4,0 a 5,5 (confirmar, movimento, aumentar, interesse, imprensa, também)

Resultado esperado: 0,50 (6/12)

Resultado obtido: 0,5710 (4/7)



Proporção de palavras com valor de familiaridade entre 5,5 e 7 em relação a todas as palavras de conteúdo do texto (id: 169)


Nome da Métrica: familiaridade_55_7_ratio

Interpretação: quanto maior for o resultado, maior é a familiaridade e menor a complexidade textual

Descrição da métrica: proporção de palavras com valor de familiaridade entre 5,5 e 7, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. O repositório psicolinguístico é um recurso lexical com valores para 4 características psicolinguísticas das palavras: concretude, familiaridade, idade de aquisição e imageabilidade. Familiaridade é uma característica psicolinguística das palavras de conteúdo e representa o quanto os falantes da língua conhecem e usam uma palavra em suas vidas cotidianas. Os valores variam de 1 a 7 e quanto maior o valor, maior a familiaridade.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Desde que a canonização foi confirmada pelo Vaticano, o movimento no Mosteiro da Luz tem aumentado -- e o interesse da imprensa também.

Contagens:

12 palavras de conteúdo, com os seguintes valores de familiaridade:

Canonização 2,48; Mosteiro 3,04; Vaticano 3,45; Confirmada 4,38; Movimento 4,84; Luz 5,57; Aumentar 4,89; Imprensa 4,90; Interesse 5,31; Também 5,44; Ser 5,50; Ter 5,81

9 palavras de conteúdo reconhecidas e lematizadas pelo programa: ['canonização', 'ir', 'confirmado', 'movimento', 'ter', 'aumentado', 'interesse', 'imprensa', 'também'] O programa não reconheceu os Nomes Próprios (Vaticano, Mosteiro, Luz) como palavras de conteúdo. O verbo “foi” (que é uma forma ambígua) foi lematizado incorretamente para “ir” e não para “ser”.

7 palavras encontradas no repositório psicolinguístico (os particípios “confirmado” e “aumentado” foram lematizado como adjetivos e por isso não foram encontrados no repositório; eles só seriam encontrados se fossem lematizados como verbos: confirmar” e “aumentar”).

3 palavras com familiaridade de 5,5 a 7,00 (ser, luz, ter)

Resultado esperado: 0,25 (3/12)

Resultado Obtido: 0,286 (2/7)



Média dos valores de familiaridade das palavras de conteúdo do texto (id: 170)


Nome da Métrica: familiaridade_mean

Interpretação: quanto menor for a média, maior a familiaridade e menor a complexidade textual

Descrição da métrica: Identificam-se as palavras de conteúdo do texto. Em seguida, contam-se as palavras de conteúdo que estão no repositório psicolinguístico e procuram-se seus respectivos valores de familiaridade. Calcula-se a média desses valores (somam-se os valores e divide-se o resultado pela quantidade de palavras de conteúdo do texto presentes no repositório psicolinguístico).

Definição dos termos que aparecem na descrição da métrica: São consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Familiaridade é uma característica psicolinguística das palavras de conteúdo e representa o quanto os falantes da língua conhecem e usam uma palavra em suas vidas cotidianas. Os valores variam de 1 a 7 e quanto menor o valor, maior a familiaridade.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Desde que a canonização foi confirmada pelo Vaticano, o movimento no Mosteiro da Luz tem aumentado -- e o interesse da imprensa também.

Contagens:

12 palavras de conteúdo, com os seguintes valores de familiaridade:

Canonização 2,48; Mosteiro 3,04; Vaticano 3,45; Confirmada 4,38; Movimento 4,84; Luz 5,57; Aumentar 4,89; Imprensa 4,90; Interesse 5,31; Também 5,44; Ser 5,50; Ter 5,81

9 palavras de conteúdo reconhecidas e lematizadas pelo programa: ['canonização', 'ir', 'confirmado', 'movimento', 'ter', 'aumentado', 'interesse', 'imprensa', 'também']

O programa não reconheceu os Nomes Próprios (Vaticano, Mosteiro, Luz) como palavras de conteúdo. O verbo “foi” (que é uma forma ambígua) foi lematizado incorretamente para “ir” e não para “ser”.

7 palavras de conteúdo encontradas no repositório psicolinguístico:
canonização 2,48; Movimento 4,84; Imprensa 4,90; Interesse 5,31; Também 5,44; Ir ??; Ter 5,81

Os particípios “confirmado” e “aumentado” foram lematizado como adjetivos e por isso não foram encontrados no repositório; eles só seriam encontrados se fossem lematizados como verbos: "confirmar” e “aumentar”.

Resultado esperado: 4,63416
Resultado obtido: 4,6431



Desvio padrão dos valores de familiaridade das palavras de conteúdo do texto (id: 171)


Nome da Métrica: familiaridade_std

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Identificam-se as palavras de conteúdo do texto. Em seguida, contam-se as palavras de conteúdo que estão no repositório psicolinguístico e procuram-se seus respectivos valores de familiaridade. Calcula-se o desvio-padrão desses valores.

Definição dos termos que aparecem na descrição da métrica: São consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Familiaridade é uma característica psicolinguística das palavras de conteúdo e representa o quanto os falantes da língua conhecem e usam uma palavra em suas vidas cotidianas. Os valores variam de 1 a 7 e quanto menor o valor, maior a familiaridade.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Desde que a canonização foi confirmada pelo Vaticano, o movimento no Mosteiro da Luz tem aumentado -- e o interesse da imprensa também.

Contagens:

12 palavras de conteúdo, com os seguintes valores de familiaridade:

Canonização 2,48; Mosteiro 3,04; Vaticano 3,45; Confirmada 4,38; Movimento 4,84; Luz 5,57; Aumentar 4,89; Imprensa 4,90; Interesse 5,31; Também 5,44; Ser 5,50; Ter 5,81

9 palavras de conteúdo reconhecidas e lematizadas pelo programa: ['canonização', 'ir', 'confirmado', 'movimento', 'ter', 'aumentado', 'interesse', 'imprensa', 'também']

O programa não reconheceu os Nomes Próprios (Vaticano, Mosteiro, Luz) como palavras de conteúdo. O verbo “foi” (que é uma forma ambígua) foi lematizado incorretamente para “ir” e não para “ser”.

7 palavras de conteúdo encontradas no repositório psicolinguístico:
canonização 2,48; Movimento 4,84; Imprensa 4,90; Interesse 5,31; Também 5,44; Ir ??; Ter 5,81

Os particípios “confirmado” e “aumentado” foram lematizado como adjetivos e por isso não foram encontrados no repositório; eles só seriam encontrados se fossem lematizados como verbos: "confirmar” e “aumentar”.

Resultado esperado: 1,08465
Resultado obtido: 1,14



Proporção de palavras com valor de idade de aquisição entre 1 e 2,5 em relação a todas as palavras de conteúdo do texto (id: 172)


Nome da Métrica: idade_aquisicao_1_25_ratio

Interpretação: quanto maior a proporção de palavras nessa faixa, menor a complexidade textual

Descrição da métrica: Proporção de palavras de conteúdo do texto com idade de aquisição entre 1 e 2,5 em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico.

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Idade de aquisição é uma característica psicolinguística das palavras de conteúdo e representa o intervalo de idade em que a palavra foi adquirida. Os valores variam de 1 a 7 e quanto menor o valor, menor a idade de aquisição. Os valores correspondem a faixas de idade. 1 (de 0 a 2 anos); 2 (de 3 a 4 anos), 3 (de 5 a 6 anos), 4 (de 7 a 8 anos), 5 (de 9 a 10 anos), 6 (de 11 a 12 anos), 7 (13 anos ou mais).

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Segundo o chefe substituto do escritório regional, Guaracy Cunha, ainda há tempo para o pedido de licença.

Contagens:

9 palavras de conteúdo e respectivas idades de aquisição (os 2 nomes próprios são palavras de conteúdo, mas não têm idade de aquisição, por serem nomes de pessoas):

tempo (2,39),
ainda (3,89),
chefe (4,12),
licença (4,57).
há (5,10),
pedido (5,26),
escritório (5,35),
substituto (6,00),
regional (6,24),

9 palavras de conteúdo identificadas e lematizadas: 'chefe', 'substituto', 'escritório', 'regional', 'ainda', 'haver', 'tempo', 'pedido', 'licença'

Resultado Esperado: 0,111 (1/9)

Resultado Obtido: 0,111



Proporção de palavras com valor de idade de aquisição entre 2,5 e 4 em relação a todas as palavras de conteúdo do texto (id: 173)


Nome da Métrica: idade_aquisicao_25_4_ratio

Interpretação: quanto maior a proporção de palavras nessa faixa e na inferior, menor a complexidade textual

Descrição da métrica: Proporção de palavras de conteúdo do texto com valores de idade de aquisição entre 2,5 e 4, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico.

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Idade de aquisição é uma característica psicolinguística das palavras de conteúdo e representa o intervalo de idade em que a palavra foi adquirida. Os valores variam de 1 a 7 e quanto menor o valor, menor a idade de aquisição. Os valores correspondem a faixas de idade. 1 (de 0 a 2 anos); 2 (de 3 a 4 anos), 3 (de 5 a 6 anos), 4 (de 7 a 8 anos), 5 (de 9 a 10 anos), 6 (de 11 a 12 anos), 7 (13 anos ou mais).

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Segundo o chefe substituto do escritório regional, Guaracy Cunha, ainda há tempo para o pedido de licença.

Contagens:

9 palavras de conteúdo e respectivas idades de aquisição (os 2 nomes próprios são palavras de conteúdo, mas não têm idade de aquisição, por serem nomes de pessoas):

tempo (2,39),
ainda (3,89),
chefe (4,12),
licença (4,57).
há (5,10),
pedido (5,26),
escritório (5,35),
substituto (6,00),
regional (6,24),

9 palavras de conteúdo identificadas e lematizadas: 'chefe', 'substituto', 'escritório', 'regional', 'ainda', 'haver', 'tempo', 'pedido', 'licença'

1 palavra no intervalo entre 2,5 e 4,0 (ainda)

Resultado Esperado: 0,111 (1/9)

Resultado Obtido: 0,111



Proporção de palavras com valor de idade de aquisição entre 4 e 5,5 em relação a todas as palavras de conteúdo do texto (id: 174)


Nome da Métrica: idade_aquisicao_4_55_ratio

Interpretação: quanto maior a proporção de palavras nessa faixa e na superior, maior a complexidade textual.

Descrição da métrica: proporção de palavras com valor de idade de aquisição entre 4 e 5,5, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Idade de aquisição é uma característica psicolinguística das palavras de conteúdo e representa o intervalo de idade em que a palavra foi adquirida. Os valores variam de 1 a 7 e quanto menor o valor, menor a idade de aquisição. Os valores correspondem a faixas de idade. 1 (de 0 a 2 anos); 2 (de 3 a 4 anos), 3 (de 5 a 6 anos), 4 (de 7 a 8 anos), 5 (de 9 a 10 anos), 6 (de 11 a 12 anos), 7 (13 anos ou mais).

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Segundo o chefe substituto do escritório regional, Guaracy Cunha, ainda há tempo para o pedido de licença.

Contagens:

9 palavras de conteúdo e respectivas idades de aquisição (os 2 nomes próprios são palavras de conteúdo, mas não têm idade de aquisição, por serem nomes de pessoas):

tempo (2,39),
ainda (3,89),
chefe (4,12),
licença (4,57).
há (5,10),
pedido (5,26),
escritório (5,35),
substituto (6,00),
regional (6,24),

9 palavras de conteúdo identificadas e lematizadas: 'chefe', 'substituto', 'escritório', 'regional', 'ainda', 'haver', 'tempo', 'pedido', 'licença'

5 palavras no intervalo de 4,00 a 5,50

Resultado Esperado: 0,556 (5/9)

Resultado Obtido: 0,556



Proporção de palavras com valor de idade de aquisição entre 5,5 e 7 em relação a todas as palavras de conteúdo do texto (id: 175)


Nome da Métrica: idade_aquisicao_55_7_ratio

Interpretação: quanto maior a proporção de palavras nessa faixa, maior a complexidade textual Descrição da métrica: proporção de palavras com valor de idade de aquisição entre 5,5 e 7, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Idade de aquisição é uma característica psicolinguística das palavras de conteúdo e representa o intervalo de idade em que a palavra foi adquirida. Os valores variam de 1 a 7 e quanto menor o valor, menor a idade de aquisição. Os valores correspondem a faixas de idade. 1 (de 0 a 2 anos); 2 (de 3 a 4 anos), 3 (de 5 a 6 anos), 4 (de 7 a 8 anos), 5 (de 9 a 10 anos), 6 (de 11 a 12 anos), 7 (13 anos ou mais).

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Segundo o chefe substituto do escritório regional, Guaracy Cunha, ainda há tempo para o pedido de licença.

Contagens:

9 palavras de conteúdo e respectivas idades de aquisição (os 2 nomes próprios são palavras de conteúdo, mas não têm idade de aquisição, por serem nomes de pessoas):

tempo (2,39),
ainda (3,89),
chefe (4,12),
licença (4,57).
há (5,10),
pedido (5,26),
escritório (5,35),
substituto (6,00),
regional (6,24),

9 palavras de conteúdo identificadas e lematizadas: 'chefe', 'substituto', 'escritório', 'regional', 'ainda', 'haver', 'tempo', 'pedido', 'licença'

2 palavras no intervalo de 5,5 e 7 de idade de aquisição (substituto e regional)

Resultado Esperado: 0,222 (2/9)

Resultado Obtido: 0,222



Média dos valores de idade de aquisição das palavras de conteúdo do texto (id: 176)


Nome da Métrica: idade_aquisicao_mean

Interpretação: quanto menor a média, menor a idade de aquisição e menor a complexidade textual

Descrição da métrica: Identificam-se as palavras de conteúdo do texto. Em seguida, contam-se as palavras de conteúdo que estão no repositório psicolinguístico e procuram-se seus respectivos valores de idade de aquisição. Calcula-se a média desses valores (somam-se os valores e divide-se o resultado pela quantidade de palavras de conteúdo do texto presentes no repositório psicolinguístico).

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Idade de aquisição é uma característica psicolinguística das palavras de conteúdo e representa o intervalo de idade em que a palavra foi adquirida. Os valores variam de 1 a 7 e quanto menor o valor, menor a idade de aquisição. Os valores correspondem a faixas de idade. 1 (de 0 a 2 anos); 2 (de 3 a 4 anos), 3 (de 5 a 6 anos), 4 (de 7 a 8 anos), 5 (de 9 a 10 anos), 6 (de 11 a 12 anos), 7 (13 anos ou mais).

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Segundo o chefe substituto do escritório regional, Guaracy Cunha, ainda há tempo para o pedido de licença.

Contagens:

9 palavras de conteúdo e respectivas idades de aquisição (os 2 nomes próprios são palavras de conteúdo, mas não têm idade de aquisição, por serem nomes de pessoas):

tempo (2,39),
ainda (3,89),
chefe (4,12),
licença (4,57).
há (5,10),
pedido (5,26),
escritório (5,35),
substituto (6,00),
regional (6,24),

9 palavras de conteúdo identificadas e lematizadas: 'chefe', 'substituto', 'escritório', 'regional', 'ainda', 'haver', 'tempo', 'pedido', 'licença'

Resultado esperado: 4,85356
Resultado Obtido: 4,85356



Desvio padrão dos valores de idade de aquisição das palavras de conteúdo do texto (id: 177)


Nome da Métrica: idade_aquisicao_std

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Identificam-se as palavras de conteúdo do texto. Em seguida, contam-se as palavras de conteúdo que estão no repositório psicolinguístico e procuram-se seus respectivos valores de idade de aquisição. Calcula-se o desvio-padrão desses valores.

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Idade de aquisição é uma característica psicolinguística das palavras de conteúdo e representa o intervalo de idade em que a palavra foi adquirida. Os valores variam de 1 a 7 e quanto menor o valor, menor a idade de aquisição. Os valores correspondem a faixas de idade. 1 (de 0 a 2 anos); 2 (de 3 a 4 anos), 3 (de 5 a 6 anos), 4 (de 7 a 8 anos), 5 (de 9 a 10 anos), 6 (de 11 a 12 anos), 7 (13 anos ou mais).

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Segundo o chefe substituto do escritório regional, Guaracy Cunha, ainda há tempo para o pedido de licença.

Contagens:

9 palavras de conteúdo e respectivas idades de aquisição (os 2 nomes próprios são palavras de conteúdo, mas não têm idade de aquisição, por serem nomes de pessoas):

tempo (2,39),
ainda (3,89),
chefe (4,12),
licença (4,57).
há (5,10),
pedido (5,26),
escritório (5,35),
substituto (6,00),
regional (6,24),

9 palavras de conteúdo identificadas e lematizadas: 'chefe', 'substituto', 'escritório', 'regional', 'ainda', 'haver', 'tempo', 'pedido', 'licença'

Resultado esperado: 1,0931
Resultado Obtido: 1,0931



Proporção de palavras com valor de imageabilidade entre 1 e 2,5 em relação a todas as palavras de conteúdo do texto (id: 178)


Nome da Métrica: imageabilidade_1_25_ratio

Interpretação: quanto maior o valor de imageabilidade, menor a complexidade textual. Portanto, quanto maior a proporção de palavras nessa faixa, maior a complexidade.

Descrição da métrica: Proporção de palavras de conteúdo do texto com imageabilidade entre 1 e 2,5, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Imageabilidade é uma característica psicolinguística das palavras de conteúdo e significa o quanto a palavra pode ser traduzida por uma imagem na opinião dos falantes da língua. Os valores variam de 1 a 7 e quanto maior o valor, maior a imageabilidade.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Pescadores tentarão retirar o maior número de peixes da espécie, que pode atingir 20 centímetros de comprimento e um quilo.

Contagens:

12 palavras de conteúdo, com seus respectivos valores de imageabilidade:

maior 3.48
número 4.15
tentar 4.18
atingir 4.21
retirar 4.24
comprimento 4.64
centímetro 4.77
espécie 4.87
podar 4.89
quilo 5.32
pescador 5.55
peixe 6.00

12 palavras reconhecidas (com suas respectivas etiquetas morfossintáticas): 'Pescadores', 'NPROP'; 'tentarão', 'V'; 'retirar', 'V'; 'maior', 'ADJ'; 'número', 'N'; 'peixes', 'N'; 'espécie', 'N'; 'pode', 'V'; 'atingir', 'V'; 'centímetros', 'N'; 'comprimento', 'N'; 'quilo', 'N'.

11 palavras lematizadas: ['tentar', 'retirar', 'maior', 'número', 'peixe', 'espécie', 'podar', 'atingir', 'centímetro', 'comprimento', 'quilo'].

A palavra “Pescador” foi anotada como NPROP e por isso não foi lematizada.

11 palavras encontradas no repositório psicolinguístico (todas, menos “Pescadores”)

nenhuma palavra com imageabilidade entre 1 e 2,5

Resultado Esperado: 0

Resultado Obtido: 0



Proporção de palavras com valor de imageabilidade entre 2,5 e 4 em relação a todas as palavras de conteúdo do texto (id: 179)


Nome da Métrica: imageabilidade_25_4_ratio

Interpretação: quanto maior o valor de imageabilidade, menor a complexidade textual. Portanto, quanto maior o percentual de palavras nessa faixa e na inferior, maior a complexidade.

Descrição da métrica: Proporção de palavras de conteúdo do texto com imageabilidade entre 2,5 e 4, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Imageabilidade é uma característica psicolinguística das palavras de conteúdo e significa o quanto a palavra pode ser traduzida por uma imagem na opinião dos falantes da língua. Os valores variam de 1 a 7 e quanto maior o valor, maior a imageabilidade.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Pescadores tentarão retirar o maior número de peixes da espécie, que pode atingir 20 centímetros de comprimento e um quilo.

Contagens:

12 palavras de conteúdo, com seus respectivos valores de imageabilidade:

maior 3.48
número 4.15
tentar 4.18
atingir 4.21
retirar 4.24
comprimento 4.64
centímetro 4.77
espécie 4.87
podar 4.89
quilo 5.32
pescador 5.55
peixe 6.00

12 palavras reconhecidas (com suas respectivas etiquetas morfossintáticas): 'Pescadores', 'NPROP'; 'tentarão', 'V'; 'retirar', 'V'; 'maior', 'ADJ'; 'número', 'N'; 'peixes', 'N'; 'espécie', 'N'; 'pode', 'V'; 'atingir', 'V'; 'centímetros', 'N'; 'comprimento', 'N'; 'quilo', 'N'.

11 palavras lematizadas: ['tentar', 'retirar', 'maior', 'número', 'peixe', 'espécie', 'podar', 'atingir', 'centímetro', 'comprimento', 'quilo'].

A palavra “Pescador” foi anotada como NPROP e não foi lematizada)

11 palavras encontradas no repositório psicolinguístico

1 palavra com imageabilidade entre 2,5 e 4.0 (maior)

Resultado Esperado: 0,083 (1/12)

Resultado Obtido: 0, 091 (1/11)



Proporção de palavras com valor de imageabilidade entre 4 e 5,5 em relação a todas as palavras de conteúdo do texto (id: 180)


Nome da Métrica: imageabilidade_4_55_ratio

Interpretação: quanto maior o valor de imageabilidade, menor a complexidade textual. Portanto, quanto maior a proporção de palavras nessa faixa e na superior, menor a complexidade textual.

Descrição da métrica: proporção de palavras com valor de imageabilidade entre 4 e 5,5, em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. O repositório psicolinguístico é um recurso lexical com valores para 4 características psicolinguísticas das palavras: concretude, familiaridade, idade de aquisição e imageabilidade. Imageabilidade é uma característica psicolinguística das palavras de conteúdo e significa o quanto a palavra pode ser traduzida por uma imagem na opinião dos falantes da língua. Os valores variam de 1 a 7 e quanto maior o valor, maior a imageabilidade.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Pescadores tentarão retirar o maior número de peixes da espécie, que pode atingir 20 centímetros de comprimento e um quilo.

Contagens:

12 palavras de conteúdo, com seus respectivos valores de imageabilidade:

maior 3.48
número 4.15
tentar 4.18
atingir 4.21
retirar 4.24
comprimento 4.64
centímetro 4.77
espécie 4.87
podar 4.89
quilo 5.32
pescador 5.55
peixe 6.00

12 palavras reconhecidas (com suas respectivas etiquetas morfossintáticas): 'Pescadores', 'NPROP'; 'tentarão', 'V'; 'retirar', 'V'; 'maior', 'ADJ'; 'número', 'N'; 'peixes', 'N'; 'espécie', 'N'; 'pode', 'V'; 'atingir', 'V'; 'centímetros', 'N'; 'comprimento', 'N'; 'quilo', 'N'.

11 palavras lematizadas: ['tentar', 'retirar', 'maior', 'número', 'peixe', 'espécie', 'podar', 'atingir', 'centímetro', 'comprimento', 'quilo']. A palavra “Pescador” foi anotada como NPROP e não foi lematizada)

11 palavras encontradas no repositório psicolinguístico

Resultado Esperado: 0,818 (9/12)

Resultado Obtido: 0,9 (9/11)



Proporção de palavras com valor de imageabilidade entre 5,5 e 7 em relação a todas as palavras de conteúdo do texto (id: 181)


Nome da Métrica: imageabilidade_55_7_ratio

Interpretação: quanto maior o valor de imageabilidade, menor a complexidade textual. Portanto, quanto maior a proporção de palavras nessa faixa, menor a complexidade.

Descrição da métrica: proporção de palavras com alto valor de imageabilidade (5,5 a 7) em relação a todas as palavras de conteúdo do texto presentes no repositório psicolinguístico

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. O repositório psicolinguístico é um recurso lexical com valores para 4 características psicolinguísticas das palavras: concretude, familiaridade, idade de aquisição e imageabilidade. Imageabilidade é uma característica psicolinguística das palavras de conteúdo e significa o quanto a palavra pode ser traduzida por uma imagem na opinião dos falantes da língua. Os valores variam de 1 a 7 e quanto maior o valor, maior a imageabilidade.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Pescadores tentarão retirar o maior número de peixes da espécie, que pode atingir 20 centímetros de comprimento e um quilo.

Contagens:

12 palavras de conteúdo, com seus respectivos valores de imageabilidade:

maior 3.48
número 4.15
tentar 4.18
atingir 4.21
retirar 4.24
comprimento 4.64
centímetro 4.77
espécie 4.87
podar 4.89
quilo 5.32
pescador 5.55
peixe 6.00

12 palavras reconhecidas (com suas respectivas etiquetas morfossintáticas): 'Pescadores', 'NPROP'; 'tentarão', 'V'; 'retirar', 'V'; 'maior', 'ADJ'; 'número', 'N'; 'peixes', 'N'; 'espécie', 'N'; 'pode', 'V'; 'atingir', 'V'; 'centímetros', 'N'; 'comprimento', 'N'; 'quilo', 'N'.

11 palavras lematizadas: ['tentar', 'retirar', 'maior', 'número', 'peixe', 'espécie', 'podar', 'atingir', 'centímetro', 'comprimento', 'quilo']. A palavra “Pescador” foi anotada como NPROP e não foi lematizada)

11 palavras encontradas no repositório psicolinguístico, 2 entre 5,5 e 7,00

Resultado Esperado: 0,167, (2/12)

Resultado Obtido: 0,091, (1/11)



Média dos valores de imageabilidade das palavras de conteúdo do texto (id: 182)


Nome da Métrica: imageabilidade_mean

Interpretação: quanto menor for a média, maior a familiaridade e menor a complexidade textual

Descrição da métrica: Identificam-se as palavras de conteúdo do texto. Em seguida, contam-se as palavras de conteúdo que estão no repositório psicolinguístico e procuram-se seus respectivos valores de imageabilidade. Calcula-se a média desses valores (somam-se os valores e divide-se o resultado pela quantidade de palavras de conteúdo do texto presentes no repositório psicolinguístico).

Definição dos termos que aparecem na descrição da métrica: São consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Familiaridade é uma característica psicolinguística das palavras de conteúdo e representa o quanto os falantes da língua conhecem e usam uma palavra em suas vidas cotidianas. Os valores variam de 1 a 7 e quanto menor o valor, maior a imageabilidade.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Pescadores tentarão retirar o maior número de peixes da espécie, que pode atingir 20 centímetros de comprimento e um quilo.

Contagens:

12 palavras de conteúdo, com seus respectivos valores de imageabilidade: maior 3.48, número 4.15, tentar 4.18, atingir 4.21, retirar 4.24, comprimento 4.64, centímetro 4.77, espécie 4.87, podar 4.89, quilo 5.32, pescador 5.55, peixe 6.00

12 palavras reconhecidas (com suas respectivas etiquetas morfossintáticas): 'Pescadores', 'NPROP'; 'tentarão', 'V'; 'retirar', 'V'; 'maior', 'ADJ'; 'número', 'N'; 'peixes', 'N'; 'espécie', 'N'; 'pode', 'V'; 'atingir', 'V'; 'centímetros', 'N'; 'comprimento', 'N'; 'quilo', 'N'.

11 palavras lematizadas: 'tentar', 'retirar', 'maior', 'número', 'peixe', 'espécie', 'podar', 'atingir', 'centímetro', 'comprimento', 'quilo'. A palavra “Pescador” foi anotada como NPROP e não foi lematizada.

Resultado Esperado: 4,69166

Resultado Obtido: 4,69205



Desvio padrão dos valores de imageabilidade das palavras de conteúdo do texto (id: 183)


Nome da Métrica: imageabilidade_std

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Identificam-se as palavras de conteúdo do texto. Em seguida, contam-se as palavras de conteúdo que estão no repositório psicolinguístico e procuram-se seus respectivos valores de imageabilidade. Calcula-se o desvio-padrão desses valores.

Definição dos termos que aparecem na descrição da métrica: São consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios. Familiaridade é uma característica psicolinguística das palavras de conteúdo e representa o quanto os falantes da língua conhecem e usam uma palavra em suas vidas cotidianas. Os valores variam de 1 a 7 e quanto menor o valor, maior a imageabilidade.

Limitações da métrica: depende do desempenho do tagger nlpnet e da qualidade do recurso lexical utilizado. O repositório psicolinguístico tem 26.874 palavras e pode não conter todas as palavras procuradas. O repositório psicolinguístico foi construído automaticamente (e por isso, sujeito a vieses), usando como semente listas de palavras com seus respectivos valores de concretude, familiaridade, idade de aquisição e imageabilidade, levantados junto a usuários da língua por psicolinguistas e psicólogos. O repositório está disponível em: http://143.107.183.175:21380/portlex/index.php/en/?option=com_content&view=article&layout=edit&id=23

Teste: Pescadores tentarão retirar o maior número de peixes da espécie, que pode atingir 20 centímetros de comprimento e um quilo.

Contagens:

12 palavras de conteúdo, com seus respectivos valores de imageabilidade: maior 3.48, número 4.15, tentar 4.18, atingir 4.21, retirar 4.24, comprimento 4.64, centímetro 4.77, espécie 4.87, podar 4.89, quilo 5.32, pescador 5.55, peixe 6.00

12 palavras reconhecidas (com suas respectivas etiquetas morfossintáticas): 'Pescadores', 'NPROP'; 'tentarão', 'V'; 'retirar', 'V'; 'maior', 'ADJ'; 'número', 'N'; 'peixes', 'N'; 'espécie', 'N'; 'pode', 'V'; 'atingir', 'V'; 'centímetros', 'N'; 'comprimento', 'N'; 'quilo', 'N'.

11 palavras lematizadas: ['tentar', 'retirar', 'maior', 'número', 'peixe', 'espécie', 'podar', 'atingir', 'centímetro', 'comprimento', 'quilo']. A palavra “Pescador” foi anotada como NPROP e não foi lematizada.

Resultado Esperado: 0,69951

Resultado Obtido: 0,66992




6. Diversidade Lexical


Proporção de types (despreza repetições de palavras) em relação à quantidade de tokens (computa repetições de palavras) no texto (id: 75)


Nome da Métrica: ttr

Interpretação: quanto maior o valor da métrica, mais complexo o texto

Descrição da métrica: Proporção de palavras sem repetições (types) em relação ao total de palavras com repetições (tokens). Não se usa lematização das palavras, ou seja, cada flexão é computada como um type diferente.

Definição dos termos que aparecem na descrição da métrica: Types são as palavras que ocorrem em um texto, descontando suas repetições. Tokens são todas as palavras que ocorrem em um texto, sem descontar as repetições.

Limitações da métrica: não há.

Teste: O acessório polêmico entrou no projeto, de autoria do senador Cícero Lucena (PSDB-PB), graças a uma emenda aprovada na Comissão de Educação do Senado em outubro. Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 95 palavras, 58 das quais palavras de conteúdo, 57 types (só repete a palavra “senador”).

Resultado Esperado: 78/95=0,821

Resultado Obtido: 0,821 (está computando todos os tokens e não só palavras de conteúdo)



Proporção de types de adjetivos em relação à quantidade de tokens de adjetivos no texto (id: 62)


Nome da Métrica: adjective_diversity_ratio

Interpretação: não está clara a relação da métrica com a complexidade textual, mas supõe-se que, quanto maior métrica, maior a complexidade.

Descrição da métrica: Proporção de types de adjetivos em relação à quantidade de tokens de adjetivos no texto

Definição dos termos que aparecem na descrição da métrica: são considerados adjetivos as palavras anotadas com as etiquetas ADJ pelo POS tagger nlpnet

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: Os direitos existem para que cada um de nós tenha uma vida digna e decente, ainda que nem sempre eles sejam respeitados. Como cidadão, todo ser humano já nasce com uma série de direitos: direito à vida, ao trabalho, à liberdade. Também as crianças têm direitos só para elas, assim como os consumidores, e até mesmo os animais. Ser cidadão também é bater o pé para que os direitos não sejam só leis no papel.

Contagens: 2 adjetivos (digna, decente) 2 sem repetições

Resultado Esperado: 2/2 = 1

Resultado Obtido: 1



Proporção de palavras de conteúdo em relação à quantidade de palavras funcionais do texto (id: 63)


Nome da Métrica: content_density

Interpretação: quanto maior a densidade de conteúdo, maior a complexidade textual.

Descrição da métrica: Proporção média de palavras de conteúdo em relação à quantidade de palavras funcionais das sentenças

Definição dos termos que aparecem na descrição da métrica: Palavras de conteúdo são palavras de classe aberta (substantivos, adjetivos, verbos e advérbios). Palavras funcionais são palavras das classes fechadas (numerais, artigos, pronomes, interjeições, preposições, conjunções)

Limitações da métrica: 1) a rigor, somente os advérbios terminados em –mente são palavras de conteúdo. Mas como as etiquetas não fazem essa diferença, estão sendo computados todos os advérbios. O resultado da métrica é dependente da forma de tokenização adotada (com ou sem descontração, com ou sem junção de partes de nomes próprios e multipalavras).

2)a métrica faz a tokenização sem considerar descontrações. A descontração é importante para o cômputo de palavras funcionais. Se houver descontração, cada parte da contração é contada em uma categoria, porém, se não houver, uma das categorias gramaticais envolvidas ficará prejudicada.

Teste: Atenção! Nós não podemos acrescentar nenhuma despesa a mais no nosso orçamento. Já não temos recursos suficientes para a manutenção das quatro escolas, por exemplo, e também precisamos valorizar o magistério - justifica a diretora do Departamento Pedagógico da SEC, Sonia Balzano.

Contagens:

28 Palavras de conteúdo: [('Atenção', 'N'), ('não', 'ADV'), ('podemos', 'V'), ('acrescentar', 'V'), ('despesa', 'N'), ('a', 'ADV'), ('mais', 'ADV'), ('orçamento', 'N'), ('Já', 'ADV'), ('não', 'ADV'), ('temos', 'V'), ('recursos', 'N'), ('suficientes', 'ADJ'), ('manutenção', 'N'), ('escolas', 'N'), ('por', 'PDEN'), ('exemplo', 'PDEN'), ('também', 'PDEN'), ('precisamos', 'V'), ('valorizar', 'V'), ('magistério', 'N'), ('justifica', 'V'), ('diretora', 'N'), ('Departamento', 'N'), ('Pedagógico', 'ADJ'), ('SEC', 'NPROP'), ('Sonia', 'NPROP'), ('Balzano', 'NPROP')]

13 Palavras funcionais: [('Nós', 'PROPESS'), ('nenhuma', 'PROADJ'), ('no', 'PREP+ART'), ('nosso', 'PROADJ'), ('para', 'PREP'), ('a', 'ART'), ('das', 'PREP+ART'), ('quatro', 'NUM'), ('e', 'KC'), ('o', 'ART'), ('a', 'ART'), ('do', 'PREP+ART'), ('da', 'PREP+ART')]

Resultado Esperado: 28/13 = 2,15

Resultado Obtido: 2,15



Proporção de types de palavras de conteúdo em relação à quantidade de tokens de palavras de conteúdo no texto (id: 64)


Nome da Métrica: content_word_diversity

Interpretação: não está clara a relação da métrica com a complexidade textual, mas supõe-se que, quanto maior métrica, maior a complexidade.

Descrição da métrica: Proporção de types de palavras de conteúdo em relação à quantidade de tokens de palavras de conteúdo no texto

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo: substantivos, verbos, adjetivos e advérbios.

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: Robert Lustig trabalha como endocrinologista pediátrico na Universidade da Califórnia, especializado no tratamento da obesidade infantil. Em 2009, ele proferiu a palestra “Açúcar: a amarga verdade”, que teve mais de 6 milhões de visualizações no YouTube. No decorrer de uma hora e meia, Lustig defende com veemência que a frutose, um açúcar onipresente na alimentação moderna, é o “veneno” responsável pela epidemia de obesidade nos Estados Unidos.

Contagens: 41 palavras de conteúdo, 38 sem repetições. A contagem manual deu 40 e 37, mas descobrimos que o tagger contou um abre aspas como substantivo. Consideramos correta, pois o erro é devido à limitação da ferramenta utilizada.

Resultado Esperado: 38/41 = 0,927

Resultado Obtido: 0,927



Proporção máxima de palavras de conteúdo em relação à quantidade de palavras das sentenças (id: 65)


Nome da Métrica: content_word_max

Interpretação: o resultado da métrica aponta a sentença mais complexa do texto segundo o critério de proporção de palavras de conteúdo.

Descrição da métrica: Proporção Máxima de palavras de conteúdo por quantidade de palavras nas sentenças

Definição dos termos que aparecem na descrição da métrica: palavras de conteúdo são substantivos, verbos, adjetivos e advérbios.

Limitações da métrica: a precisão da métrica depende do desempenho do tagger e do sentenciador.

Teste: Como marcar pessoas em fotos no Facebook. 1) Clique na foto para expandi-la. 2) Passe o cursor sobre a foto e clique em “marcar foto” na parte inferior. 3) Clique na pessoa na foto e comece a digitar o nome dela. 4) Escolha o nome completo da pessoa que você desejar marcar, quando for exibido. 5) Clique em “finalizar marcação”.

Contagens: 6 sentenças
Palavras de conteúdo por sentença [4, 3, 8, 6, 8, 3]
Palavras por sentença [7, 7, 16, 14, 16, 6]
Proporções de palavras de conteúdo por sentença [0,57, 0,43, 0,5, 0,42, 0,5, 0,5]

O programa identificou:
Palavras de conteúdo por sentença [4, 4, 9, 7, 9, 5]
Palavras por sentença [8, 8, 19, 15, 17, 9]
Proporções de palavras de conteúdo por sentença [0.5, 0.5, 0.47, 0.47, 0.53, 0.56]

Resultado Esperado: 0,57

Resultado Obtido: 0,53 (o tokenizador está contando pontuações como palavras e isso aumenta o divisor do cálculo)



Proporção Mínima de palavras de conteúdo por quantidade de palavras nas sentenças (id: 66)


Nome da Métrica: content_word_min

Interpretação: o resultado da métrica aponta a sentença menos complexa do texto segundo o critério de proporção de palavras de conteúdo.

Descrição da métrica: Proporção Mínima de palavras de conteúdo por quantidade de palavras nas sentenças

Definição dos termos que aparecem na descrição da métrica: palavras de conteúdo são substantivos, verbos, adjetivos e advérbios.

Limitações da métrica: a precisão da métrica depende do desempenho do tagger e do sentenciador.

Teste: Como marcar pessoas em fotos no Facebook. 1) Clique na foto para expandi-la. 2) Passe o cursor sobre a foto e clique em “marcar foto” na parte inferior. 3) Clique na pessoa na foto e comece a digitar o nome dela. 4) Escolha o nome completo da pessoa que você desejar marcar, quando for exibido. 5) Clique em “finalizar marcação”.

Contagens: 6 sentenças
Palavras de conteúdo por sentença [4, 3, 8, 6, 8, 3]
Palavras por sentença [7, 7, 16, 14, 16, 6]
Proporções de palavras de conteúdo por sentença [0,57, 0,43, 0,5, 0,42, 0,5, 0,5]

O programa identificou:
Palavras de conteúdo por sentença [4, 4, 9, 7, 9, 5]
Palavras por sentença [8, 8, 19, 15, 17, 9]
Proporções de palavras de conteúdo por sentença [0.5, 0.5, 0.47, 0.47, 0.53, 0.56]

Resultado Esperado: 0,42

Resultado Obtido: 0,47 (o tokenizador está contando pontuações como palavras e isso aumenta o divisor do cálculo)



Desvio padrão das proporções entre as palavras de conteúdo e a quantidade de palavras das sentenças (id: 67)


Nome da Métrica: content_word_standard_deviation

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Desvio padrão das proporções entre as palavras de conteúdo e a quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: palavras de conteúdo são substantivos, verbos, adjetivos e advérbios.

Limitações da métrica: a precisão da métrica depende do desempenho do tagger e do sentenciador.

Teste: Como marcar pessoas em fotos no Facebook. 1) Clique na foto para expandi-la. 2) Passe o cursor sobre a foto e clique em “marcar foto” na parte inferior. 3) Clique na pessoa na foto e comece a digitar o nome dela. 4) Escolha o nome completo da pessoa que você desejar marcar, quando for exibido. 5) Clique em “finalizar marcação”.

Contagens:
6 sentenças,
Palavras de conteúdo por sentença [4, 3, 8, 6, 8, 3]
Palavras por sentença [7, 7, 16, 14, 16, 6]
Proporções de palavras de conteúdo por sentença [0,57, 0,43, 0,5, 0,42, 0,5, 0,5]

O programa identificou:
Palavras de conteúdo por sentença [4, 4, 9, 7, 9, 5]
Palavras por sentença [8, 8, 19, 15, 17, 9]
Proporções de palavras de conteúdo por sentença [0.5, 0.5, 0.47, 0.47, 0.53, 0.56]

Resultado Esperado: 0,055

Resultado Obtido: 0,031 (o tokenizador está contando pontuações como palavras e isso aumenta o divisor do cálculo)



Proporção de types de palavras funcionais em relação à quantidade de tokens de palavras funcionais no texto (id: 68)


Nome da Métrica: function_word_diversity

Interpretação: não está clara a relação da métrica com a complexidade textual, mas supõe-se que, quanto maior métrica, maior a complexidade.

Descrição da métrica: Proporção de types de palavras funcionais em relação à quantidade de tokens de palavras funcionais no texto

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras funcionais as palavras de 6 classes gramaticais: artigos (tag: ‘ART’), conjunções (tags ‘KS’ e ‘KC’), interjeições (tag: ‘IN’), numerais (tag: ‘NUM’), pronomes (tags: 'PROPESS',

'PROSUB', 'PROADJ', 'PRO-KS', 'PRO-KS-REL'), preposições (tags: 'PREP', 'PREP+PROPESS', 'PREP+ART', 'PREP+PRO-KS', 'PREP+PRO-KS-REL', 'PREP+PROADJ', 'PREP+ADV', 'PREP+PROSUB'). Incluem-se nas palavras funcionais os advérbios com função coordenativa e subordinativa (tags: 'ADV-KS', 'ADV-KS-REL).

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: Robert Lustig trabalha como endocrinologista pediátrico na Universidade da Califórnia, especializado no tratamento da obesidade infantil. Em 2009, ele proferiu a palestra “Açúcar: a amarga verdade”, que teve mais de 6 milhões de visualizações no YouTube. No decorrer de uma hora e meia, Lustig defende com veemência que a frutose, um açúcar onipresente na alimentação moderna, é o “veneno” responsável pela epidemia de obesidade nos Estados Unidos.

Contagens: 27 palavras funcionais, 18 sem repetições (o tagger reconhece meia, milhões e 2009 como substantivos)

Resultado Esperado: 18/27 = 0,667

Resultado Obtido: 0,667



Proporção de types de pronomes indefinidos em relação à quantidade de tokens de pronomes indefinidos no texto (id: 69)


Nome da Métrica: indefinite_pronouns_diversity

Interpretação: pronomes indefinidos tornam o texto mais complexo pelo fato de não representarem algo identificável no mundo extra-linguístico.

Descrição da métrica: Proporção de types de pronomes indefinidos em relação à quantidade de tokens de pronomes indefinidos no texto

Definição dos termos que aparecem na descrição da métrica: pronomes indefinidos são pronomes genéricos (nada, ninguém, alguém, nenhum, algum, qualquer, etc.). Tokens são todas as ocorrências das palavras; types são todas as ocorrências das palavras sem considerar repetições.

Limitações da métrica: a precisão da métrica depende do desempenho do tagger.

Teste: Tudo que sempre quisemos é ver nossos filhos felizes. Ninguém imagina que há situações em que nada pode ser feito para garantir isso. Por isso, é difícil alguém se conformar diante das doenças terminais que acometem crianças. Aliás, ninguém se conforma.

Contagens: 5 tokens de pronomes indefinidos (tudo, ninguém, nada, alguém, ninguém), 4 types (tudo, ninguém, nada, alguém)

Resultado Esperado: 4/5 = 0,80

Resultado Obtido: 0,80



Proporção de types de substantivos em relação à quantidade de tokens de substantivos no texto (id: 70)


Nome da Métrica: noun_diversity

Interpretação: quanto maior métrica, maior a complexidade, pois a repetição de substantivos é uma das formas mais simples de construir cadeias de correferência.

Descrição da métrica: Proporção de types de substantivos em relação à quantidade de tokens de substantivos no texto

Definição dos termos que aparecem na descrição da métrica: são considerados substantivos as palavras anotadas com as etiquetas N e NPROP pelo POS tagger nlpnet

Limitações da métrica:

Teste: Os direitos existem para que cada um de nós tenha uma vida digna e decente, ainda que nem sempre eles sejam respeitados. Como cidadão, todo ser humano já nasce com uma série de direitos: direito à vida, ao trabalho, à liberdade. Também as crianças têm direitos só para elas, assim como os consumidores, e até mesmo os animais. Ser cidadão também é bater o pé para que os direitos não sejam só leis no papel.

Contagens: 20 substantivos (direitos, vida, cidadão, ser, humano, série, direitos, direito, vida, trabalho, liberdade, crianças, direitos, consumidores, animais, cidadão, pé, direitos, leis, papel) 15 sem repetições

Resultado Esperado: 15/20 = 0,75

Resultado Obtido: 0,737 (o nlpnet não reconheceu “ser”, de “ser humano”, como substantivo)



Proporção de types de preposições em relação à quantidade de tokens de preposições no texto (id: 71)


Nome da Métrica: preposition_diversity

Interpretação: quanto maior o resultado da métrica, maior a riqueza lexical, o que aumenta a complexidade textual.

Descrição da métrica: proporção de preposições distintas em relação ao total de preposições do texto

Definição dos termos que aparecem na descrição da métrica: preposição é uma classe fechada de palavras, á qual pertencem: a, de, por, para, antes, depois, entre, etc.

Limitações da métrica:

1) a métrica está utilizando tokenização sem descontração, o que dá muita diferença em matéria de preposições. A preposição “por”, por exemplo, é tratada como um caso diferente cada vez que se combina com um artigo diferente. Com isso, uma única preposição produz 5 preposições diferentes para fins de cálculo de diversidade: por; por+o= pelo; por+a=pela; por+os=pelos; por+as=pelas. O mesmo ocorre para as preposições “de” e “a”.

2) cada um dos tokens que constituem as locuções prepositivas estão sendo tratados como uma preposição. Por exemplo, “além de” é contado pelo classificador como duas preposições: “além” e “de”.

Teste: Nem é preciso argumentar contra a ineficiência do sistema prisional brasileiro. Ele foi reprovado por todas as pessoas para as quais foi solicitada uma avaliação. Nele não se pode confiar e dele não se pode esperar nada além do estímulo à violência.

Contagens: 8 preposições, 7 diferentes preposições (contra, de, por, para, em, além de, a)

Resultado Esperado: 0,875

Resultado Obtido: 0,889 (o sistema reconheceu 9 preposições, sendo 8 diferentes)

Teste: Essas pessoas estão vivendo abaixo da linha de pobreza e pouco se pode fazer a respeito disso.

Contagens: 3 preposições, 3 diferentes preposições

Resultado Esperado: 1

Resultado Obtido: 1



Proporção de types de pronomes em relação à quantidade de tokens de pronomes no texto (id: 72)


Nome da Métrica: pronoun_diversity

Interpretação: não está clara a relação da métrica com a complexidade textual, mas supõe-se que, quanto maior métrica, maior a complexidade.

Descrição da métrica: Proporção de types de pronomes em relação à quantidade de tokens de pronomes no texto

Definição dos termos que aparecem na descrição da métrica: pronomes são palavras que substituem ou qualificam os substantivos. No POS tagger nlpnet, os pronomes são representados pelas etiquetas: PROPESS, PROSUB, PROADJ, PRO-KS, PRO-KS-REL. Há também as etiquetas de contrações de preposições com pronomes: PREP+PROPESS,PREP+PRO-KS, PREP+PRO-KS-REL,PREP+PROADJ, PREP+PROSUB.

Limitações da métrica: o POS tagger nlpnet não faz descontração, por isso é preciso usar as etiquetas de contrações de preposição com pronomes para capturar todos os pronomes (PREP+PROPESS,PREP+PRO-KS, PREP+PRO-KS-REL,PREP+PROADJ, PREP+PROSUB).

Teste: O principal defeito dele é não prestar atenção aos detalhes de sua escrita. Ela é muito rica conceitualmente, porém contém aqueles tipos de erro de ortografia que ninguém mais comete. Desde que trabalha conosco, ele se nega a utilizar um editor eletrônico. Se ele o fizesse, grande parte de seus erros desapareceriam.

Contagens: 10 pronomes, 9 sem considerar repetições

Resultado Esperado: 9/10 = 0,90

Resultado Obtido: 0,90



Proporção de types de pontuações em relação à quantidade de tokens de pontuações no texto (id: 73)


Nome da Métrica: punctuation_diversity

Interpretação: quanto maior o resultado da métrica, maior a complexidade textual.

Descrição da métrica: Proporção de types de sinais de pontuação em relação aos tokens de sinais de pontuação do texto. Essa métrica presume que, dados dois textos que tenham a mesma quantidade de sinais de pontuação, o mais complexo é aquele que contém maior diversidade de sinais de pontuação. Instanciando: um texto com um parênteses, dois pontos de exclamação, 5 vírgulas e 12 pontos finais seria mais complexo que um texto com 12 vírgulas e 8 pontos finais.

Definição dos termos que aparecem na descrição da métrica: por sinais de pontuação, entende-se: ponto final; vírgula, dois pontos, ponto-e-vírgula, ponto de exclamação, ponto de interrogação, parênteses, reticências, travessão (. , : ; ! ? () ... _ )

Limitações da métrica: não há

Teste 1:

Trata-se de uma mudança radical: ao longo das três últimas décadas, no mínimo, o papel de arquivilão era atribuído à gordura saturada. No momento em que Yudkin fazia sua pesquisa, nos anos 60, uma nova ortodoxia nutricional se afirmava: a alimentação saudável deveria ser pobre em gordura. Yudkin liderava um grupo cada vez menor de dissidentes que creditava ao açúcar – e não à gordura – a causa mais provável de males como obesidade, doença cardíaca e diabetes.

Contagens: 12 sinais de pontuação e 4 tipos de sinais de pontuação (ponto, dois pontos, vírgula, travessão)

Resultado Esperado: 4/12 = 0,33

Resultado obtido: 0,33



Proporção de types de pronomes relativos em relação à quantidade de tokens de pronomes relativos no texto (id: 74)


Nome da Métrica: relative_pronouns_diversity_ratio

Interpretação: os pronomes relativos introduzem orações subordinadas adjetivas, substantivas e adverbiais, que expandem o conteúdo de um sintagma nominal e aumentam a complexidade textual. Sua forma mais simples é o “que”. Se houver uso de outros pronomes relativos, a complexidade textual aumenta.

Descrição da métrica: Proporção de types de pronomes relativos em relação à quantidade de tokens de pronomes relativos no texto

Definição dos termos que aparecem na descrição da métrica: pronomes relativos retomam e qualificam um nome que os antecedem. Suas formas são: que, o que, o qual, os quais, a qual, as quais, cujo, cujos, cuja, cujas, quem, quando, onde, como, quanto, quantos, quanta, quantas. Muitos deles são ambíguos funcionalmente (podem atuar como outro tipo de pronome), por isso a etiqueta <rel> é importante para capturar apenas aqueles com função relativa.

Limitações da métrica: a identificação dos pronomes relativos depende do desempenho do parser.

Teste: A escola na qual estudo é muito rigorosa, mas os professores que dão aula para mim são muito bons. A professora de gramática, a qual dá aula para mim desde o sexto ano, tem uma didática fantástica.

Contagens: 3 pronomes relativos ((em) a qual, que, a qual ), dos quais 2 sem considerar repetições.

Resultado Esperado: 2/3 = 0,667

Resultado Obtido: 0,667



Proporção de types de verbos em relação à quantidade de tokens de verbos no texto (id: 76)


Nome da Métrica: verb_diversity

Interpretação: não está clara a relação da métrica com a complexidade textual, mas supõe-se que, quanto maior métrica, maior a complexidade.

Descrição da métrica: Proporção de types de verbos em relação à quantidade de tokens de verbos no texto

Definição dos termos que aparecem na descrição da métrica: são considerados verbos as palavras anotadas com as etiquetas V, VAUX e PCP pelo POS tagger nlpnet

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: Tem gente que tem fome o tempo todo. Fome de brincar, fome de jogar, e até fome de conhecer as coisas! Para quem tem fome de saber, preparamos esse teste rápido para deixar você com água na boca.

Contagens: 9 verbos, 7 sem repetições

Resultado Esperado: 7/9 =0,778

Resultado Obtido: 0,778




7. Conectivos


Proporção de conectivos aditivos negativos em relação à quantidade de palavras do texto (id: 46)


Nome da Métrica: add_neg_conn_ratio

Interpretação: o uso de conectivos auxilia a interpretação e, por isso, tende a diminuir a complexidade textual.

Descrição da métrica: Proporção de conectivos aditivos negativos em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: conectivos aditivos negativos são, por exemplo: “mas”, “porém”, “antes”, “todavia”.

Limitações da métrica: por usar uma lista de palavras, pode haver imprecisão, pois uma mesma palavra pode funcionar como conectivo em alguns contextos e não em outros

Teste: Entretanto, foram encontrados vários problemas clássicos.

Contagens: 1 conectivo aditivo negativo (entretanto) e 6 palavras

Resultado Esperado: 1/6 = 0,16

Resultado Obtido: 0,16



Proporção de conectivos aditivos positivos em relação à quantidade de palavras do texto (id: 47)


Nome da Métrica: add_pos_conn_ratio

Interpretação: o uso de conectivos auxilia a interpretação e, por isso, tende a diminuir a complexidade textual.

Descrição da métrica: Proporção de conectivos aditivos positivos em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: conectivos aditivos positivos são, por exemplo: “bem como”, “além disso”, “em vez de”

Limitações da métrica: por usar uma lista de palavras, pode haver imprecisão, pois uma mesma palavra pode funcionar como conectivo em alguns contextos e não em outros

Teste: O acessório polêmico entrou no projeto, de autoria do senador Cícero Lucena (PSDB-PB), graças a uma emenda aprovada na Comissão de Educação do Senado em outubro. Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 5 conectivos aditivos positivos (e, e, como, e, e), 95 palavras

Resultado Esperado: 5/95 = 0,053

Resultado Obtido: 0,053



Proporção de conectivos causais negativos em relação à quantidade de palavras do texto (id: 49)


Nome da Métrica: cau_neg_conn_ratio

Interpretação: o uso de conectivos auxilia a interpretação e, por isso, tende a diminuir a complexidade textual.

Descrição da métrica: Proporção de conectivos causais negativos em relação ao total de palavras do texto

Definição dos termos que aparecem na descrição da métrica: há 6 conectivos causais negativos na lista de conectivos: mesmo embora, contudo, no entanto, apesar de, apesar disso, apesar disto, a menos que.

Limitações da métrica: por usar uma lista de palavras, pode haver imprecisão, pois uma mesma palavra pode funcionar como conectivo em alguns contextos e não em outros

Teste: Embora tenha colado na prova, o menino não obteve uma boa nota.

Contagens: 1 conectivo causal negativo (embora), 12 palavras

Resultado Esperado: 1/12 = 0,083

Resultado Obtido: 0,083



Proporção de conectivos causais positivos em relação à quantidade de palavras do texto (id: 50)


Nome da Métrica: cau_pos_conn_ratio

Interpretação: o uso de conectivos auxilia a interpretação e, por isso, tende a diminuir a complexidade textual.

Descrição da métrica: Proporção de conectivos causais positivos em relação ao total de palavras do texto

Definição dos termos que aparecem na descrição da métrica: conectivos causais positivos são, por exemplo: “habilita”, “para”, “se”, “somente se”, “assim”

Limitações da métrica: por usar uma lista de palavras, pode haver imprecisão, pois uma mesma palavra pode funcionar como conectivo em alguns contextos e não em outros

Teste: O menino queria ir bem na prova. Para isso, ele resolveu colar.

Contagens: 1 conectivo causal positivo (para isso), 12 palavras

Resultado Esperado: 1/12 = 0,083

Resultado Obtido: 0,083



Proporção de Conectivos em relação à quantidade de palavras do texto (id: 51)


Nome da Métrica: conn_ratio

Interpretação: o uso de conectivos auxilia a interpretação e, por isso, tende a diminuir a complexidade textual.

Descrição da métrica: proporção de conectivos (aditivos positivos, aditivos negativos, temporais positivos, temporais negativos, causais positivos, causais negativos, lógicos positivos, lógicos negativos) em relação à quantidade de palavras do texto.

Definição dos termos que aparecem na descrição da métrica: conectivos são palavras que “ligam” partes do discurso, estabelecendo algum tipo de relação discursiva. O termo tem sobreposição com o termo “marcador discursivo”.

Limitações da métrica: por usar uma lista de palavras, pode haver imprecisão, pois uma mesma palavra pode funcionar como conectivo em alguns contextos e não em outros

Teste: O acessório polêmico entrou no projeto, de autoria do senador Cícero Lucena (PSDB-PB), graças a uma emenda aprovada na Comissão de Educação do Senado em outubro. Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 6 conectivos (e, e, como, e, se, e), 95 palavras

Resultado Esperado: 6/95 = 0,063

Resultado Obtido: 0,063



Proporção de Conectivos Lógicos Negativos em relação à quantidade de palavras do texto (id: 53)


Nome da Métrica: log_neg_conn_ratio

Interpretação: o uso de conectivos auxilia a interpretação e, por isso, tende a diminuir a complexidade textual.

Descrição da métrica: proporção de conectivos lógicos negativos em relação ao total de palavras do texto

Definição dos termos que aparecem na descrição da métrica: conectivos lógicos negativos são, por exemplo: pelo contrário, ainda, cada vez que, embora.

Limitações da métrica: por usar uma lista de palavras, pode haver imprecisão, pois uma mesma palavra pode funcionar como conectivo em alguns contextos e não em outros

Teste: O menino colou na prova, embora soubesse que poderia ser pego.

Contagens: 1 conectivo lógico negativo (embora), 11 palavras

Resultado Esperado: 1/11 = 0,090

Resultado Obtido: 0,090



Proporção de Conectivos Lógicos Positivos em relação à quantidade de palavras do texto (id: 54)


Nome da Métrica: log_pos_conn_ratio

Interpretação: o uso de conectivos auxilia a interpretação e, por isso, tende a diminuir a complexidade textual.

Descrição da métrica: Proporção de conectivos lógicos positivos em relação ao total de palavras do texto

Definição dos termos que aparecem na descrição da métrica: conectivos lógicos positivos são, por exemplo: similarmente, por outro lado, de novo, somente se, assim, para este fim.

Limitações da métrica: por usar uma lista de palavras, pode haver imprecisão, pois uma mesma palavra pode funcionar como conectivo em alguns contextos e não em outros

Teste: Desde que o menino começou a colar nas provas, ele não estuda mais.

Contagens: 1 conectivo lógico positivo (desde que), 13 palavras

Resultado Esperado: 1/13 = 0,076

Resultado Obtido: 0,076



Proporção do operador lógico E em relação à quantidade de palavras do texto (id: 48)


Nome da Métrica: and_ratio

Interpretação: quanto maior o resultado da métrica, maior a complexidade textual

Descrição da métrica: Proporção do Operador Lógico “E” em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: operadores lógicos são palavras que estabelecem relações lógicas no texto, como por exemplo: ou, e, se, não.

Limitações da métrica: não há

Teste: Não podemos acrescentar nenhuma despesa a mais no nosso orçamento. Já não temos recursos suficientes para a manutenção das escolas, por exemplo, e também precisamos valorizar o magistério - justifica a diretora do Departamento Pedagógico da SEC, Sonia Balzano.

Contagens: 38 palavras, 1 operador lógico E

Resultado Esperado: 1/38 = 0,026

Resultado Obtido: 0,026



Proporção do operador lógico SE em relação à quantidade de palavras do texto (id: 52)


Nome da Métrica: if_ratio

Interpretação: quanto maior o resultado, maior a complexidade textual

Descrição da métrica: Proporção do Operador Lógico “SE” em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: operadores lógicos são palavras que estabelecem relações lógicas no texto, como por exemplo: ou, e, se, não.

Limitações da métrica: a precisão da métrica depende do desempenho do tagger na distinção do "se" conjunção, pois ele é ambíguo com o "se" pronome.

Teste: Se você vier me ver esta noite, por favor traga o livro que lhe pedi.

Contagens: 15 palavras, 1 operador lógico SE

Resultado Esperado: 1/15 = 0,066

Resultado Obtido: 0,066



Proporção de Operadores Lógicos em relação à quantidade de palavras do texto (id: 55)


Nome da Métrica: logic_operators

Interpretação: quanto maior o resultado da métrica, maior a complexidade textual

Descrição da métrica: Proporção de Operadores Lógicos em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: operadores lógicos são palavras que estabelecem relações lógicas no texto, como por exemplo: ou, e, se, não.

Limitações da métrica: a precisão da métrica depende do desempenho do tagger.

Teste: Não podemos acrescentar nenhuma despesa a mais no nosso orçamento. Já não temos recursos suficientes para a manutenção das escolas, por exemplo, e também precisamos valorizar o magistério - justifica a diretora do Departamento Pedagógico da SEC, Sonia Balzano.

Contagens: 38 palavras, 4 operadores lógicos (não, nenhuma, não, e)

Resultado Esperado: 4/38 = 0,105

Resultado Obtido: 0,105



Proporção de palavras que denotam negação em relação à quantidade de palavras do texto (id: 56)


Nome da Métrica: negation_ratio

Interpretação: a negação é mais complexa que a afirmação, portanto, quanto maior a métrica, maior a complexidade textual

Descrição da métrica: proporção de palavras que denotam negação em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: as palavras que denotam negação para fins desta métrica são: não, nem, nunca, tampouco, jamais (sempre que forem ADV).

Limitações da métrica: a precisão da métrica depende do desempenho do tagger nlpnet.

Teste: É importante que as refeições sejam equilibradas, não forneçam nem mais e nem menos daquilo que o nosso corpo precisa.

Contagens: 20 palavras, 3 negações (não, nem, nem)

Resultado Esperado: 3/20 = 0,15

Resultado Obtido: 0,15



Proporção do operador lógico OU em relação à quantidade de palavras do texto (id: 57)


Nome da Métrica: or_ratio

Interpretação: quanto maior o resultado, maior a complexidade textual

Descrição da métrica: Proporção do Operador Lógico “OU” em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: operadores lógicos são palavras que estabelecem relações lógicas no texto, como por exemplo: ou, e, se, não.

Limitações da métrica: não há

Teste: Ou ele ou você terá que resolver esse problema.

Contagens: 9 palavras, 2 operadores lógicos OU

Resultado Esperado: 2/9 = 0,222

Resultado Obtido: 0,222




8. Léxico Temporal


Proporção de conectivos temporais negativos em relação à quantidade de palavras do texto (id: 150)


Nome da Métrica: tmp_neg_conn_ratio

Interpretação: o uso de conectivos auxilia a interpretação e, por isso, tende a diminuir a complexidade textual.

Descrição da métrica: Proporção de conectivos temporais negativos em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: só há 1 conectivo temporal negativo na lista de conectivos: “até que”

Limitações da métrica: por usar uma lista de palavras, pode haver imprecisão, pois uma mesma palavra pode funcionar como conectivo em alguns contextos e não em outros

Teste: O menino colou na prova até que a professora descobriu sua artimanha.

Contagens: 1 conectivos temporal negativo (até que), 12 palavras

Resultado Esperado: 1/12 = 0,083

Resultado Obtido: 0,083



Proporção de conectivos temporais positivos em relação à quantidade de palavras do texto (id: 151)


Nome da Métrica: tmp_pos_conn_ratio

Interpretação: o uso de conectivos auxilia a interpretação e, por isso, tende a diminuir a complexidade textual.

Descrição da métrica: Proporção de conectivos temporais positivos em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: conectivos temporais positivos são, por exemplo: “assim”, ”outra vez”, ”imediatamente”

Limitações da métrica: por usar uma lista de palavras, pode haver imprecisão, pois uma mesma palavra pode funcionar como conectivo em alguns contextos e não em outros

Teste: Enquanto isso, mais de 100 pessoas tentaram resolver o problema, o que finalmente começou a dar resultados.

Contagens: 2 conectivos temporais (enquanto, finalmente), 17 palavras

Resultado Esperado: 2/17 = 0,118

Resultado Obtido: 0,118



Proporção de verbos auxiliares seguidos de particípio em relação à quantidade de sentenças do texto (id: 141)


Nome da Métrica: aux_plus_PCP_per_sentence

Interpretação: quanto maior a proporção de sintagmas verbais complexos (formados por mais de um verbo), maior a complexidade textual.

Descrição da métrica: Proporção de verbos auxiliares seguidos de particípio em relação à quantidade de sentenças do texto.

Definição dos termos que aparecem na descrição da métrica: o particípio é uma das formas nominais do verbo, ao lado do infinitivo e do gerúndio. Há formas regulares e irregulares de formação do particípio e alguns verbos apresentam as duas. As formas regulares terminam em –ado e -ido. Exemplos: falado, colhido, sentido, morrido/morto, suspendido/suspenso, aceitado/aceito. Quando um verbo apresenta as duas formas, a forma regular é usada nos tempos compostos com os auxiliares “ter” e “haver; a forma irregular é usada com o auxiliar “ser” (na passiva).

Limitações da métrica: a precisão da métrica depende do desempenho do parser Palavras.

Teste: Os homens que tinham feito a manutenção não haviam sido remunerados. Eles serão recompensados futuramente com dias de descanso.

Contagens: 2 sentenças, 3 auxiliares seguidos de de particípio (tinham feito, haviam sido, serão recompensados)

Resultado Esperado: 1,5

Resultado Obtido: 1,5



Proporção de Verbos no Pretérito Imperfeito do Indicativo em relação à quantidade de verbos flexionados no texto (id: 142)


Nome da Métrica: indicative_imperfect_ratio

Interpretação: o pretérito imperfeito do indicativo é um tempo frequente e pode ocorrer em textos de diferentes níveis de complexidade; se sua proporção for alta, indica uma menor complexidade textual no quesito "tempo verbal".

Descrição da métrica: proporção de verbos no pretérito imperfeito do modo indicativo, em relação ao total de verbos do texto

Definição dos termos que aparecem na descrição da métrica: o pretérito imperfeito é um dos tempos do modo indicativo; o verbo "ser", por exemplo, tem as seguintes formas nesse tempo: era, eras, era, éramos, éreis, eram.

Limitações da métrica: a precisão da métrica depende do desempenho do parser Palavras

Teste: A conclusão da investigação do exército sobre o caso, que vazou para a imprensa, afirma que as acusações de homicídio doloso (com intenção) eram "infundadas".

Contagens: 3 verbos flexionados (vazou, afirma, eram); 1 verbo no pretérito imperfeito do indicativo (eram)

Resultado Esperado: 0,333 (1/3)

Resultado Obtido: 0,333



Proporção de Verbos no Pretérito Mais que Perfeito do Indicativo em relação à quantidade de verbos flexionados no texto (id: 143)


Nome da Métrica: indicative_pluperfect_ratio

Interpretação: o pretérito mais que perfeito é um tempo verbal pouco frequente e está associado a alta complexidade. Portanto, quanto maior o resultado da métrica, maior a complexidade textual.

Descrição da métrica: proporção de verbos no pretérito mais que perfeito do modo indicativo, em relação ao total de verbos do texto

Definição dos termos que aparecem na descrição da métrica: pretérito mais que perfeito é dos tempos verbais do modo indicativo; o verbo ser, por exemplo, apresenta as seguintes formas nesse tempo: fora, foras, fora, fôramos, fôreis, foram.

Limitações da métrica: a precisão da métrica depende do desempenho do parser. A terceira pessoa do plural dos tempos pretérito perfeito e pretérito mais que perfeito são iguais, o que gera ambiguidade, aumentando indevidamente a estatística desta métrica.

Teste: Trechos do vídeo foram exibidos pela rede britânica BBC e mostram uma fileira de corpos com ferimentos claramente provocados por tiros.

Contagens: 2 verbos flexionados (foram, mostram), nenhum deles no pretérito mais que perfeito.

A forma “foram” está usada no pretérito perfeito, mas como se trata de uma forma ambígua, o parser a reconheceu com 2 etiquetas: pretérito mais que perfeito e pretérito perfeito, fazendo o cálculo da métrica computar 3 verbos flexionados.

Resultado Esperado: 0

Resultado Obtido: 0,333 (1/3)



Proporção de Verbos no Presente do Indicativo em relação à quantidade de verbos flexionados no texto (id: 144)


Nome da Métrica: indicative_present_ratio

Interpretação: o presente do indicativo é um dos tempos verbais mais frequentes de todas as formas flexionadas. Pode ocorrer em textos de diferentes níveis de complexidade, mas sua predominância indica baixa complexidade textual no quesito "tempo verbal".

Descrição da métrica: proporção de verbos no presente do modo indicativo, em relação ao total de verbos flexionados do texto

Definição dos termos que aparecem na descrição da métrica: o presente é um dos tempos do modo indicativo; para o verbo "ser", por exemplo, apresenta as seguintes formas: sou, és, é, somos, sois, são.

Limitações da métrica: a precisão da métrica depende do desempenho do parser Palavras.

Teste 1:

O secretário da Segurança Pública, Enio Bacci, disse que o aumento está ligado à legislação branda contra desmanches, ao aumento da frota e ao chamado golpe do seguro -- quando o dono vende o carro a bandidos e recebe um novo da seguradora, mas reconheceu que precisa ajustar a repressão.

Contagens:

6 verbos, 4 no presente do indicativo (está, vende, recebe, precisa), 2 no pretérito perfeito (disse, reconheceu)

O parser, contudo, reconheceu indevidamente o substantivo “desmanches” como mais um verbo (no presente do subjuntivo).

Resultado Esperado: 0,667 (4/6) ou 0,571 (4/7) se considerarmos o erro do parser

Resultado Obtido: 0,571



Proporção de Verbos no Pretérito Perfeito Simples do Indicativo em relação à quantidade de verbos flexionados no texto (id: 145)


Nome da Métrica: indicative_preterite_perfect_ratio

Interpretação: o pretérito perfeito simples do indicativo é um tempo frequente. Pode ocorrer em textos de diferentes níveis de complexidade. Não há uma relação direta com o nível de complexidade do texto.

Descrição da métrica: proporção de verbos no pretérito perfeito simples do modo indicativo, em relação ao total de verbos do texto

Definição dos termos que aparecem na descrição da métrica: pretérito perfeito é um dos tempos do modo indicativo. O verbo "ser", por exemplo, apresenta as seguintes formas nesse tempo: fui, fostes, foi, fomos, fostes, foram.

Limitações da métrica: a precisão da métrica depende do desempenho do parser.

Teste 1:

Robert Lustig trabalha como endocrinologista pediátrico na Universidade da Califórnia, especializado no tratamento da obesidade infantil. Em 2009, ele proferiu a palestra “Açúcar: a amarga verdade”, que teve mais de 6 milhões de visualizações no YouTube. No decorrer de uma hora e meia, Lustig defende com veemência que a frutose, um açúcar onipresente na alimentação moderna, é o “veneno” responsável pela epidemia de obesidade nos Estados Unidos.

Contagens: 6 verbos, 3 no presente, 2 no pretérito perfeito

Resultado Esperado: 2/5 = 0,40

Resultado Obtido: 0,40



Proporção de verbos no particípio em relação a todos os verbos do texto (id: 146)


Nome da Métrica: participle_verbs

Interpretação: o nível de dificuldade das formas nominais do verbo é menos do que o das formas flexionadas.

Descrição da métrica: Proporção de verbos no particípio em relação a todos os verbos do texto.

Definição dos termos que aparecem na descrição da métrica: verbos no particípio são formas não flexionadas, que podem ser regulares (teminados em –ado, -ido) ou irregulares. Ex: formado, falado, comido, tido, sido, (formas regulares), composto, morto, aberto (irregulares). Além de atuarem como verbos em formas compostas e orações reduzidas, as formas do particípio podem constituir substantivos e adjetivos (ex: aposentado, sentido, vestido, cansado).

Limitações da métrica: o parser não distingue a função do particípio (verbo, substantivo, adjetivo), exceto quando um artigo o precede (ex: o vestido). Isso pode levar a uma superestimativa dessa forma verbal.

Teste: É importante atentar para os testes que têm sido feitos após a retirada do país da Comunidade Europeia.

Contagens: 5 verbos (é, atentar, têm, sido, feitos), 2 no particípio (sido, feitos)

Resultado Esperado: 2/5 = 0,40

Resultado Obtido: 0,40



Quantidade de diferentes tempos-modos verbais que ocorrem no texto (id: 140)


Nome da Métrica: verbal_time_moods_diversity

Interpretação: quanto maior a diversidade de tempos e modos verbais, maior a complexidade

Descrição da métrica: Quantidade de diferentes tempos e modos verbais no texto

Definição dos termos que aparecem na descrição da métrica: há 10 tempos e modos verbais identificados pela métrica: indicativo: presente, pretérito imperfeito, pretérito perfeito, pretérito mais que perfeito, futuro, futuro do pretérito; subjuntivo: presente, pretérito imperfeito, futuro; imperativo. Portanto, o resultado pode variar de 0 a 10.

Limitações da métrica: a precisão da métrica depende do desempenho do parser Palavras

Teste: Ele fizera questão de enfatizar que, embora houvesse chegado tarde, havia telefonado antecipadamente para avisar do atraso. A empresa não quer ouvir os argumentos dele e afirmou que fará de tudo para demiti-lo dentro da lei.

Contagens: 6 tempos/modo verbais (fizera, houvesse, havia, quer, afirmou, fará)

Resultado Esperado: 6

Resultado Obtido: 6



Proporção de Verbos no Futuro do Subjuntivo em relação à quantidade de verbos flexionados no texto (id: 147)


Nome da Métrica: subjunctive_future_ratio

Interpretação: o futuro do subjuntivo é um tempo usado com menos frequência e sua ocorrência pode estar associada a uma maior complexidade

Descrição da métrica: Proporção de Verbos no Futuro do Subjuntivo em relação ao total de verbos flexionados

Definição dos termos que aparecem na descrição da métrica: o futuro é um dos tempos do modo subjuntivo (modo usado para falar do que é hipotético, provável ou improvável). O verbo "ser", por exemplo, apresenta as seguintes formas nesse tempo: for, fores, for, formos, fordes, forem.

Limitações da métrica: a precisão da métrica depende do desempenho do parser Palavras

Teste: Se a idéia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 2 verbos flexionados, 1 no futuro do subjuntivo (for) e 1 no futuro do indicativo (receberão)

Resultado Esperado: 0,50 (1/2)

Resultado Obtido: 0,50



Proporção de Verbos no Pretérito Imperfeito do Subjuntivo em relação à quantidade de verbos flexionados no texto (id: 148)


Nome da Métrica: subjunctive_imperfect_ratio

Interpretação: o imperfeito do subjuntivo é um tempo usado com menos frequência e sua ocorrência pode estar associada a uma maior complexidade

Descrição da métrica: Proporção de Verbos no Pretérito Imperfeito do Subjuntivo em relação ao total de verbos flexionados

Definição dos termos que aparecem na descrição da métrica: o pretérito imperfeito é um dos tempos do modo subjuntivo (modo usado para falar do que é hipotético, provável ou improvável). O verbo "ser, por exemplo, apresenta as seguintes formas nesse tempo: fosse, fosses, fosse, fôssemos, fôsseis, fossem.

Limitações da métrica: a precisão da métrica depende do desempenho do parser Palavras

Teste: Não fosse o aspecto financeiro, o projeto teria o apoio incondicional de Balzano e do presidente da Famurs, Flávio Luiz Lammel.

Contagens: 2 verbos flexionados, 1 no imperfeito do subjuntivo (fosse) e 1 no futuro do pretérito do indicativo (teria).

Resultado Esperado: 0,50 (1/2)

Resultado Obtido: 0,50



Proporção de Verbos no Presente do Subjuntivo em relação à quantidade de verbos flexionados no texto (id: 149)


Nome da Métrica: subjunctive_present_ratio

Interpretação: o presente do subjuntivo é um tempo usado com menos frequência e sua ocorrência pode estar associada a uma maior complexidade

Descrição da métrica: Proporção de Verbos no Presente do Subjuntivo em relação ao total de verbos flexionados do texto

Definição dos termos que aparecem na descrição da métrica: o presente é um dos tempos do modo subjuntivo; para o verbo "ser", por exemplo, apresenta as seguintes formas: seja, sejas, seja, sejamos, sejais, sejam.

Limitações da métrica: a precisão da métrica depende do desempenho do parser Palavras. Como as terceiras pessoas do presente do subjuntivo são ambíguas com as terceiras pessoas do imperativo e o parser por default anota todas como subjuntivo, esta métrica pode ser superestimada.

Teste: A regra obriga as legendas a fechar nos Estados apenas coligações que não colidam com as nacionais.

Contagens: 2 verbos flexionados, 1 no presente do indicativo (obriga) e 1 no presente do subjuntivo (colidam)

Resultado Esperado: 0,50 (1/2)

Resultado Obtido: 0,50




9. Complexidade Sintática


Quantidade Média de palavras antes dos verbos principais das orações principais das sentenças (id: 44)


Nome da Métrica: words_before_main_verb

Interpretação: quanto maior o resultado da métrica, maior a carga de memória exigida e maior a complexidade textual

Descrição da métrica: quantidade média de palavras antes dos verbos principais das orações principais das sentenças

Definição dos termos que aparecem na descrição da métrica: verbo principal é o verbo de sentido pleno da oração principal de uma sentença.

Limitações da métrica: a precisão da métrica depende do desempenho do parser. Além disso, a contagem de palavras antes do verbo identificado como principal trabalha com a tokenização realizada pelo parser Palavras, que inclui descontração de palavras e junção de palavras para formar locuções.

Teste 1:

O acessório polêmico entrou no projeto, de autoria do senador Cícero Lucena (PSDB-PB), graças a uma emenda aprovada na Comissão de Educação do Senado em outubro.

Contagens: 2 orações, 1 principal (entrou) e 1 subordinada adjetiva restritiva reduzida de particípio (aprovada); 3 palavras antes da oração principal (o, acessório, polêmico).

Resultado Esperado: 3

Resultado Obtido: 3

Teste 2:

Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 3 orações, 1 principal (receberão) e 1 subordinada adverbial condicional (aprovada), 1 subordinada adjetiva explicativa reduzida de particípio (completados); 7 palavras antes da oração principal (se, a, ideia, for, aprovada, os, estudantes).

Resultado Esperado: 7

Resultado Obtido: 7

Teste 3:

Nas inserções que já circulam, o PMDB ataca as denúncias feitas pela Procuradoria Geral da República (PGR) contra o presidente Michel Temer, por conta da Operação Lava Jato, e faz comparações entre a situação econômica de hoje e a do governo Dilma Rousseff.

Contagens: 4 orações, 1 subordinada adjetiva restritiva (circulam) e 1 coordenada assindética (ataca), 1 subordinada adjetiva restritiva reduzida de particípio (aprovada), 1 coordenada sindética (faz). 8 palavras antes do primeiro verbo da oração “atacam”, considerando a descontração da preposição “em” e artigo “as” (Nas) (em, as, inserções, que, já, circulam, o, PMDB)

Resultado Esperado: 8

Resultado Obtido: 8



Quantidade média de adjuntos adverbiais por oração do texto (id: 19)


Nome da Métrica: adjunct_per_clause

Interpretação: quanto maior a proporção de adjuntos adverbiais por oração, maior a complexidade textual

Descrição da métrica: média de adjuntos adverbiais por oração

Definição dos termos que aparecem na descrição da métrica: uma oração corresponde a um verbo principal.

Limitações da métrica: a precisão da métrica depende do desempenho do parser

Teste: A resposta de Trump ao primeiro ataque terrorista em solo americano desde o início do seu mandato é dura e polêmica. Ontem, ele disse que cogitava enviar Saipov para a prisão de Guantánamo, a mesma que o seu antecessor democrata Barack Obama esvaziou e planejava desativar por completo. Guantánamo se tornou famosa quando se tornou o presídio dos combatentes capturados no Afeganistão após a invasão liderada pelos Estados Unidos depois dos atentados de 11 de setembro de 2001. As condições dos presos mantidos na base naval americana foram motivo de indignação internacional e alvo de duras críticas, tanto por parte de governos como de organizações humanitárias internacionais.

Contagens: 13 orações (é, disse, cogitava, enviar, esvaziou, planejava, desativar, tornou, tornou, capturados, liderada, mantidos, foram) e 8 adjuntos adverbiais (em solo americano, desde o início do seu mandato, ontem, por completo, quando se tornou..., no Afeganistão, após a invasão..., depois dos atentados de...)

Resultado Esperado: 0,615

Resultado obtido: 0,615



Proporção de orações com advérbio antes do verbo principal em relação à quantidade de orações do texto (id: 20)


Nome da Métrica: adverbs_before_main_verb_ratio

Interpretação: quanto maior o resultado da métrica (o máximo é 1), maior a complexidade textual, pois representa carga de trabalho de leitura, ou seja, aquilo que se acumula na memória antes da chegada do verbo principal.

Descrição da métrica: Proporção de orações com advérbio antes do verbo principal em relação à quantidade de orações do texto

Definição dos termos que aparecem na descrição da métrica: advérbios antes de verbos principais são ocorrências que rompem a ordem canônica dos constituintes das sentenças (Sujeito, Verbo, Objeto, Advérbio).

Limitações da métrica: a precisão da métrica depende do desempenho do parser.

Teste: Gradativamente, ele foi se acostumando às novas condições de trabalho, porém, praticamente não se conformou até hoje com a perda de status. Hoje é fácil perceber isso, no entanto, naquela época, dificilmente alguém poderia saber que ele estava sofrendo profundamente.

Contagens: 6 orações, 4 com advérbios antes dos verbos principais

Resultado Esperado: 4/6 = 0,667

Resultado Obtido: 0,667



Quantidade média de apostos por oração do texto (id: 21)


Nome da Métrica: apposition_per_clause

Interpretação: apostos estão associados a uma maior complexidade textual

Descrição da métrica: quantidade média de apostos por oração

Definição dos termos que aparecem na descrição da métrica: aposto é um constituinte sintático que especifica algo sobre um sintagma nominal. É identificado por meio da etiqueta @APP do parser Palavras.

Limitações da métrica: o desempenho do parser Palavras na identificação de apostos é bem fraca, de acordo com vários testes que fizemos.

Teste 1: O homem, um militar de alta patente, chegou em um carro blindado, prova de que se sente ameaçado. Só hoje, segunda-feira, soubemos que ele veio verificar a presença de meliantes, na maioria infantis, na nossa escola.

Contagens: 4 apostos, 6 orações (o Palavras identificou 5 orações porque classificou “veio verificar” como um só VP)

Resultado Esperado: o correto seria 0,66, mas se considerarmos o erro do Palavras, o esperado é 0,8.

Resultado obtido: 0,0 (o parser não anotou nenhum APP)

Teste 2: A Ecologia, ciência que investiga as relações dos seres vivos entre si e com o meio em que vivem, adquiriu grande destaque no mundo atual.

Contagens: 1 aposto, 2 orações

Resultado Esperado: 0,5

Resultado Obtido: 0,0 (o parser não anotou nenhum APP)

Teste 3: O homem mais rico do mundo, Bill Gates, é um grande filantropo.

Contagens: 1 aposto, 1 oração

Resultado Esperado: 1,0

Resultado Obtido: 1,0



Quantidade média de orações por sentença (id: 22)


Nome da Métrica: clauses_per_sentence

Interpretação: quanto maior o número de orações por sentença, maior a complexidade

Descrição da métrica: média de orações por sentença

Definição dos termos que aparecem na descrição da métrica: oração é a unidade do texto que apresenta um verbo principal

Limitações da métrica: o parser não distingue particípios passados nas funções de verbo, substantivo e adjetivo, considerando-os todos verbos. Isso pode levar a uma superestimativa do número de orações.

Teste:

Tendemos a pensar que os hereges são pessoas que nadam contra a corrente, indivíduos inclinados a desafiar o conhecimento dominante. Às vezes, porém, um herege é apenas um pensador convencional que permanece olhando na mesma direção, ao passo que todos os demais passaram a olhar na direção contrária. Quando, em 1957, John Yudkin aventou pela primeira vez a possibilidade de o açúcar representar um perigo para a saúde pública, a hipótese foi levada a sério, assim como seu proponente. Ao se aposentar, catorze anos depois, tanto a teoria como seu autor haviam sido ridicularizados e marginalizados. Somente agora, postumamente, é que seu trabalho vem sendo reconduzido ao pensamento científico consolidado.

Contagens: 5 sentenças, 16 orações

Resultado Esperado: 3,20 (16/5)

Resultado Obtido: 3,00 (o parser reconheceu 15 orações)



Proporção de conjunções coordenativas em relação a todas as orações do texto (id: 23)


Nome da Métrica: coordinate_conjunctions_per_clauses

Interpretação: as conjunções coordenativas unem orações, palavras e outros constituintes sintáticos; estruturas coordenadas são mais complexas que estruturas simples, portanto, quanto maior o resultado da métrica, maior a complexidade.

Descrição da métrica: proporção de conjunções coordenativas em relação ao total de orações do texto.

Definição dos termos que aparecem na descrição da métrica: conjunções coordenativas constituem uma classe de palavras que unem duas orações independentes ou duas palavras de conteúdo ou dois sintagmas nominais. Ex: “Inovou e ficou rico”, “João e Maria”, “bonito, porém caro”, “agora e sempre”, “bonitinha, mas ordinária”.

Limitações da métrica: a precisão depende do desempenho do parser.

Teste: O cientista político André Marenco afirma que a Justiça Eleitoral tem sido rigorosa em relação à propaganda antes do prazo legal e que a verticalização impôs aos partidos a conciliação de nacionais e regionais.

Contagens: 3 orações (afirma, tem sido, impôs), 2 conjunções coordenativas (e, e)

Resultado Esperado: 0,667

Resultado Obtido: 0,667



Distância na árvore de dependências (id: 24)


Nome da Métrica: dep_distance

Interpretação: Quanto maiores as distâncias de dependência, maior a complexidade do texto

Descrição da métrica: A distância de dependência utiliza uma árvore de dependências para realizar o cálculo. A cada relação de dependência está associada uma distância entre as palavras na superfície textual.

Estudos da literatura mostram que essas distâncias entre palavras nas relações de dependência são diretamente proporcionais ao tempo de processamento em tarefas de compreensão de sentenças; grandes distâncias entre palavras relacionadas geram overhead de memória.

Definição dos termos que aparecem na descrição da métrica:

Limitações da métrica: a precisão da métrica depende do desempenho do tokenizador e do parser

Teste 1: Ela encontrou um gato com um rabo vermelho.

Resultado Obtido: 9,0



Fórmula de Complexidade Sintática de Frazier (id: 25)


Nome da Métrica: frazier

Interpretação: Quanto maior o valor, maior a complexidade do texto

Descrição da métrica: Frazier propôs uma abordagem bottom-up para o cálculo da complexidade sintática de uma sentença, que parte da palavra e sobe na árvore sintática até encontrar um nó que não seja o filho mais à esquerda de seu pai. Cada nó na árvore recebe uma pontuação 1, e nós filhos de nós do tipo sentença, 1.5. A pontuação de cada palavra é dada pela soma das pontuações dos nós pertencentes a seu ramo.

Definição dos termos que aparecem na descrição da métrica: uma árvore sintática une os elementos de uma sentença analisados sintaticamente segundo uma gramática. Um nó é o ponto de onde partem as ramificações. Uma árvore sintática produzida pela gramática de dependências tem relações unindo os elementos da oração, onde os governantes são chamados de pais (heads) e os subordinados são chamados de filhos (dependents).

Forma de cálculo da métrica: Para calcular a complexidade de uma sentença, é preciso que se tenha sua árvore sintática. Por exemplo: considere a oração em inglês "She found a cat with a red tail.". Suponha que cada nó tenha um peso. Um peso marcado com [x] indica fim de ramo.
Nesse exemplo, para a derivação da palavra "She", o nó imediatamente acima teria uma etiqueta morfossintática PRP (pronome). Esse nó é incluído na contagem, pois é o filho mais à esquerda de NP, recebendo pontuação 1; PRP é filho de NP, que é o filho mais à esquerda de seu pai, e como seu pai é um nó do tipo sentença, recebe pontuação 1.5; portanto, a pontuação de "She" é 1 + 1.5 = 2.5. Para o cálculo da pontuação de "found", seu nó pai VBD (verbo direto) é incluído no cálculo, pois é o filho mais à esquerda de VP, recebendo pontuação 1; porém, o pai de VBD, VP, não é incluído, pois não é o filho mais à esquerda de S; portanto, a derivação para, e a pontuação de "found" é 1. No caso de "cat", nem mesmo seu nó pai NN é incluído, pois não é o filho mais à esquerda de NP, recebendo pontuação 0.

Frazier propôs dividir a sentença em trigramas para fazer o cálculo. Para calcular a complexidade da sentença, calcula-se a soma das pontuações das palavras em cada trigrama, usando o máximo dessas somas numa varredura da esquerda pra direita. A complexidade de um texto é a média da complexidade de Frazier para cada sentença.

Recursos de PLN utilizados durante o cálculo: parser sintático LX-Parser e tokenizador NLTK

Limitações da métrica: a métrica depende do desempenho do parser e do tokenizador.

Teste: Os brasileiros esperam resultados concretos.

Resultado Obtido: 5,0



Proporção de orações subordinadas reduzidas pela quantidade de orações do texto (id: 26)


Nome da Métrica: infinite_subordinate_clauses

Interpretação:.quanto maior o resultado da métrica, maior a complexidade

Descrição da métrica: Proporção de orações subordinadas reduzidas em relação à quantidade de orações do texto

Definição dos termos que aparecem na descrição da métrica: orações subordinadas reduzidas são aquelas formadas por verbos nas formas nominais (ou infinitas): infinitivo, gerúndio e particípio

Limitações da métrica: o código da métrica usa terminações para identificar as formas nominais dos verbos. No entanto, como nem todos os verbos nas formas nominais constituem orações reduzidas, seria mais adequado usar etiquetas sintáticas para isso.

Teste: Ele, determinado a entrar na universidade e sempre estudando horas a fio, foi o único a se lembrar do prazo final para inscrição no vestibular.

Contagens: 5 verbos, 4 nas formas infinitas (determinado, entrar, estudando, lembrar)

Resultado Esperado: 0,80

Resultado Obtido: 0,80



Proporção de orações que não estão no formato SVO (sujeito-verbo-objeto) em relação a todas orações do texto (id: 27)


Nome da Métrica: non_svo_ratio

Interpretação: quanto maior o resultado da métrica, maior a complexidade.

Descrição da métrica: Proporção de orações que não estão no formato SVO (sujeito-verbo-objeto) em relação a todas orações do texto

Definição dos termos que aparecem na descrição da métrica: a ordem SVO é a ordem canônica ou “natural” dos constituintes na língua portuguesa (ex: Ela adotou um menino). Ordens não SVO são: OSV (ex: Greve eu não farei), OVS (ex: dinheiro só ganharão os bons profissionais), VS (ex: Acabou o prazo), VSO (ex: Ouviram do Ipiranga as margens plácidas, de um povo heroico o brado retumbante), VOS (ex: Fez vinte e oito pontos a melhor aluna).

Limitações da métrica: a precisão da métrica depende do desempenho do parser.

Teste: Ouviram as margens plácidas o brado retumbante. Acabou o prazo de análise, mas nós ainda podemos pedir prorrogação.

Contagens: 3 orações (ouviram..., acabou..., podemos pedir...), a primeira na ordem VSO, a segunda na ordem VS e a terceira na ordem SVO, portanto, 2 orações em ordens não SVO.

Resultado Esperado: 2/3 = 0,667

Resultado Obtido: 0,667



Proporção de orações na voz passiva analítica em relação à quantidade de orações do texto (id: 28)


Nome da Métrica: passive_ratio

Interpretação: quanto maior a proporção de passivas no texto, mais complexo ele é. Justificativa: a voz passiva é uma estrutura que as crianças adquirem tardiamente

Descrição da métrica: Proporção de orações na voz passiva analítica em relação à quantidade de orações do texto.

Definição dos termos que aparecem na descrição da métrica: há duas formas de voz passiva: a sintética e a analítica (desenvolvida). Esta métrica trata apenas da voz passiva analítica, constituída do verbo SER seguido de um verbo principal na forma do particípio passado. A voz passiva sintética seria muito difícil de ser capturada, uma vez que é construída com a partícula “se”, muito ambígua no português e, por isso mesmo, sujeita a muitas imprecisões de anotação do parser.

Limitações da métrica: o parser Palavras não distingue o particípio passado usado como verbo daquele usado como adjetivo ou substantivo, o que pode prejudicar essa métrica. Isso pode levar a uma superestimativa das passivas no texto. Exemplos de construções que atendem à heurística mas não são passivas: Ele é entendido no assunto. Ele é aposentado. Eu sou agradecido por tudo que você fez.

Textos simples contêm menos passivas, mas o inverso não é verdadeiro, pois há textos complexos que contêm poucas passivas também. Portanto, a ausência ou baixa proporção de passivas não é evidência de baixa complexidade. A alta proporção de passivas, pelo contrário, pode ser evidência de maior complexidade.

Embora no inglês a passiva seja reconhecidamente um complexificador, no português ela é muito mais frequente. Temos que ter o cuidado de não dar à passiva o mesmo peso dado a ela pelos classificadores de complexidade textual do inglês.

Teste: A campanha para designar as sete maravilhas do mundo moderno foi organizada pelo empresário e cineasta suíço Bernard Weber, que afirma ter sido motivado a defender a preservação do patrimônio histórico após a destruição dos budas gigantes de Bamiyan, no Afeganistão, pelos talibãs, em 2001.

Contagens: 5 orações, 2 passivas (designar, foi organizada, afirma, sido motivado, defender)

Resultado Esperado: 0,4

Resultado Obtido: 0,4



Proporção de sujeitos pospostos em relação a todos os sujeitos do texto (id: 29)


Nome da Métrica: postponed_subject_ratio

Interpretação: sujeito posposto (VS) é uma ordem de constituintes mais complexa que sujeito anteposto (SV)

Descrição da métrica: Proporção de sujeitos pospostos em relação a todos os sujeitos do texto

Definição dos termos que aparecem na descrição da métrica: sujeito posposto é o sujeito que ocorre após o verbo.

Limitações da métrica: a precisão da métrica depende do desempenho do parser.

Teste: São tomadas muitas iniciativas a fim de melhorar a situação da educação no Brasil, porém são poucas as que dão resultado.

Contagens: 4 orações (são tomadas, melhorar, são, dão), 3 sujeitos (muitas iniciativas, as que dão resultado, que) 2 sujeitos pospostos

Resultado Esperado: 2/3 = 0,667

Resultado Obtido: 0,667



Proporção de conjunções coordenativas em relação a todas as conjunções do texto (id: 30)


Nome da Métrica: ratio_coordinate_conjunctions

Interpretação: as conjunções coordenativas parecem ser índice de estruturas mais complexas que as estruturas simples, porém menos complexas estruturas com subordinação.

Descrição da métrica: proporção de conjunções coordenativas em relação ao total de conjunções do texto

Definição dos termos que aparecem na descrição da métrica: há dois tipos de conjunções: coordenativas e subordinativas. Conjunções coordenativas constituem uma classe de palavras que unem duas orações independentes ou duas palavras de conteúdo ou dois sintagmas nominais. Conjunções subordinativas introduzem orações subordinadas.

Limitações da métrica: a precisão da métrica depende da precisão do parser Palavras na identificação das conjunções.

Teste 1: Conforme as pesquisas progrediram, a equipe descobriu que a resistência não se estende só ao gambá propriamente dito, mas também às cuícas e outros parentes do animal, todos caçadores de cobras, que teriam tido vantagens em desenvolver tais defesas bioquímicas.

Contagens: 2 conjunções coordenativas (mas, e) e 2 conjunções subordinativas (conforme, que). O parser, porém, não reconheceu “conforme” como KS.

Resultado Esperado: 0,667 (2/3, considerando a limitação do parser)

Resultado Obtido: 0,667

Teste 2: Na zona rural da Venezuela, as pessoas diziam que o gambá era resistente às picadas, mas não se sabia como.

Contagens: 1 conjunção coordenativa (mas) e 2 conjunções subordinativas (que, como). O parser, porém, reconheceu também o “se” como KS, quando na verdade ele é um pronome, índice de indeterminação do sujeito.

Resultado Esperado: 0,333 (1/3, considerando a limitação do parser)

Resultado Obtido: 0,333



Proporção de conjunções subordinativas em relação a todas conjunções do texto (id: 31)


Nome da Métrica: ratio_subordinate_conjunctions

Interpretação: as conjunções subordinativas, por introduzirem orações subordinadas, indicam estruturas mais complexas que conjunções coordenativas. Teoricamente, portanto, quanto maior o resultado, maior a complexidade.

Descrição da métrica: proporção de conjunções subordinativas em relação à soma de conjunções subordinativas e coordenativas do texto.

Definição dos termos que aparecem na descrição da métrica: há dois tipos de conjunções: coordenativas e subordinativas. Conjunções coordenativas constituem uma classe de palavras que unem duas orações independentes ou duas palavras de conteúdo ou dois sintagmas nominais. Conjunções subordinativas introduzem orações subordinadas.

Limitações da métrica: a precisão da métrica depende da precisão do parser Palavras na identificação das conjunções.

Teste: O secretário da Segurança Pública, Enio Bacci, disse que o aumento está ligado à legislação branda contra desmanches, ao aumento da frota e ao chamado golpe do seguro -- quando o dono vende o carro a bandidos e recebe um novo da seguradora, mas reconheceu que precisa ajustar a repressão.

Contagens: 5 conjunções, 3 coordenativas (e, e, mas) e 2 subordinativas (que, que)

Resultado Esperado: 0,4 (2/5)

Resultado Obtido: 0,4



Proporção de orações relativas em relação à quantidade de orações do texto (id: 32)


Nome da Métrica: relative_clauses

Interpretação: orações relativas estão associadas a uma maior complexidade textual, portanto, quanto maior a proporção, maior a complexidade

Descrição da métrica: proporção de orações relativas em relação ao total de orações do texto

Definição dos termos que aparecem na descrição da métrica: orações relativas são orações subordinadas adjetivas restritivas ou explicativas introduzidas por pronomes relativos, como "que", "o qual", "cujo", etc.

Limitações da métrica: depende do desempenho do parser na identificação dos pronomes relativos, pois só o léxico não é suficiente para essa finalidade, já que alguns pronomes, como o "que", podem ter outras funções.

Teste 1: O presidente dos EUA, Donald Trump, defendeu pelo Twitter nesta quinta-feira que o terrorista uzbeque responsável pelo atentado em Nova York desta semana seja condenado à morte. Sayfullo Saipov pediu que a bandeira do Estado Islâmico fosse pendurada no quarto do hospital onde está sendo tratado. O homem de 28 anos, que vive há sete anos nos Estados Unidos, ficou ferido no abdômen por um tiro da polícia, que conseguiu prendê-lo logo após ele ter atropelado pedestres e ciclistas numa ciclovia de Manhattan na terça-feira.

Contagens: 11 orações, 3 relativas

Resultado Esperado: 0,273

Resultado Obtido: 0,273



Proporção de sentenças com 5 orações em relação a todas as sentenças do texto (id: 33)


Nome da Métrica: sentences_with_five_clauses

Interpretação: quanto maior a proporção, maior a complexidade

Descrição da métrica: Proporção de sentenças que contenham 5 orações

Definição dos termos que aparecem na descrição da métrica:

1) oração é uma unidade sintática que contém um verbo e os constituintes ligados a ele. O predicado pode ser formado por um único verbo (verbo principal) ou por uma locução verbal, isto é, um verbo principal acompanhado de um ou mais verbos auxiliares.

2) sentença é a unidade sintática iniciada por letra maiúscula e terminada por ponto final, ponto de exclamação, ponto de interrogação ou reticências.

Limitações da métrica: a precisão da métrica depende do desempenho do parser. O parser Palavras gera uma quebra de sentença sempre que a sentença é longa, utilizando como ponto de quebra a ocorrência de dois-pontos ou ponto-e-vírgula. Esse fato pode levar o sistema a subestimar a quantidade de sentenças com 5 verbos.

Teste: Estamos cadastrando ferros-velhos, mas não tivemos um trabalho forte contra a clonagem e agora vamos atacar para valer _ admitiu Bacci.

Contagens: 5 verbos, 5 orações: cadastrando, tivemos, atacar, valer, admitiu (estamos e vamos são verbos auxiliares e não contam)

Resultado Esperado: 1

Resultado Obtido: 1



Proporção de sentenças com 4 orações em relação a todas as sentenças do texto (id: 34)


Nome da Métrica: sentences_with_four_clauses

Interpretação: quanto maior a proporção, maior a complexidade

Descrição da métrica: Proporção de sentenças que contenham 4 orações

Definição dos termos que aparecem na descrição da métrica:

1) oração é uma unidade sintática que contém um verbo e os constituintes ligados a ele. O predicado pode ser formado por um único verbo (verbo principal) ou por uma locução verbal, isto é, um verbo principal acompanhado de um ou mais verbos auxiliares.

2) sentença é a unidade sintática iniciada por letra maiúscula e terminada por ponto final, ponto de exclamação, ponto de interrogação ou reticências.

Limitações da métrica: a precisão da métrica depende do desempenho do parser. O parser Palavras gera uma quebra de sentença sempre que a sentença é longa, utilizando como ponto de quebra a ocorrência de dois-pontos ou ponto-e-vírgula. Esse fato pode levar o sistema a subestimar a quantidade de sentenças com 4 verbos.

Teste: Silva adquiriu uma tela de retenção com 150 metros, que deve ser instalada para isolar o trecho da barragem mais usado pelos banhistas, com 3,7 mil hectares de área.

Contagens: 4 verbos, 4 orações: principais: adquiriu, instalada, isolar, usado (deve e ser são verbos auxiliares e não contam)

Resultado Esperado: 1

Resultado Obtido: 1



Proporção de sentenças com 1 oração em relação a todas as sentenças do texto (id: 35)


Nome da Métrica: sentences_with_one_clause

Interpretação: quanto maior a proporção, menor a complexidade

Descrição da métrica: Proporção de sentenças que contenham apenas 1 oração

Definição dos termos que aparecem na descrição da métrica: oração é a unidade do texto que apresenta um verbo principal

Limitações da métrica: a precisão da métrica depende do desempenho do parser. O parser Palavras gera uma quebra de sentença sempre que a sentença é longa, utilizando como ponto de quebra a ocorrência de dois-pontos ou ponto-e-vírgula. Esse fato pode levar à superestimativa de quantidade de sentenças e à ocorrência artificial de sentenças com apenas 1 verbo.

Teste: Em 29 de maio de 2002, Antônio Britto (PPS) cumpria agenda no Vale do Sinos.

Contagens: 1 verbo, 1 oração: cumpria

Resultado Esperado: 1

Resultado Obtido: 1



Proporção de sentenças com 7 ou mais orações em relação a todas as sentenças do texto (id: 36)


Nome da Métrica: sentences_with_seven_more_clauses

Interpretação: quanto maior a proporção, maior a complexidade

Descrição da métrica: Proporção de sentenças que contenham 7 ou mais orações

Definição dos termos que aparecem na descrição da métrica:

1) oração é uma unidade sintática que contém um verbo e os constituintes ligados a ele. O predicado pode ser formado por um único verbo (verbo principal) ou por uma locução verbal, isto é, um verbo principal acompanhado de um ou mais verbos auxiliares.

2) sentença é a unidade sintática iniciada por letra maiúscula e terminada por ponto final, ponto de exclamação, ponto de interrogação ou reticências.

Limitações da métrica: a precisão da métrica depende do desempenho do parser. O parser Palavras gera uma quebra de sentença sempre que a sentença é longa, utilizando como ponto de quebra a ocorrência de dois-pontos ou ponto-e-vírgula. Esse fato pode levar o sistema a subestimar a quantidade de sentenças com 7 ou mais verbos. Além disso, o Palavras considera todos as formas de particípio como formas verbais, quando na verdade os particípios podem funcionar como substantivos e adjetivos também (vide teste abaixo).

Teste: Os aparelhos no teto, explica Simões, são os preferidos pela possibilidade de puxar a tela para cima quando não é usada, deixando o equipamento menos visível, dificultando furtos.

Contagens: 7 verbos, 7 orações: explica, são, preferidos (particípio adjetivo), puxar, usada, deixando, dificultando.

Resultado Esperado: 1

Resultado Obtido: 1



Proporção de sentenças com 6 orações em relação a todas as sentenças do texto (id: 37)


Nome da Métrica: sentences_with_six_clauses

Interpretação: quanto maior a proporção, maior a complexidade

Descrição da métrica: Proporção de sentenças que contenham 6 orações

Definição dos termos que aparecem na descrição da métrica:

1) oração é uma unidade sintática que contém um verbo e os constituintes ligados a ele. O predicado pode ser formado por um único verbo (verbo principal) ou por uma locução verbal, isto é, um verbo principal acompanhado de um ou mais verbos auxiliares.

2) sentença é a unidade sintática iniciada por letra maiúscula e terminada por ponto final, ponto de exclamação, ponto de interrogação ou reticências.

Limitações da métrica: a precisão da métrica depende do desempenho do parser. O parser Palavras gera uma quebra de sentença sempre que a sentença é longa, utilizando como ponto de quebra a ocorrência de dois-pontos ou ponto-e-vírgula. Esse fato pode levar o sistema a subestimar a quantidade de sentenças com 6 verbos. Além disso, o Palavras considera todos as formas de particípio como formas verbais, quando na verdade os particípios podem funcionar como substantivos e adjetivos também (vide teste abaixo).

Teste: Uma dúvida que paira hoje na Assembléia é se Ubirajara Amaral Macalão, principal envolvido na compra e no desvio de selos, era qualificado para ocupar a direção do Departamento de Serviços Administrativos (DSA).

Contagens: 6 verbos: paira, é, envolvido (adjetivo particípio), era, qualificado (adjetivo particípio), ocupar. Como a forma de cálculo das orações é via quantidade de verbos não auxiliares, a quantidade de orações é 6.

Resultado Esperado: 1

Resultado Obtido: 1



Proporção de sentenças com 3 orações em relação a todas as sentenças do texto (id: 38)


Nome da Métrica: sentences_with_three_clauses

Interpretação: quanto maior a proporção, maior a complexidade

Descrição da métrica: Proporção de sentenças que contenham 3 orações

Definição dos termos que aparecem na descrição da métrica:

1) oração é uma unidade sintática que contém um verbo e os constituintes ligados a ele. O predicado pode ser formado por um único verbo (verbo principal) ou por uma locução verbal, isto é, um verbo principal acompanhado de um ou mais verbos auxiliares.

2) sentença é a unidade sintática iniciada por letra maiúscula e terminada por ponto final, ponto de exclamação, ponto de interrogação ou reticências.

Limitações da métrica: a precisão da métrica depende do desempenho do parser. O parser Palavras gera uma quebra de sentença sempre que a sentença é longa, utilizando como ponto de quebra a ocorrência de dois-pontos ou ponto-e-vírgula. Esse fato pode levar o sistema a subestimar a quantidade de sentenças com 3 verbos.

Teste: Uma parcela critica o uniforme, porque acredita que ele ameaçaria a individualidade de cada um.

Contagens: 3 verbos, 3 orações: critica, acredita, ameaçaria

Resultado Esperado: 1

Resultado Obtido: 1



Proporção de sentenças com 2 orações em relação a todas as sentenças do texto (id: 39)


Nome da Métrica: sentences_with_two_clauses

Interpretação: quanto maior a proporção, maior a complexidade

Descrição da métrica: Proporção de sentenças que contenham 2 orações

Definição dos termos que aparecem na descrição da métrica: oração é a unidade do texto que apresenta um verbo principal

Limitações da métrica: a precisão da métrica depende do desempenho do parser. O parser Palavras gera uma quebra de sentença sempre que a sentença é longa, utilizando como ponto de quebra a ocorrência de dois-pontos ou ponto-e-vírgula. Esse fato pode levar o sistema a superestimar a quantidade total de sentenças, bem como a subestimar ou superestimar a quantidade de sentenças com 2 verbos (se a sentença original tiver 2 verbos, a quebra gera uma subestimativa; se a sentença original tiver 3 ou mais verbos e a quebra gerar pelo menos 1 sentença com 2 verbos, temos uma superestimativa).

Teste: Professores ainda temem que a distribuição do acessório dificulte a imposição, nas classes, de uma regra da boa conduta:

Contagens: 2 verbos, 2 orações (oração quebrada pelo parser, por isso termina com dois-pontos)

Resultado Esperado: 1

Resultado Obtido: 1



Proporção de sentenças sem verbos em relação a todas as sentenças do texto (id: 40)


Nome da Métrica: sentences_with_zero_clause

Interpretação: quanto maior a proporção, menor a complexidade

Descrição da métrica: quantidade de sentenças sem nenhum verbo, ou seja, frases e não orações

Definição dos termos que aparecem na descrição da métrica: sentença sem oração é aquela que não apresenta nenhum verbo

Limitações da métrica: a precisão da métrica depende do desempenho do parser. O parser Palavras gera uma quebra de sentença sempre que a sentença é longa, utilizando como ponto de quebra a ocorrência de dois-pontos ou ponto-e-vírgula. Esse fato pode levar à superestimativa de quantidade de sentenças total do texto e à ocorrência artificial de sentenças sem verbo (vide teste abaixo).

Teste: A retirada de chapéus e bonés da cabeça em ambientes fechados.

Contagens: nenhuma oração (observa-se, contudo, que essa sentença é artificial, gerada por um recurso do parser de quebrar orações longas em duas partes, usando como divisor os dois pontos. A sentença original era: “Professores ainda temem que a distribuição do acessório dificulte a imposição, nas classes, de uma regra da boa conduta: a retirada de chapéus e bonés da cabeça em ambientes fechados.”)

Resultado Esperado: 1

Resultado Obtido: 1



Desvio-padrão do tamanho dos sintagmas nominais do text (id: 41)


Nome da Métrica: std_noun_phrase

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Desvio-padrão do tamanho dos sintagmas nominais do texto

Definição dos termos que aparecem na descrição da métrica: sintagmas nominais são constituintes de uma oração em que o núcleo é um substantivo ou pronome e os demais integrantes, não obrigatórios, são determinantes, adjetivos e outros modificadors nominais. Como há sintagmas nominais constituídos de outros sintagmas nominais, são computados apenas os de alto nível, ou seja, os mais próximos da raiz da árvore sintática.

Limitações da métrica: a precisão da métrica depende do desempenho do LX-Parser

Teste: Três geneticistas norte-americanos receberam o Nobel por desvendarem o mecanismo por trás do ciclo circadiano, o relógio biológico que regula em animais e plantas os padrões diários de comportamento e funções vitais, como o metabolismo, níveis de hormônio, sono e temperatura corporal. Jeffrey C. Hall, de 72 anos, Michael Rosbash, de 73, e Michael W. Young, de 68, compartilham o prêmio de Medicina ou Fisiologia. Ao isolar, a partir dos anos 1970, genes ligados ao ritmo biológico, como o timeless (TIM) e o period (PER), eles foram pioneiros em estabelecer conexões diretas entre DNA e comportamento.

Contagens: 3 sentenças com 96 palavras e 9 NPs de alto nível. A primeira sentença com 3 NPs (3, 2, 34 palavras). A segunda sentença com 2 NPs (16 e 6 palavras). A terceira com 4 NPs (3, 12, 1, 9 palavras).
10. Três geneticistas norte-americanos
11. o Nobel
12. o mecanismo por trás do ciclo circadiano, o relógio biológico que regula em animais e plantas os padrões diários de comportamento e funções vitais, como o metabolismo, níveis de hormônio, sono e temperatura corporal
13. Jeffrey C. Hall, de 72 anos, Michael Rosbash, de 73, e Michael W. Young, de 68,
14. o prêmio de Medicina ou Fisiologia
15. os anos 1970
16. genes ligados ao ritmo biológico, como o timeless (TIM) e o period (PER),
17. eles
18. pioneiros em estabelecer conexões diretas entre DNA e comportamento.

O LX-Parser errou na identificação de 3 NPs: os de 16, 3 e 12 palavras, gerando 5 NPs com 2, 12, 1, 1 e 22 palavras, conforme segue:
12. Três geneticistas norte-americanos
13. o Nobel
14. o mecanismo por trás do ciclo circadiano, o relógio biológico que regula em animais e plantas os padrões diários de comportamento e funções vitais, como o metabolismo, níveis de hormônio, sono e temperatura corporal
15. Jeffrey C.
16. Hall, de 72 anos, Michael Rosbash, de 73, e Michael W. Young, de
17. 68,
18. o prêmio de Medicina ou Fisiologia
19. Ao
20. a partir dos anos 1970, genes ligados ao ritmo biológico, como o timeless (TIM) e o period (PER),
21. eles
22. pioneiros em estabelecer conexões diretas entre DNA e comportamento.

Resultado Esperado: 10,157 (desvio entre 3, 2, 34, 16, 6, 3, 12, 1, 9)

Resultado Obtido: 10,45 (desvio entre 3, 2, 34, 2, 12, 1, 6, 1, 22, 1, 9)



Proporção de orações subordinadas pela quantidade de orações do texto (id: 42)


Nome da Métrica: subordinate_clauses

Interpretação: as orações subordinadas são estruturas mais complexas, que demandam mais esforço de processamento. Portanto, quanto maior o resultado dessa métrica, maior a complexidade textual.

Descrição da métrica: proporção de orações subordinadas em relação a todas orações do texto.

Definição dos termos que aparecem na descrição da métrica: orações subordinadas são orações que complementam a oração principal da sentença; elas podem ter funções substantivas (sujeito, objeto, predicativo), adjetivas (explicativa , restritiva) ou adverbiais (causal, temporal, final, etc.).

Limitações da métrica: a precisão da métrica depende do desempenho do parser na atribuição das etiquetas utilizadas no cálculo.

Teste: Ele e amigos, como Giovane Silva Ferreira, 13 anos, passam as tardes pescando o peixe, depois levado para uma associação de artesãos que faz o curtimento da pele do animal.

Contagens: 4 orações (passam, pescando, levado, faz), 1 subordinada reduzida de gerúndio (pescando), 1 subordinada reduzida de particípio (levado), 1 subordinada relativa (que faz).

Resultado Esperado: 0,75

Resultado Obtido: 0,75



Proporção de adjuntos adverbiais de tempo em relação a todos os adjuntos adverbiais do texto (id: 43)


Nome da Métrica: temporal_adjunct_ratio

Interpretação: adjuntos adverbiais são modificadores e sua incidência aumenta a complexidade textual.

Descrição da métrica: Proporção de adjuntos adverbiais de tempo em relação a todos os adjuntos adverbiais do texto

Definição dos termos que aparecem na descrição da métrica: adjuntos adverbiais de tempo são palavras ou expressões que informam quando a ação do verbo aconteceu (ex: ontem, de vez em quando, frequentemente, no dia 18 de novembro, etc.). Para identificá-las, utilizam-se as expressões regulares criadas por Baptista et. Al. (2008).

Limitações da métrica: a precisão da métrica depende do desempenho do tagger nlpnet.

Teste: Foi durante meus experimentos que eu me machuquei. Certamente cometi um erro.

Contagens: 2 adjuntos adverbiais, um dos quais é de tempo (durante meus experimentos)

Resultado Esperado: 1/2 = 0,50

Resultado Obtido: 0,50



Fórmula de Complexidade Sintática de Yngve (id: 45)


Nome da Métrica: yngve

Interpretação: Quanto maior o valor, maior a complexidade do texto

Descrição da métrica: A complexidade de Yngve baseia-se na premissa de que as árvores sintáticas das sentenças da língua inglesa tendem a se ramificar para a direita, e que desvios em relação a esse padrão correspondem a uma maior complexidade na linguagem. Dessa forma, a complexidade de Yngve procura medir o quanto uma árvore sintática se desvia desse padrão de ramificação. Se a forma de calcular a pontuação de cada nó envolver uma pilha, isto é, a partir de uma pilha utilizada em uma derivação de cima para baixo, da esquerda para a direita, o escore de uma palavra é dado pelo número de elementos que ainda permanecem na pilha quando a palavra é finalmente derivada. Alguns trabalhos da literatura, relacionaram o tamanho da pilha necessário para processar uma sentença à sua demanda de memória operacional, apesar de ele medir diretamente apenas o desvio de uma ramificação à direita.

Definição dos termos que aparecem na descrição da métrica:

1. Para cada nó, atribuir peso 0 ao seu filho mais à direita, 1 ao segundo filho mais a direita, e assim por diante até chegar ao filho mais a esquerda. Dessa forma, os filhos serão numerados com peso 0, 1, 2, ... , da direita para a esquerda.

2. Em seguida, calcula-se a pontuação de cada palavra, dada pela soma dos pesos dos não-terminais existentes no caminho entre a raiz e a palavra.

3. Uma vez calculada a pontuação das palavras, a complexidade da sentença é calculada como a média dos valores encontrados.

Limitações da métrica: a métrica depende da precisão do parser e do tokenizador.

Quanto maior o tamanho e a complexidade da sentença, maior a probabilidade de o parser apresentar erros na construção da árvore de dependências.

Teste: Os brasileiros esperam resultados concretos.

Resultado Obtido: 1,667




10. Densidade de Padrões Sintáticos


Média dos tamanhos médios dos sintagmas nominais nas sentenças (id: 60)


Nome da Métrica: mean_noun_phrase

Interpretação: quanto maior o resultado, maior a complexidade textual

Descrição da métrica: Média dos tamanhos médios dos sintagmas nominais nas sentenças

Definição dos termos que aparecem na descrição da métrica: sintagmas nominais são constituintes de uma oração em que o núcleo é um substantivo ou pronome e os demais integrantes, não obrigatórios, são determinantes, adjetivos e outros modificadors nominais. Como há sintagmas nominais constituídos de outros sintagmas nominais, são computados apenas os de alto nível, ou seja, os mais próximos da raiz da árvore sintática.

Limitações da métrica: a precisão da métrica depende do desempenho do LX-Parser na delimitação dos sintagmas nominais.

Teste: Três geneticistas norte-americanos receberam o Nobel por desvendarem o mecanismo por trás do ciclo circadiano, o relógio biológico que regula em animais e plantas os padrões diários de comportamento e funções vitais, como o metabolismo, níveis de hormônio, sono e temperatura corporal. Jeffrey C. Hall, de 72 anos, Michael Rosbash, de 73, e Michael W. Young, de 68, compartilham o prêmio de Medicina ou Fisiologia. Ao isolar, a partir dos anos 1970, genes ligados ao ritmo biológico, como o timeless (TIM) e o period (PER), eles foram pioneiros em estabelecer conexões diretas entre DNA e comportamento.

Contagens: 3 sentenças com 96 palavras e 9 NPs de alto nível:

1. Três geneticistas norte-americanos
2. o Nobel
3. o mecanismo por trás do ciclo circadiano, o relógio biológico que regula em animais e plantas os padrões diários de comportamento e funções vitais, como o metabolismo, níveis de hormônio, sono e temperatura corporal
4. Jeffrey C. Hall, de 72 anos, Michael Rosbash, de 73, e Michael W. Young, de 68,
5. o prêmio de Medicina ou Fisiologia
6. os anos 1970
7. genes ligados ao ritmo biológico, como o timeless (TIM) e o period (PER),
8. eles
9. pioneiros em estabelecer conexões diretas entre DNA e comportamento.

O LX-Parser identificou 4 sentenças com 96 palavras e 11 NPs de alto nível, como segue:
1. Três geneticistas norte-americanos
2. o Nobel
3. o mecanismo por trás do ciclo circadiano, o relógio biológico que regula em animais e plantas os padrões diários de comportamento e funções vitais, como o metabolismo, níveis de hormônio, sono e temperatura corporal
4. Jeffrey C.
5. Hall, de 72 anos, Michael Rosbash, de 73, e Michael W. Young, de
6. 68,
7. o prêmio de Medicina ou Fisiologia
8. Ao
9. a partir dos anos 1970, genes ligados ao ritmo biológico, como o timeless (TIM) e o period (PER),
10. eles
11. pioneiros em estabelecer conexões diretas entre DNA e comportamento.

Resultado Esperado: 10.8 (13 + 11 + 6,25/3)

Resultado Obtido: 7,39 (13 + 2 + 6.33 + 8.25 / 4)



Proporção de verbos no gerúndio em relação a todos os verbos do texto (id: 58)


Nome da Métrica: gerund_verbs

Interpretação: o nível de dificuldade das formas nominais do verbo é menos do que o das formas flexionadas

Descrição da métrica: Proporção de verbos no gerúndio em relação a todos os verbos do texto.

Definição dos termos que aparecem na descrição da métrica: verbos no gerúndio, exemplo: salvando, fazendo, etc.

Limitações da métrica: a precisão da métrica depende do desempenho do parser

Teste: Estamos fazendo uma inspeção preventiva em todos os sistemas de alarme que tenham sido instalados na fábrica há mais de 5 anos, visando detectar mau funcionamento.

Contagens: 8 verbos, 2 no gerúndio (fazendo e visando), mas o parser não reconhece “há” como verbo , então são 7 verbos reconhecidos.

Resultado Esperado: 2/7 = 0,286

Resultado Obtido: 0,286



Máximo entre os tamanhos de sintagmas nominais do texto (id: 59)


Nome da Métrica: max_noun_phrase

Interpretação: quanto maior o resultado, maior a complexidade textual

Descrição da métrica: essa métrica revela o tamanho do maior sintagma nominal do texto, que é, teoricamente, o sintagma nominal mais complexo.

Definição dos termos que aparecem na descrição da métrica: sintagmas nominais são constituintes de uma oração em que o núcleo é um substantivo ou pronome e os demais integrantes, não obrigatórios, são determinantes, adjetivos e outros modificadors nominais. Como há sintagmas nominais constituídos de outros sintagmas nominais, são computados apenas os de alto nível, ou seja, os mais próximos da raiz da árvore sintática.

Limitações da métrica: a precisão da métrica depende do desempenho do LX-Parser.

Teste: Três geneticistas norte-americanos receberam o Nobel por desvendarem o mecanismo por trás do ciclo circadiano, o relógio biológico que regula em animais e plantas os padrões diários de comportamento e funções vitais, como o metabolismo, níveis de hormônio, sono e temperatura corporal. Jeffrey C. Hall, de 72 anos, Michael Rosbash, de 73, e Michael W. Young, de 68, compartilham o prêmio de Medicina ou Fisiologia. Ao isolar, a partir dos anos 1970, genes ligados ao ritmo biológico, como o timeless (TIM) e o period (PER), eles foram pioneiros em estabelecer conexões diretas entre DNA e comportamento.

Contagens: 3 sentenças com 96 palavras e 9 NPs de alto nível. A primeira sentença com 3 NPs (3, 2, 34 palavras). A segunda sentença com 2 NPs (16 e 6 palavras). A terceira com 4 NPs (3, 12, 1, 9 palavras). Tamanhos máximos dos NPs nas sentenças: 34, 16 e 12, respectivamente.

Resultado Esperado: 34

Resultado Obtido: 34



Mínimo entre os tamanhos de sintagmas nominais do texto (id: 61)


Nome da Métrica: min_noun_phrase

Interpretação: quanto maior o resultado, maior a complexidade textual

Descrição da métrica: essa métrica revela o tamanho do menor sintagma nominal do texto, que é, teoricamente, o sintagma nominal mais simples.

Definição dos termos que aparecem na descrição da métrica: sintagmas nominais são constituintes de uma oração em que o núcleo é um substantivo ou pronome e os demais integrantes, não obrigatórios, são determinantes, adjetivos e outros modificadors nominais. Como há sintagmas nominais constituídos de outros sintagmas nominais, são computados apenas os de alto nível, ou seja, os mais próximos da raiz da árvore sintática.

Limitações da métrica: a precisão da métrica depende do desempenho do LX-Parser na identificação dos sintagmas nominais.

Teste: Três geneticistas norte-americanos receberam o Nobel por desvendarem o mecanismo por trás do ciclo circadiano, o relógio biológico que regula em animais e plantas os padrões diários de comportamento e funções vitais, como o metabolismo, níveis de hormônio, sono e temperatura corporal. Jeffrey C. Hall, de 72 anos, Michael Rosbash, de 73, e Michael W. Young, de 68, compartilham o prêmio de Medicina ou Fisiologia. Ao isolar, a partir dos anos 1970, genes ligados ao ritmo biológico, como o timeless (TIM) e o period (PER), eles foram pioneiros em estabelecer conexões diretas entre DNA e comportamento.

Contagens: 3 sentenças com 96 palavras e 9 NPs de alto nível. A primeira sentença com 3 NPs (3, 2, 34 palavras). A segunda sentença com 2 NPs (16 e 6 palavras). A terceira com 4 NPs (3, 12, 1, 9 palavras). Tamanhos mínimos dos NPs nas sentenças: 2, 6 e 1, respectivamente.

Resultado Esperado: 1

Resultado Obtido: 1




11. Informações Morfossintáticas de Palavras


Proporção de Adjetivos em relação à quantidade de palavras do texto (id: 87)


Nome da Métrica: adjective_ratio

Interpretação: adjetivos são modificadores que tornam os sintagmas nominais mais complexos, portanto, quanto maior o valor da métrica, maior a complexidade textual

Descrição da métrica: proporção de adjetivos em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: adjetivos são modificadores nominais.

Limitações da métrica: a precisão depende do desempenho do tagger.

Teste: O acessório polêmico entrou no projeto, de autoria do senador Cícero Lucena (PSDB-PB), graças a uma emenda aprovada na Comissão de Educação do Senado em outubro. Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 6 adjetivos, 95 palavras

Resultado Esperado: 6/95 = 0,063

Resultado Obtido: 0,063



Proporção de Advérbios em relação à quantidade de palavras do texto (id: 91)


Nome da Métrica: adverbs

Interpretação: não está clara a relação da métrica com a complexidade textual

Descrição da métrica: Proporção de advérbios em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: são considerados advérbios as palavras anotadas com as etiquetas ADV, PREP+ADV e PDEN

Limitações da métrica: a precisão da métrica depende do desempenho do nlpnet.

Teste 1: Daqui a alguns anos, certamente seremos menos deslumbrados com as redes sociais. Agora, porém, muitos abusos são cometidos por conta desse deslumbramento.

Contagens: 22 palavras e 4 advérbios (daqui, certamente, menos, agora)

Resultado Esperado: 0,182 (4/22)

Resultado Obtido: 0,182

Teste 2: No caso do Jeca Tatu, o verme que o deixou doente foi outro: o Ancylostoma. A larva desse verme vive no solo e penetra diretamente na pele. Só o contrai quem anda descalço na terra contaminada por fezes humanas. Se não se tratar, a pessoa fica fraca, sem ânimo e com a pele amarelada. Daí a doença ser também conhecida como amarelão.

Contagens: 5 sentenças com um total de 62 palavras (total 62) e 5 a advérbios (diretamente, só, não, daí, também).

Resultado Esperado: 0,081 (5/62)

Resultado Obtido: 0,081

Teste 3: Não podemos acrescentar nenhuma despesa a mais no nosso orçamento. Já não temos recursos suficientes para a manutenção das escolas, por exemplo, e também precisamos valorizar o magistério - justifica a diretora do Departamento Pedagógico da SEC, Sonia Balzano

Contagens: 8 advérbios, 38 palavras

Resultado Esperado: 0,211 (8/38)

Resultado Obtido: 0,211



Proporção de palavras de conteúdo em relação à quantidade de palavras do texto (id: 96)


Nome da Métrica: content_words

Interpretação: quanto maior o resultado da métrica, maior a densidade de conteúdo e maior a complexidade textual

Descrição da métrica: proporção de palavras de conteúdo em relação ao total de palavras do texto

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras de conteúdo as palavras de 5 classes de etiquetas do tagger nlpnet: substantivos (tags N, NPROP), verbos (tags V, VAUX, PCP), adjetivos (tag ADJ), advérbios (tag ADV) e palavras denotativas (tag PDEN).

Limitações da métrica: a precisão da métrica depende do desempenho do tagger.

Teste: Não podemos acrescentar nenhuma despesa a mais no nosso orçamento. Já não temos recursos suficientes para a manutenção das escolas, por exemplo, e também precisamos valorizar o magistério - justifica a diretora do Departamento Pedagógico da SEC, Sonia Balzano.

Contagens: 38 palavras, 27 palavras de conteúdo

Resultado Esperado: 27/38 = 0,711

Resultado Obtido: 0,711



Proporção de Palavras Funcionais em relação à quantidade de palavras do texto (id: 99)


Nome da Métrica: function_words

Interpretação: palavras funcionais constituem classes fechadas e, portanto, um léxico conhecido, o que diminui a complexidade textual

Descrição da métrica: porcentagem de palavras funcionais em relação ao total de palavras do texto

Definição dos termos que aparecem na descrição da métrica: são consideradas palavras funcionais as palavras de 6 classes gramaticais: artigos (tag: ‘ART’), conjunções (tags ‘KS’ e ‘KC’), interjeições (tag: ‘IN’), numerais (tag: ‘NUM’), pronomes (tags: 'PROPESS',

'PROSUB', 'PROADJ', 'PRO-KS', 'PRO-KS-REL'), preposições (tags: 'PREP', 'PREP+PROPESS', 'PREP+ART', 'PREP+PRO-KS', 'PREP+PRO-KS-REL', 'PREP+PROADJ', 'PREP+ADV', 'PREP+PROSUB'). Incluem-se nas palavras funcionais os advérbios com função coordenativa e subordinativa (tags: 'ADV-KS', 'ADV-KS-REL). ',

Limitações da métrica: a precisão da métrica depende do desempenho do tagger.

Teste: Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 69 palavras, 27 palavras funcionais

Resultado Esperado: 0,391

Resultado Obtido: 0,391



Proporção de substantivos em relação à quantidade de palavras do texto (id: 106)


Nome da Métrica: noun_ratio

Interpretação: quanto maior a proporção, menor a complexidade textual, pois indica que os sintagmas nominais são mais simples, ou seja, não contêm muitos modificadores

Descrição da métrica: proporção de substantivos em relação ao total de palavras do texto.

Definição dos termos que aparecem na descrição da métrica:

Limitações da métrica: a precisão da métrica depende do desempenho do tagger

Teste: Acessório utilizado por adolescentes, o boné é um dos itens que compõem a vestimenta idealizada pela proposta.

Contagens: 17 palavras, 5 substantivos

Resultado Esperado: 6/17 = 0,352

Resultado Obtido: 0,352



Proporção de pronomes em relação à quantidade de palavras do texto (id: 114)


Nome da Métrica: pronoun_ratio

Interpretação: pronomes exigem um esforço para descobrir seu referente e, portanto, quanto maior o resultado da métrica, maior a complexidade textual

Descrição da métrica: proporção de pronomes em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica:

'PROSUB', 'PROADJ', 'PRO-KS', 'PRO-KS-REL',) e divide-se pelo total de palavras do texto

Limitações da métrica: a precisão depende do desempenho do tagger.

Teste: Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 2 pronomes, 69 palavras

Resultado Esperado: 2/69 = 0,029

Resultado Obtido: 0,029



Proporção de Verbos em relação à quantidade de palavras do texto (id: 125)


Nome da Métrica: verbs

Interpretação: verbos (e não verbos auxiliares) são palavras de conteúdo que constituem orações, portanto, quanto maior o resultado da métrica, maior a complexidade.

Descrição da métrica: Proporção de verbos em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: são considerados verbos apenas os verbos plenos e não os auxiliares (funcionais).

Limitações da métrica: a precisão depende do desempenho do tagger.

Teste: Acessório utilizado por adolescentes, o boné é um dos itens que compõem a vestimenta idealizada pela proposta

Contagens: 4 verbos, 17 palavras

Resultado Esperado: 0,235

Resultado Obtido: 0,235



Proporção de Pronomes Pessoais em relação à quantidade de palavras do texto (id: 111)


Nome da Métrica: personal_pronouns

Interpretação: pronomes exigem o esforço do leitor para descobrir a que nome eles estão se referindo.
Descrição da métrica: Proporção de pronomes pessoais em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: são considerados pronomes pessoais: eu, tu, ele, ela, você, nós, vós, eles, elas, vocês.

Teste: Eles lotearam carros e a padaria teve um atraso de apenas meia hora na venda dos 2 mil pães.

Contagens: 19 palavras, 1 pronome pessoal (eles)

Resultado Esperado: 0,53

Resultado Obtido: 0,53



Proporção máxima de adjetivos em relação à quantidade de palavras das sentenças (id: 88)


Nome da Métrica: adjectives_max

Interpretação: a métrica permite conhecer a sentença que contém o maior número de adjetivos no texto. Se esse número for baixo, já é um indício de que o texto é pouco complexo sob esse critério.

Descrição da métrica: Proporção máxima de adjetivos em relação à quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são considerados adjetivos as palavras anotadas com as etiquetas ADJ pelo POS tagger nlpnet.

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 3 sentenças de 30, 21 e 18 palavras, e um total de 5, 1 e 1 adjetivos, respectivamente. O nlpnet não reconheceu “Fundamental” e “Médio” como adjetivos, porque estão grafados com inicial maiúscula, por isso a primeira sentença ficou com 3 adjetivos. Proporções: 3/30 = 0,1, 1/21 = 0,048, 1/18 = 0,056.

Resultado Esperado: 0,1

Resultado Obtido: 0,1



Proporção mínima de adjetivos em relação à quantidade de palavras das sentenças (id: 89)


Nome da Métrica: adjectives_min

Interpretação: a métrica permite conhecer a sentença que contém o menor número de adjetivos no texto. Se esse número for alto, já é um indício de que o texto é complexo sob esse critério.

Descrição da métrica: Proporção mínima de adjetivos em relação à quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são considerados adjetivos as palavras anotadas com as etiquetas ADJ pelo POS tagger nlpnet.

Limitações da métrica: depende do bom desempenho do tagger.

Teste: Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 3 sentenças de 30, 21 e 18 palavras, e um total de 5, 1 e 1 adjetivos, respectivamente. O nlpnet não reconheceu “Fundamental” e “Médio” como adjetivos, porque estão grafados com inicial maiúscula, por isso a primeira sentença ficou com 3 adjetivos. Proporções: 3/30 = 0,1, 1/21 = 0,048, 1/18 = 0,056.

Resultado Esperado: 1/21 = 0,048

Resultado Obtido: 0,048



Desvio padrão das proporções entre adjetivos e a quantidade de palavras das sentenças (id: 90)


Nome da Métrica: adjectives_standard_deviation

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Desvio padrão das proporções entre adjetivos e a quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são considerados adjetivos as palavras anotadas com as etiquetas ADJ pelo POS tagger nlpnet. Desvio-padrão é o quanto as medidas variam em relação à média.

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 3 sentenças de 30, 21 e 18 palavras, e um total de 5, 1 e 1 adjetivos, respectivamente. O nlpnet não reconheceu “Fundamental” e “Médio” como adjetivos, porque estão grafados com inicial maiúscula, por isso a primeira sentença ficou com 3 adjetivos. Proporções: 3/30 = 0,1, 1/21 = 0,048, 1/18 = 0,056.

Resultado Esperado: 0,023

Resultado Obtido: 0,023



Proporção de types de advérbios em relação à quantidade de tokens de advérbios no texto (id: 92)


Nome da Métrica: adverbs_diversity_ratio

Interpretação: não está clara a relação da métrica com a complexidade textual, mas supõe-se que, quanto maior métrica, maior a complexidade.

Descrição da métrica: Proporção de types de advérbios em relação à quantidade de tokens de advérbios no texto

Definição dos termos que aparecem na descrição da métrica: são considerados advérbios as palavras anotadas com as etiquetas ADV e PREP+ADV ou PDEN pelo POS tagger nlpnet

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: Os direitos existem para que cada um de nós tenha uma vida digna e decente, ainda que nem sempre eles sejam respeitados. Como cidadão, todo ser humano já nasce com uma série de direitos: direito à vida, ao trabalho, à liberdade. Também as crianças têm direitos só para elas, assim como os consumidores, e até mesmo os animais. Ser cidadão também é bater o pé para que os direitos não sejam só leis no papel.

Contagens: 10 advérbios (nem, sempre, já, também, só, até, mesmo, também, não, só) 8 sem repetições

Resultado Esperado: 8/10 = 0,80

Resultado Obtido: 0,80



Proporção máxima de advérbios em relação à quantidade de palavras das sentenças (id: 93)


Nome da Métrica: adverbs_max

Interpretação: não está clara a relação da métrica com a complexidade textual

Descrição da métrica: Proporção máxima de advérbios em relação à quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são considerados advérbios as palavras anotadas com as etiquetas ADV e PDEN pelo POS tagger nlpnet. Há também a etiqueta de contrações de preposições com advérbios: PREP+ADV.

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: No caso do Jeca Tatu, o verme que o deixou doente foi outro: o Ancylostoma. A larva desse verme vive no solo e penetra diretamente na pele. Só o contrai quem anda descalço na terra contaminada por fezes humanas. Se não se tratar, a pessoa fica fraca, sem ânimo e com a pele amarelada. Daí a doença ser também conhecida como amarelão.

Contagens: 5 sentenças de 15, 12, 12, 15 e 8 palavras, com 0, 1, 0, 1 e 0 advérbios (o nlpnet não reconheceu “só” como advérbio). Proporções: 0/15 = 0; 1/12 = 0,083; 0/12 = 0; 1/15 = 0,067; 0/8 = 0

Resultado Esperado: 0,083

Resultado Obtido: 0,083



Proporção mínima de advérbios em relação à quantidade de palavras das sentenças (id: 94)


Nome da Métrica: adverbs_min

Interpretação: não está clara a relação da métrica com a complexidade textual

Descrição da métrica: Proporção mínima de advérbios em relação à quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são considerados advérbios as palavras anotadas com as etiquetas ADV e PDEN pelo POS tagger nlpnet. Há também a etiqueta de contrações de preposições com advérbios: PREP+ADV.

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: No caso do Jeca Tatu, o verme que o deixou doente foi outro: o Ancylostoma. A larva desse verme vive no solo e penetra diretamente na pele. Só o contrai quem anda descalço na terra contaminada por fezes humanas. Se não se tratar, a pessoa fica fraca, sem ânimo e com a pele amarelada. Daí a doença ser também conhecida como amarelão.

Contagens: 5 sentenças de 15, 12, 12, 15 e 8 palavras, com 0, 1, 0, 1 e 0 advérbios (o nlpnet não reconheceu “só” como advérbio). Proporções: 0/15 = 0; 1/12 = 0,083; 0/12 = 0; 1/15 = 0,067; 0/8 = 0

Resultado Esperado: 0

Resultado Obtido: 0



Desvio padrão das proporções entre advérbios e a quantidade de palavras das sentenças (id: 95)


Nome da Métrica: adverbs_standard_deviation

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Desvio padrão das proporções entre advérbios e a quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são considerados advérbios as palavras anotadas com as etiquetas ADV e PDEN pelo POS tagger nlpnet. Há também a etiqueta de contrações de preposições com advérbios: PREP+ADV.

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: No caso do Jeca Tatu, o verme que o deixou doente foi outro: o Ancylostoma. A larva desse verme vive no solo e penetra diretamente na pele. Só o contrai quem anda descalço na terra contaminada por fezes humanas. Se não se tratar, a pessoa fica fraca, sem ânimo e com a pele amarelada. Daí a doença ser também conhecida como amarelão.

Contagens: 5 sentenças de 15, 12, 12, 15 e 8 palavras, com 0, 1, 0, 1 e 0 advérbios (o nlpnet não reconheceu “só” como advérbio). Proporções: 0/15 = 0; 1/12 = 0,083; 0/12 = 0; 1/15 = 0,067; 0/8 = 0

Resultado Esperado: 0,037

Resultado Obtido: 0,037



Proporção de pronomes indefinidos em relação a todos os pronomes do texto (id: 100)


Nome da Métrica: indefinite_pronoun_ratio

pronomes indefinidos tornam o texto mais complexo pelo fato de não representarem algo identificável no mundo extra-linguístico. Interpretação: é provável que pronomes indefinidos contribuam para maior complexidade textual

Descrição da métrica: Proporção de pronomes indefinidos em relação a todos os pronomes do texto

Definição dos termos que aparecem na descrição da métrica: pronomes indefinidos são pronomes genéricos (nada, ninguém, alguém, nenhum, algum, qualquer, etc.).

Limitações da métrica: a precisão da métrica depende do desempenho do tagger.

Teste: Minha primeira tentativa fracassou, mas agora eu atingi meu objetivo e obtive tudo o que eu queria. Ninguém, além de você, me ajudou. Sua colaboração foi muito importante para mim.

Contagens: 12 pronomes (minha, eu, meu, tudo, o, que, eu, ninguém, você, me, sua, mim), 2 pronomes indefinidos (tudo, ninguém)

Resultado Esperado: 2/12 = 0,167

Resultado Obtido: 0,167



Proporção de Verbos no Futuro do Pretérito do Indicativo em relação à quantidade de verbos flexionados do texto (id: 101)


Nome da Métrica: indicative_condition_ratio

Interpretação: o futuro do pretérito do indicativo não está entre os tempos verbais mais frequentes e pode estar associado a complexidade mediana. Portanto, quanto maior a métrica, maior a complexidade.

Descrição da métrica: proporção de verbos no futuro do pretérito do indicativo em relação ao total de verbos flexionados do texto

Definição dos termos que aparecem na descrição da métrica: o futuro do pretérito do indicativo chama-se “condicional” na gramática do português europeu e corresponde ao “conditional” do inglês. O verbo "ser", por exemplo, tem as seguintes formas nesse tempo verbal: seria, serias, seria, seríamos, seríeis, seriam.

Limitações da métrica: a precisão da métrica depende do desempenho do parser Palavras

Teste: Com a oferta do uniforme, as escolas públicas poderão torná-lo obrigatório, o que eliminaria a roupa como um indicador de diferenças sociais nas escolas e não criaria constrangimento aos alunos mais pobres.

Contagens: 3 verbos flexionados (poderão, eliminaria, criaria), dois dos quais no futuro do pretérito do indicativo (eliminaria e criaria)

Resultado Esperado: 0,666 (2/3)

Resultado Obtido: 0,666



Proporção de Verbos no Futuro do Presente do Indicativo em relação à quantidade de verbos flexionados do texto (id: 102)


Nome da Métrica: indicative_future_ratio

Interpretação: o futuro do indicativo não está entre os tempos verbais mais frequentes e pode estar associado a complexidade mediana. Portanto, quanto maior a métrica, maior a complexidade.

Descrição da métrica: proporção de verbos no futuro do indicativo em relação ao total de verbos flexionados do texto

Definição dos termos que aparecem na descrição da métrica: o futuro é um dos tempos do modo indicativo e é pouco frequente porque o futuro costuma ser expresso pelo auxiliar "ir" seguido de infinitivo (ex: Ele vai fazer isso). O verbo "ser", por exemplo, tem as seguintes formas nesse tempo verbal: serei, serás, será, seremos, sereis, serão.

Limitações da métrica: a precisão da métrica depende do desempenho do parser Palavras

Teste: Pescadores tentarão retirar o maior número de peixes da espécie, que pode atingir 20 centímetros de comprimento e um quilo.

Contagens: 2 verbos flexionados (tentarão, pode), 1 no futuro do indicativo (tentarão)

Resultado Esperado: 0,50 (1/2)

Resultado Obtido: 0,50



Proporção de verbos no infinitivo em relação a todos os verbos do texto (id: 103)


Nome da Métrica: infinitive_verbs

Interpretação: o nível de dificuldade das formas nominais do verbo é menos do que o das formas flexionadas

Descrição da métrica: Proporção de verbos no infinitivo em relação a todos os verbos do texto.

Definição dos termos que aparecem na descrição da métrica: verbos no infinitivo são aqueles não flexionados, teminados em –ar, -er, -ir e –or: falar, ler, sorrir, compor.

Limitações da métrica: o parser classifica todas as palavras desconhecidas ou ambíguas como verbos, desde que tenham terminação igual à dos verbos. Assim, palavras como “placar” e “[o] jantar” (refeição), são anotadas como verbos infinitivos.

Teste: É importante atentar para os testes que têm sido feitos após a retirada do país da Comunidade Europeia.

Contagens: 5 verbos (é, atentar, têm, sido, feitos), 1 no infinitivo (atentar)

Resultado Esperado: 1/5 = 0,20

Resultado Obtido: 0,20



Proporção de verbos flexionados em relação a todos os verbos do texto (id: 104)


Nome da Métrica: inflected_verbs

Interpretação: não é direta a relação entre verbos flexionados e complexidade

Descrição da métrica: Proporção de verbos flexionados em relação a todos os verbos do texto

Definição dos termos que aparecem na descrição da métrica: verbos flexionados são aqueles que sofreram flexão para adequarem-se à pessoa, ao número, ao modo e ao tempo verbais.

Limitações da métrica: a precisão da métrica depende do desempenho do parser.

Teste: É importante observar os testes que têm sido feitos após a retirada do país da Comunidade Europeia.

Contagens: 5 verbos, 2 flexionados (é, têm) e 3 não flexionados (observar, sido, feitos)

Resultado esperado: 2/5 = 0,40

Resultado Obtido: 0,40



Proporção de verbos no gerúndio, particípio ou infinitivo em relação a todos os verbos do texto (id: 105)


Nome da Métrica: non-inflected_verbs

Interpretação: não é direta a relação entre verbos não flexionados e complexidade textual

Descrição da métrica: Proporção de verbos não flexionados em relação a todos os verbos do texto

Definição dos termos que aparecem na descrição da métrica: verbos não flexionados são aqueles que estão na forma nominal (infinitivo, gerúndio e particípio) e podem tanto constituir orações subordinadas reduzidas quanto sintagmas verbais com cadeias de verbos auxiliares (nessas cadeias, apenas o primeiro verbo é flexionado).

Limitações da métrica: o parser Palavras não distingue a função do particípio, considerando-o sempre verbo (embora possa ser adjetivo ou substantivo também), o que pode superestimar o valor dessa métrica.

Teste: É importante observar os testes que têm sido feitos após a retirada do país da Comunidade Europeia.

Contagens: 5 verbos, 2 flexionados (é, têm) e 3 não flexionados (observar, sido, feitos)

Resultado esperado: 3/5 = 0,6

Resultado Obtido: 0,60



Proporção máxima de substantivos em relação à quantidade de palavras das sentenças (id: 107)


Nome da Métrica: nouns_max

Interpretação: não está clara a relação da métrica com a complexidade textual

Descrição da métrica: Proporção máxima de substantivos em relação à quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são consideradas substantivos as palavras anotadas com as etiquetas N e NPROP pelo POS tagger nlpnet.

Limitações da métrica:

Teste: Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 3 sentenças de 30, 21 e 18 palavras, e um total de 12, 8 e 7 substantivos respectivamente. O nlpnet reconheceu os adjetivos “Fundamental” e “Médio” como nomes próprios, por estarem grafados com inicial maiúscula, por isso a primeira sentença ficou com 13 substantivos. Proporções: 13/30 = 0,433; 8/21 = 0,381; 7/18 = 0,388

Resultado Esperado: 0,381

Resultado Obtido: 0,381



Proporção mínima de substantivos em relação à quantidade de palavras das sentenças (id: 108)


Nome da Métrica: nouns_min

Interpretação: substantivos são referentes que precisam ser retidos na memória ao longo do texto, portanto, quanto maior a proporção, maior a complexidade

Descrição da métrica: Proporção mínima de substantivos em relação à quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são consideradas substantivos as palavras anotadas com as etiquetas N e NPROP pelo POS tagger nlpnet.

Limitações da métrica: a precisão da métrica depende do desempenho do parser.

Teste: Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 3 sentenças de 30, 21 e 18 palavras, e um total de 11, 8 e 7 substantivos respectivamente. O nlpnet reconheceu os adjetivos “Fundamental” e “Médio” como nomes próprios, por estarem grafados com inicial maiúscula, por isso a primeira sentença ficou com 13 substantivos. Proporções: 13/30 = 0,433; 8/21 = 0,381; 7/18 = 0,388

Resultado Esperado: 0,023

Resultado Obtido: 0,023



Desvio padrão das proporções entre substantivos e a quantidade de palavras das sentenças (id: 109)


Nome da Métrica: nouns_standard_deviation

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Desvio padrão das proporções entre substantivos e a quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são consideradas substantivos as palavras anotadas com as etiquetas N e NPROP pelo POS tagger nlpnet. Desvio-padrão é o quanto as medidas variam em relação à média.

Limitações da métrica: a precisão da métrica depende do desempenho do parser.

Teste: Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 3 sentenças de 30, 21 e 18 palavras, e um total de 13, 8 e 7 substantivos respectivamente. O nlpnet reconheceu os adjetivos “Fundamental” e “Médio” como nomes próprios, por estarem grafados com inicial maiúscula. Proporções; 13/30 = 0,433, 8/21 = 0,381, 7/18 = 0,388.

Resultado Esperado: 0,023

Resultado Obtido: 0,023



Proporção de pronomes oblíquos em relação a todos os pronomes do texto (id: 110)


Nome da Métrica: oblique_pronouns_ratio

Interpretação: pronomes oblíquos estão associados a uma maior complexidade textual

Descrição da métrica: Proporção de pronomes oblíquos em relação a todos os pronomes do texto

Definição dos termos que aparecem na descrição da métrica: pronomes oblíquos são aqueles usados prioritariamente como objetos diretos ou indiretos (o, a, os, as, lo, la, los, las, no, na, nos, nas, lhe, lhes, me, mim, te, ti, se, si, ele, ela, eles, elas, nós, vós, conosco, convosco, comigo, contigo, consigo). Os pronomes oblíquos precedidos da preposição “com”, contraídos (comigo, contigo, etc.) ou não contraídos (com ele, com eles, etc.) podem ser também adjuntos adverbiais de companhia (ex: viajar conosco, viajar com eles). Os pronomes oblíquos precedidos de preposição podem ser complemento nominal (ex: saudade de mim). A ambiguidade funcional das formas: ele, ela, eles, elas, nós e vós é resolvida pela etiqueta PROPESS, pois os pronomes pessoais do caso reto têm etiqueta específica (PROSUB). A ambiguidade funcional das formas o, a, os, as também é tratada (elas podem ser artigos – ART e, no caso de “a”, até preposição – PREP). O “se” (que pode ser conjunção – KC ou KS) também é desambiguizado, porém as funções do “se” pronome (índice de apassivação, de indeterminação do sujeito, recíproco, reflexivo) não são discriminadas.

Limitações da métrica: A etiqueta “PROPESS” não captura as formas contraídas dos pronomes oblíquos, mesmo que essas formas estejam no léxico da métrica. As formas contraídas dos pronomes oblíquos são: dele, dela, deles, delas, nele, nela, neles, nelas, comigo, contigo, consigo, conosco, convosco. Para capturar as formas contraídas seria necessário usar o léxico e a etiqueta PREP+PROPESS.

Teste: Ele não queria os créditos só para si: queria nos reconhecer como colaboradores valiosos. Nós ficamos motivados com a atitude que ele teve conosco. Ao que tudo indica, ele se preocupa conosco.

Contagens: 10 pronomes (ele, si, nos, nós, ele, conosco, tudo, ele, se, conosco), 1 do caso oblíquo (nos), sem considerar o “conosco”, que tagger não reconhece.

Resultado Esperado: 1/10 = 0,10

Resultado Obtido: 0,10



Proporção de preposições em relação à quantidade de orações no texto (id: 112)


Nome da Métrica: prepositions_per_clause

Interpretação: preposições introduzem argumentos verbais e adjuntos modificadores, tendendo a aumentar a complexidade textual.

Descrição da métrica: Média de preposições por sentença:

Definição dos termos que aparecem na descrição da métrica: preposições são palavras que pertencem a uma classe gramatical fechada (finita). São classificadas como palavras funcionais, ou seja, têm uma função na sintaxe, mas não têm significado isoladamente.

Limitações da métrica: a precisão da métrica depende do desempenho do tagger.

Teste: Nem é preciso argumentar contra a ineficiência do sistema prisional brasileiro. Ele foi reprovado por todas as pessoas para as quais foi solicitada uma avaliação. Nele não se pode confiar e dele não se pode esperar nada além do estímulo à violência.

Contagens: 8 preposições, 6 orações

Resultado Esperado: 1,33

Resultado Obtido: 1,33



Quantidade Média de preposições por sentença no texto (id: 113)


Nome da Métrica: prepositions_per_sentence

Interpretação: preposições introduzem argumentos verbais e adjuntos modificadores, tendendo a aumentar a complexidade textual

Descrição da métrica: Média de preposições por sentença:

Definição dos termos que aparecem na descrição da métrica: preposições são palavras que pertencem a uma classe gramatical fechada (finita). São classificadas como palavras funcionais, ou seja, têm uma função na sintaxe, mas não têm conteúdo isoladamente.

Limitações da métrica: a precisão da métrica depende do desempenho do tagger.

Teste: Nem é preciso argumentar contra a ineficiência do sistema prisional brasileiro. Ele foi reprovado por todas as pessoas para as quais foi solicitada uma avaliação. Nele não se pode confiar e dele não se pode esperar nada além do estímulo à violência.

Contagens: 8 preposições, 3 sentenças

Resultado Esperado: 2,66

Resultado Obtido: 2,66



Proporção máxima de pronomes em relação à quantidade de palavras das sentenças (id: 115)


Nome da Métrica: pronouns_max

Interpretação: pronomes exigem o esforço do leitor para descobrir a que nome eles estão se referindo.

Descrição da métrica: Proporção máxima de pronomes em relação à quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são considerados pronomes as palavras anotadas com as etiquetas PROPESS, PROSUB, PROADJ, PRO-KS, PRO-KS-REL pelo POS tagger nlpnet. Há também as etiquetas de contrações de preposições com pronomes: PREP+PROPESS,PREP+PRO-KS, PREP+PRO-KS-REL,PREP+PROADJ, PREP+PROSUB.

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: No caso do Jeca Tatu, o verme que o deixou doente foi outro: o Ancylostoma. A larva desse verme vive no solo e penetra diretamente na pele. Só o contrai quem anda descalço na terra contaminada por fezes humanas. Se não se tratar, a pessoa fica fraca, sem ânimo e com a pele amarelada. Daí a doença ser também conhecida como amarelão.

Contagens: 5 sentenças de 15, 12, 12, 15 e 8 palavras, e um total de 3, 0, 2, 1 e 0 pronomes, respectivamente. Proporções: 3/15 = 0,2; 0/12 = 0; 2/12 = 0,167; 1/15 = 0,067; 0/15 = 0

Resultado Esperado: 0,2

Resultado Obtido: 0,2



Proporção mínima de pronomes em relação à quantidade de palavras das sentenças (id: 116)


Nome da Métrica: pronouns_min

Interpretação: não está clara a relação da métrica com a complexidade textual

Descrição da métrica: Proporção mínima de pronomes em relação à quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são considerados pronomes as palavras anotadas com as etiquetas PROPESS, PROSUB, PROADJ, PRO-KS, PRO-KS-REL pelo POS tagger nlpnet. Há também as etiquetas de contrações de preposições com pronomes: PREP+PROPESS,PREP+PRO-KS, PREP+PRO-KS-REL,PREP+PROADJ, PREP+PROSUB.

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: No caso do Jeca Tatu, o verme que o deixou doente foi outro: o Ancylostoma. A larva desse verme vive no solo e penetra diretamente na pele. Só o contrai quem anda descalço na terra contaminada por fezes humanas. Se não se tratar, a pessoa fica fraca, sem ânimo e com a pele amarelada. Daí a doença ser também conhecida como amarelão.

Contagens: 5 sentenças de 15, 12, 12, 15 e 8 palavras, e um total de 3, 0, 2, 1 e 0 pronomes, respectivamente. Proporções: 3/15 = 0,2; 0/12 = 0; 2/12 = 0,167; 1/15 = 0,067; 0/15 = 0

Resultado Esperado: 0

Resultado Obtido: 0



Desvio padrão das proporções entre pronomes e a quantidade de palavras das sentenças (id: 117)


Nome da Métrica: pronouns_standard_deviation

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Desvio padrão das proporções entre pronomes e a quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são considerados pronomes as palavras anotadas com as etiquetas PROPESS, PROSUB, PROADJ, PRO-KS, PRO-KS-REL pelo POS tagger nlpnet. Há também as etiquetas de contrações de preposições com pronomes: PREP+PROPESS,PREP+PRO-KS, PREP+PRO-KS-REL,PREP+PROADJ, PREP+PROSUB.

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: No caso do Jeca Tatu, o verme que o deixou doente foi outro: o Ancylostoma. A larva desse verme vive no solo e penetra diretamente na pele. Só o contrai quem anda descalço na terra contaminada por fezes humanas. Se não se tratar, a pessoa fica fraca, sem ânimo e com a pele amarelada. Daí a doença ser também conhecida como amarelão.

Contagens: 5 sentenças de 15, 12, 12, 15 e 8 palavras, e um total de 3, 0, 2, 1 e 0 pronomes, respectivamente. Proporções: 3/15 = 0,2; 0/12 = 0; 2/12 = 0,167; 1/15 = 0,067; 0/15 = 0

Resultado Esperado: 0,083

Resultado Obtido: 0,083



Proporção de sinais de pontuação em relação à quantidade de palavras do texto. (id: 118)


Nome da Métrica: punctuation_ratio

Interpretação: sinais de pontuação ajudam a organizar o texto, diminuindo sua complexidade, portanto, quanto maior a proporção, menor a complexidade. n

Descrição da métrica: proporção de sinais de pontuação em relação à quantidade de palavras.

Definição dos termos que aparecem na descrição da métrica: por sinais de pontuação, entende-se: ponto final; vírgula, dois pontos, ponto-e-vírgula, ponto de exclamação, ponto de interrogação, parênteses, reticências, travessão (. , : ; ! ? () ... _ )

Limitações da métrica: não há

Teste:

Trata-se de uma mudança radical: ao longo das três últimas décadas, no mínimo, o papel de arquivilão era atribuído à gordura saturada. No momento em que Yudkin fazia sua pesquisa, nos anos 60, uma nova ortodoxia nutricional se afirmava: a alimentação saudável deveria ser pobre em gordura. Yudkin liderava um grupo cada vez menor de dissidentes que creditava ao açúcar – e não à gordura – a causa mais provável de males como obesidade, doença cardíaca e diabetes.

Contagens: 12 sinais de pontuação e 83 palavras (contando as 7 descontrações)

Resultado Esperado: 12/83 = 0,14

Resultado obtido: 0,14



Proporção de palavras funcionais em relação à quantidade de palavras de conteúdo do texto (id: 119)


Nome da Métrica: ratio_function_to_content_words

Interpretação: Palavras que ocorrem com alta frequência são mais familiares ao leitor e são processadas mais rapidamente e ligadas ao corpo de conhecimento de mundo.

Descrição da métrica: Proporção média de palavras funcionais em relação à quantidade de palavras de conteúdo das sentenças. Esta métrica é o inverso da métrica densidade de conteúdo. Palavras funcionais são altamente frequentes em um texto.

Definição dos termos que aparecem na descrição da métrica: Palavras de conteúdo são palavras de classe aberta (substantivos, adjetivos, verbos e advérbios). Palavras funcionais são palavras das classes fechadas (numerais, artigos, pronomes, interjeições, preposições, conjunções).

Forma de cálculo da métrica: somam-se as ocorrências de palavras funcionais de cada sentença e divide-se o resultado pela quantidade de palavras de conteúdo da respectiva sentença. Depois somam-se as proporções de todas as sentenças e divide-se pela quantidade de sentenças.

Recursos de PLN utilizados durante o cálculo: POS tagger nlpnet

Limitações da métrica: a rigor, somente os advérbios terminados em –mente são palavras de conteúdo. Mas como as etiquetas não fazem essa diferença, estão sendo computados todos os advérbios. O resultado da métrica é dependente da forma de tokenização adotada (com ou sem descontração, com ou sem junção de partes de nomes próprios e multipalavras).

Teste: Atenção! Nós não podemos acrescentar nenhuma despesa a mais no nosso orçamento. Já não temos recursos suficientes para a manutenção das quatro escolas, por exemplo, e também precisamos valorizar o magistério - justifica a diretora do Departamento Pedagógico da SEC, Sonia Balzano.

Contagens:
28 Palavras de conteúdo: [(Atenção, N), (não, ADV), (podemos, V), (acrescentar, V), (despesa, N), (a, ADV), (mais, ADV), (orçamento, N), (Já, ADV), (não, ADV), (temos, V), (recursos, N), (suficientes, ADJ), (manutenção, N), (escolas, N), (por, PDEN), (exemplo, PDEN), (também, PDEN), (precisamos, V), (valorizar, V), (magistério, N), (justifica, V), (diretora, N), (Departamento, N), (Pedagógico, ADJ), (SEC, NPROP), (Sonia, NPROP), (Balzano, NPROP)]
13 Palavras funcionais: [(Nós, PROPESS), (nenhuma, PROADJ), (no, PREP+ART), (nosso, PROADJ), (para, PREP), (a, ART), (das,PREP+ART), (quatro, NUM), (e, KC), (o, ART), (a, ART), (do, PREP+ART), (da, PREP+ART)]
Resultado Esperado: 13/28 = 0.46429
Resultado Obtido: 0.46429



Proporção de Pronomes Relativos em relação à quantidade de pronomes do texto (id: 120)


Nome da Métrica: relative_pronouns_ratio

Interpretação: pronomes relativos introduzem orações subordinadas adjetivas, substantivas e adverbiais, que expandem o conteúdo de um sintagma nominal e aumentam a complexidade textual

Descrição da métrica: Proporção de Pronomes Relativos em relação à quantidade de pronomes do texto

Definição dos termos que aparecem na descrição da métrica: pronomes relativos retomam e qualificam um nome que os antecedem. Suas formas são: que, o que, o qual, os quais, a qual, as quais, cujo, cujos, cuja, cujas, quem, quando, onde, como, quanto, quantos, quanta, quantas. Muitos deles são ambíguos funcionalmente (podem atuar como outro tipo de pronome), por isso a etiqueta é importante para capturar apenas aqueles com função relativa.

Limitações da métrica: a precisão da métrica depende do desempenho do parser

embora a classe de pronomes seja imediatamente superior à de pronomes relativos, a métrica poderia ser um índice melhor se fosse calculada por sintagma nominal.

O POS tagger usado não reconhece multipalavras, como “o=que”, por exemplo. Isso faz com que a métrica possa ser superestimada em alguns casos, mas não é um problema grave.

Teste: Regressando de São Paulo, visitei o sítio de minha tia, o qual me deixou encantado. Era exatamente o que eu esperava, apesar de nunca ter imaginado que eu estaria ali.

Contagens: 7 pronomes (minha, o qual, me, o que, eu, que, eu), 9 contados pelo POS tagger nlpnet, dos quais 2 são pronomes relativos (o qual, o que)

Resultado Esperado: 2/7 = 0,285 ou 2/9 (o sistema identifica dois pronomes em “o que” e em “o qual”

Resultado Obtido: 0,222



Proporção de pronomes possessivos nas segundas pessoas em relação à quantidade de pronomes possessivos do texto (id: 121)


Nome da Métrica: second_person_possessive_pronouns

Interpretação: as segundas pessoas são pouco utilizadas no português brasileiro, já que as formas de segunda pessoa "você" e "vocês" flexionam o verbo na terceira pessoa e usam os pronomes possessivos de terceira pessoa também.

Descrição da métrica: proporção de pronomes possessivos de segunda pessoa em relação à quantidade total de pronomes possessivos no texto

Definição dos termos que aparecem na descrição da métrica: pronomes possessivos indicam posse. Os das segundas pessoas são: teu, teus, tua, tuas, vosso, vossos, vossa, vossas.

Limitações da métrica: no português brasileiro as formas de segunda pessoa foram suplantadas pelo uso de “você” e “vocês”, que usam a flexão e os pronomes possessivos de terceira pessoas. Portanto, não é possível distinguir os possessivos que se referem a “você” e “vocês” dos possessivos que se referem a “ele, ela, eles, elas”.

Teste: Minha primeira tentativa fracassou, mas agora eu atingi meu objetivo. Teu apoio foi muito importante para mim. Obrigada por tua dedicação, prova do quanto é forte nossa amizade.

Contagens: 2 pronomes possessivos na segunda pessoa (teu, tua) e 3 pronomes possessivos na primeira pessoa (minha, meu, nossa).

Resultado Esperado: 2/5 = 0,40

Resultado Obtido: 0,40



Proporção de pronomes pessoais nas segundas pessoas em relação à quantidade de pronomes pessoais do texto (id: 122)


Nome da Métrica: second_person_pronouns

Interpretação: a segunda pessoa é marca de “diálogo” com o leitor em textos jornalísticos, o que está associado com menor complexidade textual

Descrição da métrica: Proporção de pronomes pessoais nas segundas pessoas em relação a todos os pronomes pessoais do texto.

Definição dos termos que aparecem na descrição da métrica: pronomes pessoais são: eu, tu, você, ele, ela, nós, vós, vocês, eles, elas. Pronomes pessoais de segunda pessoa são: tu e vós.

Limitações da métrica:

1) Para identificar a segunda pessoa, é preciso incluir os pronomes pessoais “você” e “vocês”, que usam a flexão verbal de terceira pessoa, mas são efetivamente segundas pessoas no discurso.

2) A métrica não está contando os pronomes pessoais “você” e “vocês” em nenhuma das pessoas, mas está computando-os no total de pronomes.

Teste 1: Você já percebeu como é difícil decorar todos aqueles nomes de compostos orgânicos? Aqui nós propomos uma série de dicas para você não esquecer e nem confundir os nomes.

Contagens: 2 pronomes pessoais na segunda pessoa (você, você) e 1 na primeira pessoa do plural (nós).

Resultado Esperado: 2/3 = 0,67

Resultado Obtido: 0,67



Proporção de pronomes possessivos nas terceiras pessoas em relação à quantidade de pronomes possessivos do texto (id: 123)


Nome da Métrica: third_person_possessive_pronouns

Interpretação: essa proporção aponta para a possibilidade de uma narrativa em terceira pessoa ou para um texto que "conversa" com o leitor.

Descrição da métrica: proporção de pronomes possessivos de terceira pessoa em relação à quantidade total de pronomes possessivos no texto

Definição dos termos que aparecem na descrição da métrica: pronomes possessivos indicam posse. Os das terceiras pessoas são: seu, seus, sua, suas, dele, deles, dela, delas.

Limitações da métrica: no português brasileiro as formas de segunda pessoa foram suplantadas pelo uso de “você” e “vocês”, que usam a flexão e os pronomes possessivos de terceira pessoa. Portanto, não é possível distinguir os possessivos que se referem a “você” e “vocês” dos possessivos que se referem a “ele, ela, eles, elas”, o que gera ambiguidade. Para resolver a ambiguidade, usam-se as formas “dele, deles, dela, delas”, mas o parser não reconhece essas formas como pronomes possessivos e sim com contrações da preposição “de” com os pronomes pessoais de terceira pessoa.

Teste: Seus olhos são mais escuros do que os dela, mas ainda são claros se comparados aos meus.

Contagens: 2 pronomes possessivos na terceira pessoa (seus, dela) e 1 pronome possessivo na primeira pessoa (meus).

Resultado Esperado: 2/3 = 0,66

Resultado Obtido: 0,50 (porque o parser não reconhece o pronome “dela”)



Proporção de pronomes pessoais nas terceiras pessoas em relação à quantidade de pronomes pessoais do texto (id: 124)


Nome da Métrica: third_person_pronouns

Interpretação: não está clara a relação da métrica com a complexidade textual

Descrição da métrica: Proporção de pronomes pessoais nas terceiras pessoas em relação a todos os pronomes pessoais do texto.

Definição dos termos que aparecem na descrição da métrica: pronomes pessoais são: eu, tu, você, ele, ela, nós, vós, vocês, eles, elas. Pronomes pessoais de terceira pessoa são: ele, ela, eles, elas.

Limitações da métrica: a forma “a gente” funciona como um pronome de primeira pessoa do plural (que conjuga o verbo na terceira pessoa do singular), mas não é reconhecida pelo POS tagger.

Teste 1: Você já viu um fantasma? Eu nunca vi, mas eles são tão comuns nos filmes que a gente fica imaginando se eles não existem mesmo.

Contagens: 2 pronomes pessoais na terceira pessoa, 1 na primeira pessoa e 1 na segunda pessoa.

Resultado Esperado: 2/4 = 0,50

Resultado Obtido: 0,50



Proporção máxima de verbos por palavras em relação à quantidade de palavras das sentenças (id: 126)


Nome da Métrica: verbs_max

Interpretação: não está clara a relação da métrica com a complexidade textual

Descrição da métrica: Proporção máxima de verbos em relação à quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são considerados verbos as palavras anotadas com a etiqueta V pelo POS tagger nlpnet. Não são considerados os auxiliares e os verbos em forma de particípio (VAUX e PCP).

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: No caso do Jeca Tatu, o verme que o deixou doente foi outro: o Ancylostoma. A larva desse verme vive no solo e penetra diretamente na pele. Só o contrai quem anda descalço na terra contaminada por fezes humanas. Se não se tratar, a pessoa fica fraca, sem ânimo e com a pele amarelada. Daí a doença ser também conhecida como amarelão.

Contagens: 5 sentenças de 15, 12, 12, 15 e 8 palavras, e um total de 2, 2, 2, 2 e 1 verbos, respectivamente. Proporções: 0,133, 0,167, 0,167, 0,133 e 0,125

Resultado Esperado: 0,167

Resultado Obtido: 0,167



Proporção mínima de verbos em relação à quantidade de palavras das sentenças (id: 127)


Nome da Métrica: verbs_min

Interpretação: não está clara a relação da métrica com a complexidade textual

Descrição da métrica: Proporção mínima de verbos em relação à quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são considerados verbos as palavras anotadas com a etiqueta V pelo POS tagger nlpnet.

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: No caso do Jeca Tatu, o verme que o deixou doente foi outro: o Ancylostoma. A larva desse verme vive no solo e penetra diretamente na pele. Só o contrai quem anda descalço na terra contaminada por fezes humanas. Se não se tratar, a pessoa fica fraca, sem ânimo e com a pele amarelada. Daí a doença ser também conhecida como amarelão.

Contagens: 5 sentenças de 15, 12, 12, 15 e 8 palavras, e um total de 2, 2, 2, 2 e 1 verbos, respectivamente. Proporções: 0,133, 0,167, 0,167, 0,133 e 0,125

Resultado Esperado: 0,125

Resultado Obtido: 0,125



Desvio padrão das proporções entre verbos e a quantidade de palavras das sentenças (id: 128)


Nome da Métrica: verbs_standard_deviation

Interpretação: quanto menor o desvio-padrão, menor a variação do nível de complexidade textual.

Descrição da métrica: Desvio padrão das proporções entre verbos e a quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: são considerados verbos as palavras anotadas com a etiqueta V pelo POS tagger nlpnet.

Limitações da métrica: a precisão do resultado da métrica depende do desempenho do tagger.

Teste: No caso do Jeca Tatu, o verme que o deixou doente foi outro: o Ancylostoma. A larva desse verme vive no solo e penetra diretamente na pele. Só o contrai quem anda descalço na terra contaminada por fezes humanas. Se não se tratar, a pessoa fica fraca, sem ânimo e com a pele amarelada. Daí a doença ser também conhecida como amarelão.

Contagens: 5 sentenças de 15, 12, 12, 15 e 8 palavras, e um total de 2, 2, 2, 2 e 1 verbos, respectivamente. Proporções: 0,133, 0,167, 0,167, 0,133 e 0,125

Resultado Esperado: 0,018

Resultado Obtido: 0,018



Proporção de pronomes possessivos nas primeiras pessoas em relação à quantidade de pronomes possessivos do texto (id: 97)


Nome da Métrica: first_person_possessive_pronouns

Interpretação: pronomes na primeira pessoa tornam o discurso menos distante do leitor e podem colaborar para diminuir a complexidade textual.

Descrição da métrica: proporção de pronomes possessivos de primeira pessoa em relação à quantidade total de pronomes possessivos no texto

Definição dos termos que aparecem na descrição da métrica: pronomes possessivos indicam posse. Os das primeiras pessoas são: meu, meus, minha, minhas, nosso, nossos, nossa, nossas.

Limitações da métrica:

Teste: Minha primeira tentativa fracassou, mas agora eu atingi meu objetivo. Seu apoio foi muito importante para mim. Obrigada por sua dedicação, prova do quanto é forte nossa amizade.

Contagens: 3 pronomes possessivos na primeira pessoa (minha, meu, nossa), 1 pronome pessoal na primeira pessoa (eu), 1 pronome oblíquo na primeira pessoa (mim), 2 pronomes possessivos na terceira pessoa (seu, sua).

Resultado Esperado: 3/5 = 0,60

Resultado Obtido: 0,60



Proporção de pronomes pessoais nas primeiras pessoas em relação à quantidade de pronomes pessoais do texto (id: 98)


Nome da Métrica: first_person_pronouns

Interpretação: a primeira pessoa é marca de texto pessoal; pronomes na primeira pessoa tornam o discurso menos distante do leitor e podem colaborar para diminuir a complexidade textual.

Descrição da métrica: Proporção de pronomes pessoais nas primeiras pessoas em relação a todos os pronomes pessoais do texto.

Definição dos termos que aparecem na descrição da métrica: pronomes pessoais são: eu, tu, você, ele, ela, nós, vós, vocês, eles, elas. Pronomes pessoais de primeiras pessoas são: eu e nós.

Limitações da métrica:

1) Para identificar textos na primeira pessoa, seria necessário somar pronomes pessoais e possessivos nas primeiras pessoas e verbos conjugados nas primeiras pessoas. É muito comum a supressão dos pronomes pessoais de primeira pessoas, pois a flexão verbal já é marca suficiente de pessoa.

2) Seria importante computar o pronome de primeira pessoa “a gente”, que no português brasileiro é comum. Esse pronome é de primeira pessoa do plural (corresponde a “nós”), mas usa flexão de terceira pessoa do singular.

Teste 1:

Após muitas viagens, esse é meu primeiro relato. Estou praticamente sendo obrigado a relatar, impelido por gratidão a todos e por achar que as informações pra esse destino estão um pouco confusas. Minha tentativa é ajudar um pouco mais aqueles que buscam informações sobre essa área, El Chalten e El Calafate, e quem sabe encorajar outros viajantes! Somos um casal de mochileiros e viajamos com a economia sempre sendo uma premissa de viagem. Não temos metas restritas de gastar 1 dólar por dia nem nada muito radical, mas evitamos gastar dinheiro desnecessariamente. O orçamento é curto e exige sacrifícios, o nosso dinheiro não dá pra viajar sem nos preocuparmos com despesas. Portanto, sacrificamos alguns dedos para salvar a mão. Não fazemos questão de luxo em hospedagens nem em restaurantes e sempre que possível fazemos tudo por nossa conta.

Contagens: nenhum pronome pessoal, 3 pronomes possessivos na terceira pessoa e 9 verbos flexionados nas primeiras pessoas.

Resultado Esperado: 0,0

Resultado Obtido: 0,0

Teste 2: Eu nunca mais deixei ninguém lembrar nada de nós. Mas eles insistem em dizer que eu deveria conversar sobre nossa relação.

Contagens: 4 pronomes pessoais, sendo 3 de primeiras pessoas

Resultado Esperado: 0,75

Resultado Obtido: 0,75




12. Informações Semânticas de Palavras


Proporção de sentidos dos adjetivos do texto em relação à quantidade de adjetivos do texto (id: 130)


Nome da Métrica: adjectives_ambiguity

Interpretação: quanto maior a ambiguidade, maior o esforço para decidir qual é o sentido adequado ao contexto, portanto, maior a complexidade.

Descrição da métrica: Ambiguidade de Adjetivos

Definição dos termos que aparecem na descrição da métrica: adjetivos são modificadores nominais.

Limitações da métrica: há palavras que não estão no TEP e isso compromete a confiabilidade da métrica

Teste: O acessório polêmico entrou no projeto, de autoria do senador Cícero Lucena (PSDB-PB), graças a uma emenda aprovada na Comissão de Educação do Senado em outubro. Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 6 adjetivos (polêmico, municipal, estadual, federal, solar, anual). Apenas o adjetivo “anual” consta do TEP, com 1 sentido

Resultado Esperado: 1/6

Resultado Obtido: 0,166



Proporção de sentidos dos advérbios do texto em relação à quantidade de advérbios do texto (id: 131)


Nome da Métrica: adverbs_ambiguity

Interpretação: quanto maior o resultado da métrica, maior a complexidade textual, pois quanto maior o número de sentidos por advérbio, maior o esforço requerido para desambiguação.

Descrição da métrica: Ambiguidade de Advérbios. Proporção entre a quantidade de sentidos dos advérbios do texto no TEP (Thesaurus Eletrônico do Português)e a quantidade de advérbios do texto.

Definição dos termos que aparecem na descrição da métrica:a quantidade de sentidos é o número de sentidos que uma palavra tem no dicionário TEP (Thesaurus Eletrônico do Português).

Limitações da métrica:

1) Há palavras que não estão no TEP e, quando isso ocorre, o número de sentidos é 0. Também pode ocorrer falha de POS tagging e de lematização, impedindo a identificação do lema a ser procurado no TEP.

2) O cálculo não está considerando a etiqueta PDEN (palavras denotativas) e as contrações de preposição com advérbios (ex: daqui, dali) PREP+ADV.

Teste: Não podemos acrescentar nenhuma despesa a mais no nosso orçamento. Já não temos recursos suficientes para a manutenção das escolas, por exemplo, e também precisamos valorizar o magistério - justifica a diretora do Departamento Pedagógico da SEC, Sonia Balzano.

Contagens: 5 advérbios (não, mais, já, não, também) com 1, 5, 4, 1 e 4 sentidos respectivamente.

O tagger identificou 5 advérbios ['não', 'a', 'mais', 'já', 'não'] e 4 lemas ['não', 'mais', 'já', 'não'], os quais possuem 1, 5, 4, 1 sentidos respectivamente]

Resultado Esperado: 15/5 = 3,0

Resultado Obtido: 2,75 (11/4, porque o advérbio “também” está anotado como PDEN)



Proporção de sentidos dos substantivos do texto em relação à quantidade de substantivos do texto (id: 137)


Nome da Métrica: nouns_ambiguity

Interpretação: a quantidade de sentidos está diretamente relacionada a uma ,maior complexidade, pois esige maior esforço de desambiguação.

Descrição da métrica: proporção de sentidos dos substantivos em relação à quantidade de substantivos

Definição dos termos que aparecem na descrição da métrica: quantidade de sentidos é a soma de todos os sentidos de cada palavra no TEP Thesaurus Eletrônico do Português

Limitações da métrica: não há.

Teste: O menino colou na prova, embora soubesse que poderia ser pego.

Contagens: 2 substantivos: menino e prova, com 1 e 9 sentidos no TEP, respectivamente.

Resultado Esperado: 10/2 = 5

Resultado Obtido: 5



Proporção de sentidos dos verbos do texto em relação à quantidade de verbos do texto (id: 139)


Nome da Métrica: verbs_ambiguity

Interpretação: não há uma clara relação da métrica com a complexidade. Os verbos mais frequentes são os que possuem mais sentidos, porém são também os primeiros a serem adquiridos e, portanto, os mais simples. Porém, nem todos os sentidos dos verbos polissêmicos são aprendidos de uma só vez.

Descrição da métrica: proporção entre a quantidade de sentidos que os verbos do texto possuem no TEP (Thesaurus Eletrônico do Português) e a quantidade de verbos do texto. Quanto mais sentidos tem um verbo, maior sua ambiguidade.

Definição dos termos que aparecem na descrição da métrica:

Limitações da métrica: se o POS tagger ou o lematizador falharem em identificar o verbo, fica impossível buscar o número de sentidos no TEP.

Teste: O menino colou na prova, embora soubesse que poderia ser pego.

Contagens: 5 verbos (colar, saber, poder, ser, pegar) com 4, 7, 2, 12, 17 sentidos, respectivamente, no TEP.

Resultado Esperado: 8,4 (42/5)

Resultado Obtido: 6,25 (o verbo “pegar” não foi identificado)



Quantidade Média de Hiperônimos por verbo nas sentenças (id: 133)


Nome da Métrica: hypernyms_verbs

Interpretação: teoricamente, quanto menos hiperônimos tem uma palavra, menos complexa ela é; portanto, quanto menor a métrica, menor a complexidade textual

Descrição da métrica: Quantidade média de hiperônimos por verbo do texto

Definição dos termos que aparecem na descrição da métrica:

Limitações da métrica: a precisão depende do desempenho da busca de hiperônimos na Wordnet.

Teste: Ele sonha muito quando está acordado.

Contagens: 2 verbos: sonhar (3 hiperônimos), acordar (0 hiperônimos)

Resultado Esperado: 3/2 = 1,5

Resultado Obtido: 1,5



Proporção de substantivos abstratos em relação à quantidade de palavras do texto (id: 129)


Nome da Métrica: abstract_nouns_ratio

Interpretação: substantivos abstratos são mais complexos que substantivos concretos, portanto, quanto maior a proporção desses substantivos, maior a complexidade.

Descrição da métrica: Proporção de substantivos abstratos em relação à quantidade de palavras do texto

Definição dos termos que aparecem na descrição da métrica: para fins desta métrica, são considerados substantivos abstratos os substantivos terminados com os sufixos -mento, -ção, -são, -agem, -mento, -ura, -ncia, -dela, -ria.

Limitações da métrica: a principal limitação é de ordem conceitual. Sem um stemmer (separador de radicais), não é possível saber se a terminação é sufixo ou não. Por exemplo, -ção é sufixo em “profissionalização”, mas não é sufixo em “ração”. Além disso, a métrica parte do pressuposto de que há sufixos exclusivos de palavras abstratas, o que não é verdadeiro. Por exemplo: sangramento, folhagem, ranhura e padaria apresentam as terminações definidas para a métrica e são palavras com alto grau de concretude. Por outro lado, há palavras abstratas derivadas de verbo que não são capturadas, como “coordenadora”, como no exemplo-teste.

Teste: A coordenadora de Memória da Secretaria de Cultura, Miriam Avruch, garante que metade do valor já foi paga.

Contagens: 3 substantivos com as terminações definidas: memória, secretaria, cultura e 18 palavras

Resultado Esperado: 0,167 (3/18)

Resultado Obtido: 0,167



Média de sentidos por palavra de conteúdo do texto (id: 132)


Nome da Métrica: content_words_ambiguity

Interpretação: quanto maior o resultado da métrica, maior a complexidade textual, pois quanto maior o número de sentidos por palavra, maior o esforço requerido para desambiguação

Descrição da métrica: Média de sentidos por palavra de conteúdo do texto

Definição dos termos que aparecem na descrição da métrica: a quantidade de sentidos é o número de sentidos que uma palavra tem no dicionário TEP (Thesaurus Eletrônico do Português).

Limitações da métrica: a precisão da métrica depende do desempenho do tagger e da estratégia de lematização utilizada, pois se as categorias de palavras de conteúdo não forem devidamente identificadas e lematizadas, as palavras não poderão ser procuradas no TEP.

Teoricamente, a ambiguidade é um fator que aumenta a complexidade. Utilizar a quantidade de sentidos da palavra para medir ambiguidade, porém, pode não resultar em uma boa métrica, pois as palavras mais raras (e mais complexas) são as que possuem menos sentidos e as palavras mais frequentes são as que possuem mais sentidos. As palavras mais frequentes são, também, as primeiras a serem adquiridas e, portanto, as mais simples. Por exemplo, o verbo “ser” tem 12 sentidos no TEP e, por isso, contribui para a obtenção de um resultado alto nesta métrica. Não se pode inferir, contudo, que a ocorrência do verbo “ser” aumente a complexidade do texto. É possível que essa métrica tenha se originado no tratamento automático da ambiguidade. Por isso, é preciso atentar para o fato de que o que é ambíguo para a máquina não é necessariamente ambíguo para o ser humano.

Teste: O menino colou na prova, embora soubesse que poderia ser pego.

Contagens: 7 palavras de conteúdo, com um total de 52 sentidos
2 substantivos (menino, prova), com 1 e 9 sentidos no TEP
5 verbos (colou, soubesse, poderia, ser, pego) com 4, 7, 2, 12 e 17 sentidos no TEP
Nenhum adjetivo e nenhum advérbio.
A lematização não identificou o verbo “pegar”, por isso o cálculo foi feito com 6 palavras e u

Resultado Esperado: 7,43 (52/7)

Resultado Obtido: 5,83 (35/6, pois não foi identificado o verbo “pegar” a partir da forma “pego”)



Média das proporções de Nomes Próprios em relação à quantidade de palavras das Sentenças (id: 134)


Nome da Métrica: named_entity_ratio_sentence

Interpretação: segundo hipotetizado por Feng et al., 2010* (A Comparison of Features for Automatic Readability Assessment), quanto maior a quantidade de entidades nomeadas, maior a carga de memória requerida e, portanto, maior a complexidade textual.

Descrição da métrica: Média das proporções de nomes próprios em relação à quantidade de palavras das sentenças

Definição dos termos que aparecem na descrição da métrica: entidade nomeada é uma entidade do mundo real, como pessoas, lugares, datas, organizações, produtos, etc. que pode ser denotada por meio de um nome. O reconhecimento de entidades nomeadas é uma subtarefa do processamento de línguas naturais. Nessa métrica só estão sendo reconhecidas as entidades nomeadas que possuem nome próprio grafado em letra maiúscula, capturadas por meio da etiqueta morfossintática PROP do parser Palavras.

Limitações da métrica: a precisão da métrica depende do desempenho do parser Palavras

Teste: Romero Jucá já disse que presidente deve vetar trecho sobre PIS-Cofins.

Contagens: 10 palavras, 2 PROP (Romero=Jucá e PIS-Cofins)

Resultado Esperado: 0,20

Resultado Obtido: 0,20



Proporção de Nomes Próprios em relação à quantidade de palavras do Texto (id: 135)


Nome da Métrica: named_entity_ratio_text

Interpretação: não está clara a relação da métrica com a complexidade textual

Descrição da métrica: Proporção de Nomes Próprios em relação à quantidade de palavras do Texto

Definição dos termos que aparecem na descrição da métrica: nomes próprios são palavras escritas em letra maiúscula, compostos de um ou mais tokens, capturadas por meio da etiqueta morfossintática PROP do parser Palavras. A etiqueta PROP junta todos os tokens de um mesmo nome próprio em uma multipalavra.

Limitações da métrica: é importante para essa métrica usar a opção de junção de palavras que compõem os nomes próprios, disponível no parser Palavras; caso contrário, corre-se o risco de contar cada token do nome próprio como uma entidade nomeada diferente.

Teste: O melhor amigo do João é o Jorge Campos, que trabalha na Siemens. Eles se conheceram no Palestra Itália, num dia de decisão entre Palmeiras e São Paulo.

Contagens: 28 palavras, 6 nomes próprios: João, Jorge Campos, Siemens, Palestra Itália, Palmeiras, São Paulo

Resultado Esperado: 6/29 = 0,207

Resultado Obtido: 0,207



Proporção de palavras de polaridade negativa em relação a todas palavras do texto (id: 136)


Nome da Métrica: negative_words

Interpretação: não há uma clara a relação entre a métrica e a complexidade textual

Descrição da métrica: Proporção de palavras com polaridade negativa em relação a todas as palavras do texto

Definição dos termos que aparecem na descrição da métrica: polaridade negativa é uma característica psicolinguística das palavras de conteúdo. A informação é obtida no Dicionário Brasileiro LIWC para Análise de Sentimentos: http://143.107.183.175:21380/portlex/index.php/en/liwc


Limitações da métrica: a precisão depende da qualidade do léxico utilizado.

Teste: Embora o celular seja lento, sua bateria é muito boa.

Contagens: 10 palavras, 2 palavras de polaridade negativa (lento),

Resultado Esperado: 0,10

Resultado Obtido: 0,10



Proporção de palavras de polaridade positiva em relação a todas palavras do texto (id: 138)


Nome da Métrica: positive_words

Interpretação: não há uma clara a relação entre a métrica e a complexidade textual

Descrição da métrica: Proporção de palavras com polaridade positiva em relação a todas as palavras do texto.

Definição dos termos que aparecem na descrição da métrica: polaridade positiva é uma característica psicolinguística das palavras de conteúdo. A informação é obtida no Dicionário Brasileiro LIWC para Análise de Sentimentos: http://143.107.183.175:21380/portlex/index.php/en/liwc

Limitações da métrica: a precisão depende da qualidade do léxico utilizado.

Teste: Embora o celular seja lento, sua bateria é muito boa.

Contagens: 10 palavras, 2 palavras de polaridade positiva (muito e boa),

Resultado Esperado: 0,20

Resultado Obtido: 0,20




13. Frequência de Palavras


Média das frequências absolutas das palavras de conteúdo do texto, via Banco de Português (BP) (id: 77)


Nome da Métrica: cw_freq
Interpretação: teoricamente, quanto maior a frequência das palavras, menor a complexidade
do texto

Descrição da métrica: Média das frequências absolutas das palavras de conteúdo do texto, via Banco de Português (BP)

Definição dos termos que aparecem na descrição da métrica: frequência absoluta é a quantidade de vezes que uma palavra ocorre em um corpus, portanto, varia em função do tamanho do corpus; palavras de conteúdo são substantivos, verbos, adjetivos e advérbios.

Forma de cálculo da métrica: identificam-se todas as palavras de conteúdo no texto. Para cada uma delas, procura-se a frequência na lista de frequências do Banco de Português (BP). Somam-se todas as frequências e divide-se o resultado pela quantidade de palavras de conteúdo do texto. Apresentação com 5 dígitos decimais.

Recursos de PLN utilizados durante o cálculo: POS tagger nlpnet e lista de frequências do Banco de Português (BP), compilado por Tony Sardinha da PUC-SP, com certa de 700 milhões de tokens.

Limitações da métrica:
As formas do Banco de Português (BP) não possuem classe gramatical e somam ocorrências de classes diferentes que possuem a mesma grafia (ex: “forma” – substantivo e “forma” – 3ª pessoa do singular do presente do indicativo do verbo formar). Por isso, ao se buscar uma palavra de conteúdo na lista de frequências, nem sempre se encontra apenas a frequência da palavra na categoria gramatical almejada. O Banco do Português, versão de 2010, era o maior e mais balanceado corpus para o Português do Brasil, embora seja um corpus pequeno comparado com corpus atuais da ordem de bilhão de palavras. Essa métrica foi mantida no conjunto de métricas por razões históricas.

Teste: Acessório utilizado por adolescentes, o boné é um dos itens que compõem a vestimenta idealizada pela proposta.
Contagens:
palavras de conteúdo: 'acessório', 'utilizado', 'adolescentes', 'boné', 'é', 'itens', 'compõem',
'vestimenta', 'idealizada', 'proposta'.
frequências respectivas: 1.616, 78.716, 53.937, 1.615, 5.325.656, 32.350, 17.961, 773, 1.908, 135.451.
Resultado Esperado: 564998.3
Resultado Obtido: 564998.3
OBS: Exemplo acima apresentado com 1 casa decimal.



Média dos valores das frequências das palavras de conteúdo do texto na escala logarítmica Zipf, via Corpus Brasileiro (id: 78)


Nome da Métrica: cw_freq_bra

Interpretação: teoricamente, quanto maior a frequência das palavras, menor a complexidade do texto

Descrição da métrica: Média dos valores das frequências das palavras de conteúdo do texto na escala logarítmica Zipf, que varia do valor 1 a 7, via Corpus Brasileiro

Definição dos termos que aparecem na descrição da métrica: frequência na escala Zipf é calculada como log 10 (frequência normalizada) + 3. A frequência normalizada, ou frequência por milhão, é a frequência original das palavras de um dado corpus multiplicada por 1 milhão, dividida pelo tamanho do corpus. Palavras de conteúdo são substantivos, verbos, adjetivos e advérbios.

Forma de cálculo da métrica: identificam-se todas as palavras de conteúdo no texto. Para cada
uma delas, procura-se a frequência original na lista de frequências do Corpus Brasileiro e calcula-se a frequência na escala Zipf. Somam-se todas as frequências na escala Zipf e divide-se o resultado pela quantidade de palavras de conteúdo do texto. Apresentação com 5 dígitos decimais.

Recursos de PLN utilizados durante o cálculo: PoS tagger nlpnet e lista de frequências do Corpus Brasileiro. O Corpus Brasileiro (http://corpusbrasileiro.pucsp.br/cb/Inicial.html e https://www.linguateca.pt/acesso/corpus.php?corpus=CBRAS) é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp.

Limitações da métrica: As formas do Corpus Brasileiro não possuem classe gramatical e somam ocorrências de classes diferentes que possuem a mesma grafia (ex: “forma” – substantivo e “forma” – 3ª pessoa do singular do presente do indicativo do verbo formar). Por isso, ao se buscar uma palavra de conteúdo na lista de frequências, nem sempre se encontra apenas a frequência da palavra na categoria gramatical almejada.

Teste 1: A Casa tem em torno de 160 contratos para serem analisados.
Contagens:
palavras de conteúdo: 'Casa', 'tem', 'contratos', 'serem', ‘analisados’
Frequência: Casa : 5.659, tem : 6.104, contratos : 4.685, serem : 5.245, analisados : 4.677
Resultado Esperado: 5.274
Resultado Obtido: 5.274

Teste 2: Os partidos estão mais cautelosos.
Contagens:
palavras de conteúdo: 'partidos', 'estão', 'mais', 'cautelosos'
Frequência: partidos : 4.814, estão : 5.757, mais : 6.54, cautelosos : 2.932
Resultado Esperado: 5.011
Resultado Obtido: 5.011
OBS: Exemplos acima apresentados com 3 casas decimais.



Média dos valores das frequências das palavras de conteúdo do texto na escala logarítmica Zipf, via BrWac (id: 79)


Nome da Métrica: cw_freq_brwac

Interpretação: teoricamente, quanto maior a frequência das palavras, menor a complexidade
do texto

Descrição da métrica: Média dos valores das frequências das palavras de conteúdo do texto na escala logarítmica Zipf, que varia do valor 1 a 7, via BrWac

Definição dos termos que aparecem na descrição da métrica: frequência na escala Zipf é calculada como log 10 (frequência normalizada) + 3. A frequência normalizada, ou frequência por milhão, é a frequência original das palavras de um dado corpus multiplicada por 1 milhão, dividida pelo tamanho do corpus. Palavras de conteúdo são substantivos, verbos, adjetivos e advérbios.

Forma de cálculo da métrica: identificam-se todas as palavras de conteúdo no texto. Para cada uma delas, procura-se a frequência original na lista de frequências do Corpus BrWac e calcula-se a frequência na escala Zipf. Somam-se todas as frequências na escala Zipf e divide-se o resultado pela quantidade de palavras de conteúdo do texto. Apresentação com 5 dígitos decimais.

Recursos de PLN utilizados durante o cálculo: PoS tagger nlpnet e lista de frequências do Corpus BrWac. O Corpus BrWac (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC) foi disponibilizado em Janeiro de 2017 e é composto por 3.53 milhões de documentos da Web, 2.68 bilhões de tokens e 5.79 milhão de types (TTR 0.0021). Os textos do BrWac foram etiquetados pelo tagger nlpnet, que gera uma etiquetação de PoS (part-of-speech).

Limitações da métrica: a precisão da métrica depende do desempenho do tagger e do quanto um corpus de textos da web é representativo da língua geral.

Teste 1: A Casa tem em torno de 160 contratos para serem analisados.
Contagens:
palavras de conteúdo: 'Casa', 'tem', 'contratos', 'serem', ‘analisados'
classe gramatical e frequência: Casa_NPROP : 3.242, tem_V : 6.308, contratos_N : 4.734, serem_V : 5.253, analisados_PCP : 4.129
Resultado Esperado: 4.733
Resultado Obtido: 4.733

Teste 2: Os partidos estão mais cautelosos.
Contagens:
palavras de conteúdo: 'partidos', 'estão', 'mais', 'cautelosos'
classe gramatical e frequência: partidos_N : 4.783, estão_V : 5.888, mais_ADV : 6.578, cautelosos_ADJ : 2.969
Resultado Esperado: 5.054
Resultado Obtido: 5.054
OBS: Exemplos acima apresentados com 3 casas decimais.



Média dos valores das frequências das palavras do texto na escala logarítmica Zipf, via Corpus Brasileiro (id: 80)


Nome da Métrica: freq_bra

Interpretação: teoricamente, quanto maior a frequência das palavras, menor a complexidade do texto

Descrição da métrica: Média dos valores das frequências das palavras do texto na escala logarítmica Zipf, que varia do valor 1 a 7, via Corpus Brasileiro

Definição dos termos que aparecem na descrição da métrica: frequência na escala Zipf é calculada como log 10 (frequência normalizada) + 3. A frequência normalizada, ou frequência por milhão, é a frequência original das palavras de um dado corpus multiplicada por 1 milhão, dividida pelo tamanho do corpus.

Forma de cálculo da métrica: identificam-se todas as palavras no texto, de acordo com sua classe gramatical. Para cada uma delas, procura-se a frequência original na lista de frequências do Corpus Brasileiro e calcula-se a frequência na escala Zipf. Somam-se todas as frequências na escala Zipf e divide-se o resultado pela quantidade de palavras do texto. Apresentação com 5 dígitos decimais.

Recursos de PLN utilizados durante o cálculo: PoS tagger nlpnet e lista de frequências do Corpus Brasileiro. O Corpus Brasileiro (http://corpusbrasileiro.pucsp.br/cb/Inicial.html e https://www.linguateca.pt/acesso/corpus.php?corpus=CBRAS) é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp.

Limitações da métrica: As formas do Corpus Brasileiro não possuem classe gramatical e somam ocorrências de classes diferentes que possuem a mesma grafia (ex: “forma” – substantivo e “forma” – 3ª pessoa do singular do presente do indicativo do verbo formar). Por isso, ao se buscar uma palavra de conteúdo na lista de frequências, nem sempre se encontra apenas a frequência da palavra na categoria gramatical almejada.

Teste 1: A Casa tem em torno de 160 contratos para serem analisados.
Contagens:
Palavras e Frequências: A : 7.513, Casa : 5.659, tem : 6.104, em : 7.113, torno : 5.064, de : 7.719, 160 : 0, contratos : 4.685, para : 6.991, serem : 5.245, analisados : 4.677
Resultado Esperado: 5.525
Resultado Obtido: 5.525

Teste 2: Os partidos estão mais cautelosos.
Contagens:
Palavras e Frequências: Os : 6.92, partidos : 4.814, estão : 5.757, mais : 6.54, cautelosos : 2.932
Resultado Esperado: 5.393
Resultado Obtido: 5.393
OBS: Exemplos acima apresentados com 3 casas decimais.



Média dos valores das frequências das palavras do texto na escala logarítmica Zipf, via BrWac (id: 81)


Nome da Métrica: freq_brwac

Interpretação: teoricamente, quanto maior a frequência das palavras, menor a complexidade do texto

Descrição da métrica: Média dos valores das frequências das palavras do texto na escala logarítmica Zipf, que varia do valor 1 a 7, via BrWac

Definição dos termos que aparecem na descrição da métrica: a frequência na escala Zipf é calculada como log 10 (frequência normalizada) + 3. A frequência normalizada, ou frequência por milhão, é a frequência original das palavras de um dado corpus multiplicada por 1 milhão, dividida pelo tamanho do corpus.

Forma de cálculo da métrica: identificam-se todas as palavras no texto, de acordo com sua classe gramatical. Para cada uma delas, procura-se a frequência original na lista de frequências do Corpus BrWac e calcula-se a frequência na escala Zipf. Somam-se todas as frequências na escala Zipf e divide-se o resultado pela quantidade de palavras do texto. Apresentação com 5 dígitos decimais.

Recursos de PLN utilizados durante o cálculo: PoS tagger nlpnet e lista de frequências do Corpus BrWac. O Corpus BrWac (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC) foi disponibilizado em Janeiro de 2017 e é composto por 3.53 milhões de documentos da Web, 2.68 bilhões de tokens e 5.79 milhão de types (TTR 0.0021). Os textos do BrWac foram etiquetados pelo tagger nlpnet, que gera uma etiquetação de PoS (part-of-speech).

Limitações da métrica: a precisão da métrica depende do desempenho do tagger e do quanto um corpus de textos da web é representativo da língua geral.

Teste 1: A Casa tem em torno de 160 contratos para serem analisados.

Contagens:
classe gramatical e frequência: A_ART : 7.405, Casa_NPROP : 3.242, tem_V : 6.308, em_PREP : 7.107, torno_PREP : 4.897, de_PREP : 7.651, 160_NUM : 0, contratos_N : 4.734, para_PREP : 7.08, serem_V : 5.253, analisados_PCP : 4.129
Resultado Esperado: 5.255
Resultado Obtido: 5.255

Teste 2: Os partidos estão mais cautelosos.
Contagens:
classe gramatical e frequência: Os_ART : 6.913, partidos_N : 4.783, estão_V : 5.888, mais_ADV : 6.578, cautelosos_ADJ : 2.969
Resultado Esperado: 5.426
Resultado Obtido: 5.426
OBS: Exemplos acima apresentados com 3 casas decimais.



Média das frequências absolutas das palavras de conteúdo mais raras das sentenças do texto, via Banco de Português (BP) (id: 82)


Nome da Métrica: min_cw_freq

Interpretação: teoricamente, quanto maior a frequência, menor a complexidade da palavra

Descrição da métrica: Média das frequências absolutas das palavras de conteúdo mais raras das sentenças do texto, via Banco de Português (BP)

Definição dos termos que aparecem na descrição da métrica: frequência absoluta é a quantidade de vezes que uma palavra ocorre em um corpus, portanto, varia em função do tamanho do corpus; palavras de conteúdo são substantivos, verbos, adjetivos e advérbios; as palavras mais raras são as que têm a menor frequência em comparação com as outras palavras de conteúdo de cada sentença.

Forma de cálculo da métrica: identificam-se todas as palavras de conteúdo no texto. Para cada uma delas, procura-se a frequência na lista de frequências do Banco de Português (BP). Identificam-se as palavras que apresentam a menor frequência entre as palavras de conteúdo de cada sentença. Somam-se essas frequências mínimas e divide-se o resultado pela quantidade de sentenças do texto. Apresentação com 5 dígitos decimais.

Recursos de PLN utilizados durante o cálculo: POS tagger nlpnet e lista de frequências do Banco de Português (BP), compilado por Tony Sardinha da PUC-SP, com certa de 700 milhões de tokens.

Limitações da métrica:
A lista de palavras do Banco de Português (BP) não traz categorias gramaticais e junta as frequências de formas homônimas, como por exemplo, o "a" artigo, o "a" preposição e o "a" pronome ou o pronome “sua” com a forma verbal “sua” (3ª pessoa do singular do presente do indicativo do verbo “suar”). Por isso, ao se buscar uma palavra de conteúdo na lista de frequências, nem sempre se encontra apenas a frequência da palavra na categoria gramatical almejada. O Banco do Português, versão de 2010, era o maior e mais balanceado corpus para o Português do Brasil, embora seja um corpus pequeno comparado com corpus atuais da ordem de bilhão de palavras. Essa métrica foi mantida no conjunto de métricas por razões históricas.

Teste: Acessório utilizado por adolescentes, o boné é um dos itens que compõem a vestimenta idealizada pela proposta.
Contagens:
palavras de conteúdo: 'acessório', 'utilizado', 'adolescentes', 'boné', 'é', 'itens', 'compõem',
'vestimenta', 'idealizada', 'proposta'.
frequências respectivas: 1.616, 78.716, 53.937, 1.615, 5.325.656, 32.350, 17.961, 773, 1.908, 135.451.
frequência mínima: 773
Resultado Esperado: 773.0
Resultado Obtido: 773.0
OBS: Exemplo acima apresentado com 1 casa decimal.



Média dos valores das frequências das palavras de conteúdo mais raras das sentenças do texto, na escala logarítmica Zipf, via Corpus Brasileiro (id: 83)


Nome da Métrica: min_cw_freq_bra

Interpretação: teoricamente, quanto maior a frequência, menor a complexidade da palavra

Descrição da métrica: Média dos valores das frequências das palavras de conteúdo mais raras das sentenças do texto, na escala logarítmica Zipf, que varia do valor 1 a 7, via Corpus Brasileiro

Definição dos termos que aparecem na descrição da métrica: frequência na escala Zipf é calculada como log 10 (frequência normalizada) + 3. A frequência normalizada, ou frequência por milhão, é a frequência original das palavras de um dado corpus multiplicada por 1 milhão, dividida pelo tamanho do corpus. Palavras de conteúdo são substantivos, verbos, adjetivos e advérbios; as palavras mais raras são as que têm a menor frequência em comparação com as outras palavras de conteúdo de cada sentença.

Forma de cálculo da métrica: identificam-se todas as palavras de conteúdo no texto. Para cada uma delas, procura-se a frequência na lista de frequências do Corpus Brasileiro, e calcula-se a frequência na escala Zipf. Identificam-se as palavras que apresentam a menor frequência entre as palavras de conteúdo de cada sentença. Somam-se essas frequências mínimas e divide-se o resultado pela quantidade de sentenças do texto. Apresentação com 5 dígitos decimais.

Recursos de PLN utilizados durante o cálculo: PoS tagger nlpnet e lista de frequências do Corpus Brasileiro. O Corpus Brasileiro (http://corpusbrasileiro.pucsp.br/cb/Inicial.html e https://www.linguateca.pt/acesso/corpus.php?corpus=CBRAS) é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp.

Limitações da métrica: As formas do Corpus Brasileiro não possuem classe gramatical e somam ocorrências de classes diferentes que possuem a mesma grafia (ex: “forma” – substantivo e “forma” – 3ª pessoa do singular do presente do indicativo do verbo formar). Por isso, ao se buscar uma palavra de conteúdo na lista de frequências, nem sempre se encontra apenas a frequência da palavra na categoria gramatical almejada.

Teste 1: A Casa tem em torno de 160 contratos para serem analisados.
Contagens:
palavras de conteúdo: 'Casa', 'tem', 'contratos', 'serem', ‘analisados’
Frequência: Casa : 5.659, tem : 6.104, contratos : 4.685, serem : 5.245, analisados : 4.677
frequência mínima: 4.677
Resultado Esperado: 4.677
Resultado Obtido: 4.677

Teste 2: Os partidos estão mais cautelosos.
Contagens:
palavras de conteúdo: 'partidos', 'estão', 'mais', 'cautelosos'
Frequência: partidos : 4.814, estão : 5.757, mais : 6.54, cautelosos : 2.932
Frequência mínima: 2.932
Resultado Esperado: 2.932
Resultado Obtido: 2.932
OBS: Exemplos acima apresentados com 3 casas decimais.



Média dos valores das frequências das palavras de conteúdo do texto na escala logarítmica Zipf, via BrWac (id: 84)


Nome da Métrica: min_cw_freq_brwac

Interpretação: teoricamente, quanto maior a frequência, menor a complexidade da palavra

Descrição da métrica: Média dos valores das frequências das palavras de conteúdo mais raras das sentenças do texto, na escala logarítmica Zipf, que varia do valor 1 a 7, via BrWac

Definição dos termos que aparecem na descrição da métrica: frequência na escala Zipf é calculada como log 10 (frequência normalizada) + 3. A frequência normalizada, ou frequência por milhão, é a frequência original das palavras de um dado corpus multiplicada por 1 milhão, dividida pelo tamanho do corpus. Palavras de conteúdo são substantivos, verbos, adjetivos e advérbios; as palavras mais raras são as que têm a menor frequência em comparação com as outras palavras de conteúdo de cada sentença.

Forma de cálculo da métrica: identificam-se todas as palavras de conteúdo no texto. Para cada uma delas, procura-se a frequência na lista de frequências do Corpus BrWac, e calcula-se a frequência na escala Zipf. Identificam-se as palavras que apresentam a menor frequência entre as palavras de conteúdo de cada sentença. Somam-se essas frequências mínimas e divide-se o resultado pela quantidade de sentenças do texto. Apresentação com 5 dígitos decimais.

Recursos de PLN utilizados durante o cálculo: PoS tagger nlpnet e lista de frequências do Corpus BrWac. O Corpus BrWac (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC) foi disponibilizado em Janeiro de 2017 e é composto por 3.53 milhões de documentos da Web, 2.68 bilhões de tokens e 5.79 milhão de types (TTR 0.0021). Os textos do BrWac foram etiquetados pelo tagger nlpnet, que gera uma etiquetação de PoS (part-of-speech).

Limitações da métrica: a precisão da métrica depende do desempenho do tagger e do quanto um corpus de textos da web é representativo da língua geral.

Teste 1: A Casa tem em torno de 160 contratos para serem analisados.
Contagens:
palavras de conteúdo: 'Casa', 'tem', 'contratos', 'serem', 'analisados'
classe gramatical e frequência: Casa_NPROP : 3.242, tem_V : 6.308, contratos_N : 4.734, serem_V : 5.253, analisados_PCP : 4.129
frequência mínima: 3.242
Resultado Esperado: 3.242
Resultado Obtido: 3.242

Teste 2: Os partidos estão mais cautelosos.
Contagens:
palavras de conteúdo: 'partidos', 'estão', 'mais', 'cautelosos'
classe gramatical e frequência: partidos_N : 4.783, estão_V : 5.888, mais_ADV : 6.578, cautelosos_ADJ : 2.969
Frequência mínima: 2.969
Resultado Esperado: 2.969
Resultado Obtido: 2.969
OBS: Exemplos acima apresentados com 3 casas decimais.



Média dos valores das frequências das palavras mais raras das sentenças do texto, na escala logarítmica Zipf, via Corpus Brasileiro (id: 85)


Nome da Métrica: min_freq_bra

Interpretação: teoricamente, quanto maior a frequência, menor a complexidade da palavra

Descrição da métrica: Média dos valores das frequências das palavras mais raras das sentenças do texto, na escala logarítmica Zipf, que varia do valor 1 a 7, via Corpus Brasileiro

Definição dos termos que aparecem na descrição da métrica: frequência na escala Zipf é calculada como log 10 (frequência normalizada) + 3. A frequência normalizada, ou frequência por milhão, é a frequência original das palavras de um dado corpus multiplicada por 1 milhão, dividida pelo tamanho do corpus. As palavras mais raras são as que têm a menor frequência em comparação com as outras palavras de cada sentença.

Forma de cálculo da métrica: identificam-se todas as palavras no texto, de acordo com sua classe gramatical. Para cada uma delas, procura-se a frequência na lista de frequências do Corpus Brasileiro, e calcula-se a frequência na escala Zipf. Identificam-se as palavras que apresentam a menor frequência entre as palavras de cada sentença. Somam-se essas frequências mínimas e divide-se o resultado pela quantidade de sentenças do texto. Apresentação com 5 dígitos decimais.

Recursos de PLN utilizados durante o cálculo: PoS tagger nlpnet e lista de frequências do Corpus Brasileiro. O Corpus Brasileiro (http://corpusbrasileiro.pucsp.br/cb/Inicial.html e https://www.linguateca.pt/acesso/corpus.php?corpus=CBRAS) é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp.

Limitações da métrica: As formas do Corpus Brasileiro não possuem classe gramatical e somam ocorrências de classes diferentes que possuem a mesma grafia (ex: “forma” – substantivo e “forma” – 3ª pessoa do singular do presente do indicativo do verbo formar). Por isso, ao se buscar uma palavra de conteúdo na lista de frequências, nem sempre se encontra apenas a frequência da palavra na categoria gramatical almejada.

Teste 1: A Casa tem em torno de 160 contratos para serem analisados.
Contagens:
Palavras e Frequências: A : 7.513, Casa : 5.659, tem : 6.104, em : 7.113, torno : 5.064, de : 7.719, 160 : 0, contratos : 4.685, para : 6.991, serem : 5.245, analisados : 4.677
frequência mínima: 0
Resultado Esperado: 0.0
Resultado Obtido: 0.0

Teste 2: Os partidos estão mais cautelosos.
Contagens:
Palavras e Frequências: Os : 6.92, partidos : 4.814, estão : 5.757, mais : 6.54, cautelosos : 2.932
Frequência mínima: 2.932
Resultado Esperado: 2.932
Resultado Obtido: 2.932
OBS: Exemplos acima apresentados com 3 casas decimais.



Média dos valores das frequências das palavras mais raras das sentenças do texto, na escala logarítmica Zipf, via BrWac (id: 86)


Nome da Métrica: min_freq_brwac

Interpretação: teoricamente, quanto maior a frequência, menor a complexidade da palavra

Descrição da métrica: Média dos valores das frequências das palavras mais raras das sentenças do texto, na escala logarítmica Zipf, que varia do valor 1 a 7, via BrWac

Definição dos termos que aparecem na descrição da métrica: frequência na escala Zipf é calculada como log 10 (frequência normalizada) + 3. A frequência normalizada, ou frequência por milhão, é a frequência original das palavras de um dado corpus multiplicada por 1 milhão, dividida pelo tamanho do corpus. As palavras mais raras são as que têm a menor frequência em comparação com as outras palavras de cada sentença.

Forma de cálculo da métrica: identificam-se todas as palavras no texto, de acordo com sua classe gramatical. Para cada uma delas, procura-se a frequência na lista de frequências do Corpus BrWac, e calcula-se a frequência na escala Zipf. Identificam-se as palavras que apresentam a menor frequência entre as palavras de cada sentença. Somam-se essas frequências mínimas e divide-se o resultado pela quantidade de sentenças do texto. Apresentação com 5 dígitos decimais.

Recursos de PLN utilizados durante o cálculo: PoS tagger nlpnet e lista de frequências do Corpus BrWac. O Corpus BrWac (https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC) foi disponibilizado em Janeiro de 2017 e é composto por 3.53 milhões de documentos da Web, 2.68 bilhões de tokens e 5.79 milhão de types (TTR 0.0021). Os textos do BrWac foram etiquetados pelo tagger nlpnet, que gera uma etiquetação de PoS (part-of-speech).

Limitações da métrica: a precisão da métrica depende do desempenho do tagger e do quanto um corpus de textos da web é representativo da língua geral.

Teste 1: A Casa tem em torno de 160 contratos para serem analisados.
Contagens:
classe gramatical e frequência: A_ART : 7.405, Casa_NPROP : 3.242, tem_V : 6.308, em_PREP : 7.107, torno_PREP : 4.897, de_PREP : 7.651, 160_NUM : 0, contratos_N : 4.734, para_PREP : 7.08, serem_V : 5.253, analisados_PCP : 4.129
frequência mínima: 0
Resultado Esperado: 0.0
Resultado Obtido: 0.0

Teste 2: Os partidos estão mais cautelosos.
Contagens:
classe gramatical e frequência: Os_ART : 6.913, partidos_N : 4.783, estão_V : 5.888, mais_ADV : 6.578, cautelosos_ADJ : 2.969
Frequência mínima: 2.969
Resultado Esperado: 2.969
Resultado Obtido: 2.969




14. Índices de leiturabilidade


Índice de Brunet (id: 196)


Nome da Métrica: brunet

Interpretação: Os valores típicos da métrica variam entre 10 e 20, sendo que um texto mais rico (e complexo) produz valores menores (THOMAS et al., 2005).

Descrição da métrica: Estatística de Brunet é uma forma de type/token ratio menos sensível ao tamanho do texto. Eleva-se o número de types à constante -0,165 e depois eleva-se o número de tokens a esse resultado.

Fórmula: NV-0.165

Definição dos termos que aparecem na descrição da métrica: V é a quantidade de types (considera palavras sem repetições) e N é a quantidade de tokens (considera palavras com repetições).

Limitações da métrica: não há

Teste: O acessório polêmico entrou no projeto, de autoria do senador Cícero Lucena (PSDB-PB), graças a uma emenda aprovada na Comissão de Educação do Senado em outubro. Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 95 tokens e 78 types

Resultado Esperado: 9,199

Resultado Obtido: 9,199



Fórmula Dale Chall adaptada (id: 197)


Nome da Métrica: dalechall_adapted

Interpretação: quanto maior o valor da métrica, maior a complexidade textual

Descrição da métrica: a fórmula de leiturabilidade de Dalechall adaptada combina a quantidade de palavras não familiares com a quantidade média de palavras por sentença:

(0.1579 * percentual de palavras não familiares) + (0.0496 * quantidade média de palavras por sentença) + 3.6365

A métrica tem uma equivalência com os níveis escolares, conforme segue (Chall, Jeanne Sternlicht; Dale, Edgar (May 1, 1995). Readability revisited. ISBN 1571290087):

4,9 ou menos => nível 4 ou abaixo
5,0 a 5,9 => níveis 5 – 6
6,0 a 6,9 => níveis 7 – 8
7,0 a 7,9 => níveis 9 – 10
8,0 a 8,9 => níveis 11 – 12
9,0 a 9,9 => níveis 13 – 15 (universitários)
10 ou mais => nível 16 ou acima (graduados)

Definição dos termos que aparecem na descrição da métrica: "palavras não familiares" são aquelas que não constam do vocabulário básico conhecido por alunos do quarto ano. Para fins dessa métrica, foram utilizadas as entradas do Dicionário de Palavras Simples de Maria Tereza Biderman.

Limitações da métrica: não há

Teste: Não podemos acrescentar nenhuma despesa a mais no nosso orçamento. Já não temos recursos suficientes para a manutenção das escolas, por exemplo, e também precisamos valorizar o magistério - justifica a diretora do Departamento Pedagógico da SEC, Sonia Balzano.

Contagens: 38 palavras, 2 sentenças, média de 19 palavras por sentença, 19 palavras não contidas na lista de palavras simples.

Temos 50% de palavras fora da lista de palavras simples

Resultado Esperado: (0.1579 * 0,5) + (0.0496 * 19) + 3.6365 = 4,658

Resultado Obtido: 4,658



Índice Flesch (id: 198)


Nome da Métrica: flesch

Interpretação: quanto maior o resultado da métrica, menor a complexidade textual.

Descrição da métrica:O Índice de Leiturabilidade de Flesch busca uma correlação entre tamanhos médios de palavras e sentenças.

Fórmula: 248,835 – [1,015 x (média de palavras por sentença)] – [84,6 x (média de sílabas por palavra)]

Definição dos termos que aparecem na descrição da métrica: a média de palavras por sentença é o número total de palavras do texto dividido pelo número de sentenças; a média de sílabas por palavra é o número total de sílabas das palavras do texto dividido pelo número de palavras.

Limitações da métrica: a precisão da métrica depende do desempenho do tokenizador, do sentenciador e do divisor silábico.

Teste: Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: 3 sentenças, 69 palavras, 160 sílabas. Médias: 23 palavras por sentença; 2,31 sílabas por palavra.

Resultado Esperado: 248,835 – [1,015 x (23)] – [84,6 x (2,31)] => 248,835 – [23,345 – 195,43] = 29,316

Resultado Obtido: 29,316



Índice Gunning Fog (id: 199)


Nome da Métrica: gunning_fox

Interpretação: quanto maior a métrica, maior a complexidade

Descrição da métrica: o índice de leiturabilidade Gunning Fog (também conhecido como Gunning FoX) soma a quantidade média de palavras por sentença ao percentual de palavras difíceis no texto e multiplica tudo por 4. O resultado está diretamente ligado aos 12 níveis do ensino americano. Índices superiores a 12 representam textos extremamente complexos.

Definição dos termos que aparecem na descrição da métrica: palavras difíceis, para essa métrica, são aquelas que possuem mais de duas sílabas.

Limitações da métrica: nem sempre as palavras com mais de duas sílabas são difíceis em português (ex: árvore, professor, escola, salada)

Teste: Não podemos acrescentar nenhuma despesa a mais no nosso orçamento. Já não temos recursos suficientes para a manutenção das escolas, por exemplo, e também precisamos valorizar o magistério – justifica a diretora do Departamento Pedagógico da SEC, Sonia Balzano.

Contagens: 19 palavras com 3 ou mais sílabas em 38 palavras e 2 sentenças

Resultado Esperado: (38/2 + 19/38) x 0,4 => 19,5 x 0,4 = 7,8

Resultado Obtido: 7,8



Estatística de Honoré (id: 200)


Nome da Métrica: honore

Interpretação: quanto mais alto o valor, mais rico o texto é lexicalmente, o que está associado a maior complexidade.

Descrição da métrica: a estatística de Honoré é um tipo de type/token ratio que leva em consideração, além da quantidade de types e tokens, a quantidade de hapax legomena.

Fórmula: (100 * log N) / (1 - (V1/V))

Definição dos termos que aparecem na descrição da métrica: N é o número total de tokens (total de palavras no texto, contando as repetições), V1 é o número de hapax legomena (palavras do vocabulário que aparecem uma única vez), e V é o número de types (quantidade de palavras sem considerar suas repetições). Um hapax legomena é um type que só apresenta um token no texto. (HONORÉ, 1979; THOMAS et al., 2005):

Limitações da métrica: não há

Teste: O acessório polêmico entrou no projeto, de autoria do senador Cícero Lucena (PSDB-PB), graças a uma emenda aprovada na Comissão de Educação do Senado em outubro. Foi o senador Flávio Arns (PT-PR) quem sugeriu a inclusão da peça entre os itens do uniforme de alunos dos ensinos Fundamental e Médio nas escolas municipais, estaduais e federais. Ele defende a medida como forma de proteger crianças e adolescentes dos males provocados pelo excesso de exposição aos raios solares. Se a ideia for aprovada, os estudantes receberão dois conjuntos anuais, completados por calçado, meias, calça e camiseta.

Contagens: N= 95 tokens, V1 = 69 hapax legomena, V = 78 types

Resultado Esperado: 100 * log95 / (1-(69/78)) => (100 * 1,97772)/ (1- 0,885) => 197,772/0,115 => 1719,756

Resultado Obtido: 1714,027