EN PT


0382/2025 - USE OF MACHINE LEARNING TO PREDICT THE CONSUMPTION OF FRUITS AND VEGETABLES IN SMALL AREAS
USO DE MACHINE LEARNING PARA PREDIZER O CONSUMO DE FRUTAS E HORTALIÇAS EM PEQUENAS ÁREAS

Author:

• Crizian Saar Gomes - Gomes, CS - <criziansaar@gmail.com>
ORCID: https://orcid.org/0000-0001-6586-4561

Co-author(s):

• Larissa Fortunato Araújo - Araújo, LF - <larissafortunatoaraujo@gmail.com>
ORCID: https://orcid.org/0000-0001-6695-0365
• Thania Mara Teixeira Rezende Faria - Faria, TMTR - <thaniamfaria@gmail.com>
ORCID: https://orcid.org/0000-0002-4816-6582
• Regina Tomie Ivata Bernal - Bernal, RTI - <reginabernal@terra.com.br>
ORCID: https://orcid.org/0000-0002-7917-3857
• Juliana Bottoni de Souza - Souza, JB - <juliana_bottoni@yahoo.com.br>
ORCID: https://orcid.org/0000-0002-9308-7445
• Samuel Norberto Alves - Alves, SN - <samuelnorbertoalves@ufmg.br>
ORCID: https://orcid.org/0009-0003-3640-9406
• Beatriz Reis Gama Barbosa - Barbosa, BRG - <beatriz.reisgb@gmail.com>
ORCID: https://orcid.org/0009-0004-3211-9433
• Laís Santos de Magalhães Cardoso - Cardoso, LSM - <laissmcardoso@gmail.com>
ORCID: https://orcid.org/0000-0002-1114-5470
• Marcos André Gonçalves - Gonçalves, MA - <magoncalv@gmail.com>
ORCID: https://orcid.org/0000-0002-2075-3363
• Jussara M. Almeida - Almeida, JM - <jussaramarquesdealmeida@gmail.com>
ORCID: https://orcid.org/0000-0001-9142-2919


Abstract:

The aim was to estimate the prevalences and analyze the spatial autocorrelation of the recommended consumption of fruits and vegetables (FV) in small areas of Belo Horizonte. Georeferenced data from 2008 to 2018 from Vigitel in Belo Horizonte, MG, were used. Using hierarchical clustering with the k-means algorithm, nine vulnerability clusters were identified, derived from the Health Vulnerability Index: 2 associated with low (BA-0 and BA-1), 2 with medium (MD-0 and MD-1), 3 with high (EL-0, EL-1, and EL-2), and 2 with very high (ME-0 and ME-1). Prevalences and 95% confidence intervals for the clusters were estimated. The Student's t-test was used to verify significant differences. Spatial autocorrelation was analyzed using the Local Moran's Index. A higher prevalence of FV consumption was observed in the low-risk cluster (BA-1: 40.9%) and lower in the very high-risk cluster (ME-1: 19.9%). Significant differences were identified when analyzing the prevalences between vulnerability clusters. The spatial analysis revealed significant autocorrelation. The segmentation into more homogeneous areas allowed the identification of differences between vulnerability clusters, highlighting poorer FV consumption in higher vulnerability regions, such as those located at the city's outskirts.

Keywords:

Fruits and Vegetables; Health Survey; Small Area Analysis; Machine Learning.

Content:

1. Introdução

A dieta inadequada é considerada um dos principais fatores de risco para mortalidade geral e incapacidades1. Em 2021, foi responsável por 58 óbitos por todas as causas a cada 100 mil habitantes e por 4,5% dos anos de vida ajustados por incapacidade no Brasil2. O baixo consumo de frutas e hortaliças (FH), um dos marcadores de dieta inadequada, está associado a diferentes desfechos negativos em saúde, como diabetes, doença renal, doenças cardiovasculares e neoplasias1.
No Brasil, o consumo destes alimentos tem sido monitorado por meio de grandes inquéritos nacionais, que são importantes para gerar evidências que norteiam as políticas públicas, intervenções e programas de saúde para a prevenção e controle das doenças crônicas não transmissíveis3. Em vista dos modelos de amostragem empregados, esses inquéritos permitem que as prevalências sejam estimadas segundo grandes unidades de análise, como o país, suas regiões e Unidades Federadas, desagregando-se a informação a até, no máximo, as capitais. Embora de extrema importância para as estratégias de vigilância coordenadas pela gestão federal4, a avaliação de desfechos em saúde por grandes unidades de análise perde o grau de detalhamento dos atributos e mascara as desigualdades existentes devido à heterogeneidade nos grandes territórios5.
Nesse sentido, torna-se necessário avançar no conhecimento das distribuições de eventos de saúde em pequenas áreas, a fim de apoiar políticas públicas para redução de desigualdades em saúde, ajudando a identificar tendências e áreas que necessitam de intervenção, além de ajustar as intervenções e programas em saúde considerando os recursos orçamentários e humanos das gestões locais como secretarias municipais, regionais de saúde e unidades de atenção primária à saúde.
Os métodos de estimação em pequenas áreas vêm sendo usados para gerar estimativas mais precisas para níveis mais desagregados, como distritos sanitários, setores censitários e áreas estratificadas por índices socioeconômicos6. No entanto, vários são os desafios para estimar indicadores em saúde em pequenas áreas, com o número amostral reduzido ou a ausência de observações em algumas áreas, principalmente entre as mais vulneráveis5,6.
Estudo anterior realizado em Belo Horizonte com dados do Vigitel de 2006 a 2013, analisou o consumo de FH segundo os 4 níveis do Índice de Vulnerabilidade à Saúde (IVS) e identificou que a prevalência de consumo desses alimentos é maior nas áreas de baixo risco7. O IVS é um indicador composto utilizado para apontar áreas prioritárias para intervenção e alocação de recursos8 a partir da classificação dos setores censitários em níveis de vulnerabilidade socioeconômica. No entanto, devido às diversidades socioeconômicas e à disponibilidade de dados em diferentes regiões da cidade, existe uma alta heterogeneidade dos setores agrupados em um mesmo nível de IVS, especialmente aqueles com maior vulnerabilidade, o que resulta em grande variabilidade das estimativas de prevalência de desfechos agrupadas por nível de IVS. Dessa forma, torna-se necessário avançar em estudos que utilizem áreas mais homogêneas, visando reduzir a variabilidade das estimativas e torná-las mais confiáveis para fins de gestão de saúde pública.
Recentemente, as técnicas de aprendizado de máquina apresentam-se como ferramentas importantes para melhorar a precisão das estimativas dos indicadores de saúde em pequenas áreas, permitindo assim avançar no monitoramento dos fatores de risco e de proteção à saúde, bem como de desfechos de saúde, como as Doenças Crônicas não Transmissíveis (DCNT), tornando mais otimizada e eficiente a vigilância epidemiológica9.
Neste contexto, o objetivo deste estudo é estimar as prevalências e analisar a autocorrelação espacial do consumo recomendado de FH em pequenas áreas de Belo Horizonte, utilizando agrupamentos mais homogêneos do que aqueles oferecidos pelos quatro níveis do IVS comumente empregados na literatura. Destaca-se que a técnica analítica utilizada foi aplicada em Belo Horizonte como um projeto piloto, com potencial para ser replicada em qualquer localidade do Brasil pelas gestões locais, visando melhorar a efetividade da vigilância em saúde, com base nas necessidades e nos recursos disponíveis nas áreas.

METODOLOGIA
Desenho do estudo
Trata-se de estudo ecológico de desenho misto que utilizou dados do Sistema de Vigilância de Fatores de Risco e Proteção para Doenças Crônicas por Inquérito Telefônico (Vigitel) de Belo Horizonte, MG, dos anos de 2008 a 2018.
Belo Horizonte, capital do Estado de Minas Gerais, possuía uma população de 2.375.151 no ano de 201010, 9 Centros Regionais de Saúde, também conhecidos como Distritos Sanitários, abrangendo 487 bairros e uma extensão territorial de 330,9 km.
O Vigitel é um inquérito telefônico de base populacional, realizado anualmente pelo Ministério da Saúde que coleta informações sobre as Doenças Crônicas não Transmissíveis (DCNT) e os principais fatores de risco e de proteção para essas doenças. De 2008 a 2018, os procedimentos de amostragem empregados pelo Vigitel visavam obter, em cada uma das 26 capitais dos estados brasileiros e no Distrito Federal, amostras probabilísticas da população de adultos (?18 anos de idade) que residiam em domicílios servidos por, pelo menos uma linha telefônica fixa. Nas edições realizadas entre 2008 e 2018, estabeleceu-se um tamanho amostral mínimo de cerca de 2 mil indivíduos em cada cidade. Mais informações sobre o Vigitel podem ser acessadas em outras publicações11.
Para o presente estudo, a base de dados do Vigitel de Belo Horizonte foi georreferenciada utilizando os endereços dos entrevistados. A partir das amostras anuais, que incluem informações completas de endereço e telefone de cada participante, foi possível incluir o setor censitário em que cada participante pertencia por meio de um linkage com o Cadastro Nacional de Endereços para Fins Estatísticos (CNEFE) do Censo 2010. Entre 2008 e 2018 foram entrevistados 19.041 indivíduos em Belo Horizonte, dos quais 17.905 compuseram a população de estudo por apresentarem informações completas de endereço, o que permitiu o georreferenciamento.

Consumo recomendado de Frutas e Hortaliças (FH)
As informações sobre o consumo de FH tratam-se de dados secundários obtidos pela pesquisa Vigitel, por meio de um questionário de frequência alimentar no qual o indivíduo respondeu às seguintes perguntas: “Em quantos dias da semana, o(a) Sr.(a) costuma comer salada de alface e tomate ou salada de qualquer outra verdura ou legume cru?” e “Em quantos dias da semana o(a) Sr.(a) costuma comer verdura ou legume cozido com a comida ou na sopa, por exemplo, couve, cenoura, chuchu, berinjela, abobrinha, sem contar batata, mandioca ou inhame?” E para ambas as perguntas, também questionado se o consumo era no almoço, no jantar ou no almoço e no jantar. Adicionalmente era questionado sobre o consumo de frutas, sendo “Num dia comum, quantas vezes o(a) Sr.(a) come frutas?” e “Num dia comum, quantas copos o(a) Sr.(a) toma suco de frutas natural?”. Devido à dificuldade em se transmitir aos entrevistados o conceito de porções de alimentos, considerou-se o consumo de uma fruta ou de um suco de fruta como equivalente a uma porção, limitando-se em três o número máximo de porções diárias computado para frutas, e em um o número máximo computado para sucos. Para as hortaliças, computou-se um número máximo de quatro porções diárias, situação que caracteriza indivíduos que informam o hábito de consumir saladas de hortaliças cruas, no almoço e no jantar, e verduras e legumes cozidos, também no almoço e no jantar. Considerou-se consumo recomendado de FH quando o indivíduo referiu o consumo desses alimentos em pelo menos cinco dias da semana e quando a soma das porções consumidas diariamente desses alimentos totalizava pelo menos cinco11.

Análise Estatística
A fim de reduzir a variabilidade interna do IVS original, utilizou-se como “pequenas áreas” os clusters de vulnerabilidade, derivados do IVS. O IVS é um indicador composto que associa variáveis socioeconômicas e ambientais em um mesmo indicador e permite a análise das características de grupos populacionais residentes nos setores censitários e evidencia as desigualdades de grupos sociais distintos. O IVS de Belo Horizonte inclui variáveis disponíveis no Censo. Segundo os dados Censo 2010, Belo Horizonte tinha 3.830 setores censitários, esses setores foram originalmente agrupados segundo o IVS em quatro grupos de risco à saúde denominados de baixo (1.330 setores), médio (1.460 setores), alto (737 setores) e muito alto (303 setores)8. Algumas informações sociodemográficas dos grupos de IVS podem ser consultadas em publicação anterior?
Para obtenção dos clusters de vulnerabilidade, foi aplicado um algoritmo de aprendizado não supervisionado, sabidamente o algoritmo de agrupamento (clustering) k-means 12, de forma hierárquica. Em outras palavras, o k-means foi aplicado sobre os setores originalmente associados a um mesmo nível de IVS, visando identificar subgrupos (clusters) mais homogêneos. Para cada execução do k-means, o coeficiente de Silhueta12 foi utilizado para determinar o número ótimo de clusters para cada nível de IVS. O Coeficiente de Silhueta12 é uma métrica de qualidade de algoritmos de agrupamento que quantifica a coerência dos clusters identificados, em termos tanto da coesão interna dos itens (setores) associados a um mesmo cluster quanto da separação entre clusters.
Após a execução do k-means nos setores associados a cada um dos 4 IVS originais, foram identificados nove clusters de vulnerabilidade, a saber: dois associados ao nível de mais baixa vulnerabilidade (BA-0 e BA-1), dois associados à média vulnerabilidade (MD-0 e MD-1), três associados à elevada vulnerabilidade (EL-0, EL-1, EL-2) e dois à muito elevada (ME-0, ME-1) (Figura 1).
Como mostrado em Alves (2024)13, a identificação dos clusters pelo k-means possibilitou identificar setores muito heterogêneos associados a um mesmo IVS e separá-los em clusters distintos.
As prevalências dos desfechos e os respectivos intervalos de confiança de 95% (IC95%) foram calculados para Belo Horizonte, para o IVS original e para cada cluster de vulnerabilidade utilizando método direto para estimativa em pequenas áreas, que considera as variáveis do desenho da amostra. Para avaliar as diferenças do consumo recomendado de FH entre os clusters utilizou-se o Teste t de Student, sendo considerado nível de significância de 5%.
Para investigar as relações espaciais entre clusters foi realizado o I de Moran Local, sendo considerado um p < 0,05 para definir significância estatística. Cada cluster recebe um valor que indica a força e o tipo de associação espacial com seus vizinhos. Esse valor pode ser positivo, indicando clusters de valores semelhantes, ou negativo, indicando valores diferentes entre os clusters e seus vizinhos. Classificados em: Alto-Alto (AA): Clusters com altos valores de prevalências cercados por clusters com altos valores; Baixo-Baixo (BB): Cluster com baixos valores de prevalências cercados por clusters com baixos valores; Alto-Baixo (AB): Clusters com altos valores de prevalências cercadas por clusters com baixos valores; e Baixo-Alto (BA): Clusters com baixos valores de prevalências cercadas por clusters com altos valores14.
Questões éticas
Este estudo foi aprovado pelo Comitê de Ética em Pesquisa da Universidade Federal de Minas Gerais sob parecer nº 6.538.883.
As bases de dados utilizadas para a realização deste estudo foram disponibilizadas pelo Ministério da Saúde e, devido à natureza sensível de algumas informações — como o endereço dos indivíduos —, são armazenadas em um centro de dados com altos níveis de segurança física e virtual, sob a responsabilidade da Universidade Federal de Minas Gerais (UFMG). Esse centro de dados dispõe de elevada capacidade computacional e adota rigorosos padrões de governança e ética, com o objetivo de preservar a confidencialidade das informações, manter e atualizar as bases de dados de forma segura e garantir que o processamento dos dados impeça qualquer possibilidade de identificação individual. Dessa forma, as bases de dados não estão disponíveis para acesso público.
Resultados
A tabela 1 apresenta as prevalências do consumo recomendado de FH para Belo Horizonte, segundo os 4 níveis de IVS e 9 clusters de vulnerabilidade. Observa-se maior prevalência do consumo recomendado de FH em um cluster de baixo risco (BA-1:40,9; IC95%: 8,5 - 43,2) e menor prevalências em um cluster de muito elevado risco (ME-1: 19,9; IC95%: 16,4 – 23,9). Adicionalmente, verifica-se uma heterogeneidade nas estimativas de acordo com a granulação da análise, uma vez que a prevalência do consumo recomendado de FH de Belo Horizonte (28,9%; IC95%: 28,1 – 29,7) é bem inferior à estimada para o IVS Baixo (36,0%; IC95%: 34,6-37,4) e ainda para o cluster BA-1 (40,9%; IC95% 38,5-43,2) e, também, muito superior à estimada para o IVS muito elevado (20,6%; IC95%:17,6 e 23,9) e para o cluster ME-1 (19,9%; IC95%:16,4-23,9).
Ao analisar as prevalências entre os clusters de vulnerabilidade, é possível identificar diferenças que antes eram mascaradas pelo uso de resultados agregados em unidades geográficas maiores. Ou seja, observam-se diferenças estatisticamente significativas (p-valor<0,05) entre as prevalências dos clusters: BA-0 (33%; IC95%: 31,2-34,8) e BA-1 (40,9%; IC95%: 38,5-43,2); MD-0 (29,5%; IC95: 27,7-31,4) e MD-1 (25,7%; IC95%: 24,2-27,3); EL-0 (21,8%; IC95%:18,8-25,1) e EL-2 (26,9%; IC95%:24,4- 29,5); e EL-1 (20,7%;IC95%: 16,8 – 25,3) e EL-2 (26,9%; IC95%:24,4- 29,5). Por outro lado, não foram observadas diferenças entre as prevalências dos clusters ME-0 e ME-1, o que aponta para a homogeneidade entre eles (Tabela 1).
A análise de dependência espacial indicou a existência de autocorrelação estatisticamente significante (I de Moran Local univariado = 0,752, p-valor?0,05) e de agrupamentos espaciais hot spots do tipo “alto-alto” e “baixo-baixo” (p?0.05), que sugeriram maior concentração de baixas prevalências de consumo de FH nos locais mais periféricos da cidade e maiores prevalências nas regiões centrais. Embora seja possível observar cold spots em que há locais de baixas prevalências com vizinhos predominantes de altas prevalências (baixo-alto) e também locais de altas prevalências em vizinhanças majoritárias de baixas prevalências (alto-baixo) do consumo recomendado de FH (Figura 2).
4. Discussão
Nosso estudo foi pioneiro ao aplicar técnicas de aprendizado de máquina não supervisionado, especificamente o algoritmo de agrupamento K-means, para identificar clusters mais homogêneos e gerar estimativas mais precisas da prevalência do consumo recomendado de FH em Belo Horizonte (MG). Observou-se que as maiores prevalências de consumo de FH estavam nos dois clusters de menor vulnerabilidade (BA-0 e BA-1), em comparação com os demais. Por outro lado, o consumo de FH foi menor nas áreas de maior vulnerabilidade, especialmente nas localizadas nas extremidades periféricas da cidade. A utilização de áreas mais homogêneas revelou diferenças entre quase todos os clusters de vulnerabilidade (com exceção dos de ME-0 e ME-1) que estavam ocultas quando se usavam resultados agregados em unidades geográficas maiores, como o IVS. Adicionalmente, observamos padrões de autocorrelação que sugerem que os níveis semelhantes das prevalências do consumo recomendado de FH tendem a se agrupar espacialmente.
O aumento do consumo de FH está contemplado no Plano Nacional para o Enfrentamento das Doenças e Agravos Não Transmissíveis, proposto pelo Ministério da Saúde, o qual estabelece uma meta de crescimento anual de 2,73% na prevalência do consumo recomendado de FH, com o objetivo de alcançar um aumento total de 30% no período de 2021 a 20304. Esse esforço também está alinhado aos Objetivos de Desenvolvimento Sustentável (ODS) da Agenda 2030, especialmente ao ODS 2, que visa garantir a segurança alimentar e promover a agricultura sustentável15.
Os dados do VIGITEL indicam que, entre 2008 e 2023, a prevalência média do consumo recomendado de frutas e hortaliças nas capitais brasileiras variou entre 20% e 22%. Não foi observado um crescimento estatisticamente significativo, caracterizando uma estabilidade na prevalência ao longo desse período16. Adicionalmente, ao analisar consumo recomendado de FH entre as regiões brasileiras e Estados, entre 2019 e 2021, discrepâncias regionais e sociais são expressas. Maiores prevalências são observadas nas regiões Sul, Sudeste e Centro-Oeste, e menores prevalências nas regiões Norte e Nordeste4. O presente estudo evidencia que o consumo de FH está diretamente relacionado às desigualdades sociais, com áreas de maior vulnerabilidade social apresentando menores prevalências de consumo desses alimentos. Esses resultados são consistentes com outros estudos17–19 realizados em Belo Horizonte. Diversos fatores podem explicar as menores prevalências de consumo de FH em áreas mais vulneráveis, como a menor disponibilidade desses alimentos nessas regiões; a dificuldade de acesso aos pontos de vendas devido à falta de transportes públicos; menor poder aquisitivo das famílias, o que limita o comércio local e reduz a disponibilidade de estabelecimentos que comercializam alimentos frescos e saudáveis; a escassez de políticas públicas voltadas para a promoção de hábitos alimentares saudáveis entre as famílias mais pobres; o elevado custo de alimentos ricos em micronutrientes, como frutas, legumes e verduras, em contraste com a elevada oferta de alimentos industrializados, que têm maior densidade calórica e menor valor nutricional, mas são mais acessíveis em termos de preço20–22.
A estimativa de indicadores em pequenas áreas surge como uma ferramenta poderosa para aprimorar a vigilância em saúde, pois permite o planejamento, diagnóstico e tomada de decisões em níveis de menor granularidade. Nesse contexto, a utilização de clusters, que reduzem a heterogeneidade presente nos quatro níveis originais do IVS, pode contribuir significativamente para a análise e o planejamento de políticas, intervenções e programas de saúde. Ou seja, o uso desses clusters facilita a identificação das necessidades específicas de cada setor censitário, permitindo que os gestores proponham estratégias direcionadas e adaptadas a cada grupo. Por exemplo, dentro do IVS elevado, onde a prevalência de consumo de FH é de 24,5%, foram identificados três clusters, com prevalências variando de 20,7% no EL-1 até 26,9% no EL-2. Embora seja necessário aumentar a prevalência do consumo de FH em todo o território de IVS elevado, em decorrência de uma possível limitação de recursos financeiros, humanos e estruturais, uma solução seria priorizar as ações nos territórios que compõem o cluster EL-1. E com a ampliação dos recursos estratégicos, posteriormente expandidas para os clusters EL-0 e EL-2, tornando mais eficiente a gestão dos recursos em prol do aumento do consumo recomendado de FH em todo território de IVS elevado.
Além disso, os resultados da autocorrelação espacial indicam que existe uma autocorrelação espacial entre as localidades de alta prevalência e também entre as de baixa prevalência. Contudo, como gestor de saúde, é essencial não apenas identificar as regiões com menores prevalências do consumo recomendado de FH, mas também estar atento às localidades de baixa prevalência que estão cercadas por áreas com alta prevalência, pois isso pode facilitar a implementação e coordenação de ações direcionadas ao aumento do consumo de FH nessas regiões de baixa prevalência. Da mesma forma, as localidades de alta prevalência, quando situadas em vizinhanças majoritárias de baixa prevalência, devem ser utilizadas como modelo para expandir os mecanismos que viabilizam o maior consumo de FH para outras áreas com menor consumo.
Algumas políticas públicas em âmbito federal, como o aumento da taxação sobre alimentos altamente processados, como bebidas açucaradas, podem incentivar a população a optar por alimentos frescos como uma alternativa mais acessível23 . No entanto, é crucial implementar estratégias específicas no nível local para aumentar o consumo de FH , tais como: 1) Programas de subsídio: Criar iniciativas que tornem frutas e hortaliças mais acessíveis a pessoas em situação de vulnerabilidade, como vouchers alimentares ou descontos em mercados locais. 2) Educação nutricional: Promover programas de educação nutricional em comunidades vulneráveis para aumentar a conscientização sobre a importância das frutas e hortaliças e ensinar formas práticas de incorporá-las na dieta diária. 3) Incentivo a hortas comunitárias e urbanas: Apoiar e incentivar a criação de hortas comunitárias e urbanas, que podem promover a produção local e melhorar o acesso a alimentos frescos. 4) Parcerias entre governo, ONGs e setor privado: Estabelecer parcerias entre governos, ONGs e empresas privadas para fortalecer a rede de apoio, facilitando o acesso a frutas e hortaliças em áreas vulneráveis. Empresas de alimentos, por exemplo, podem colaborar com programas governamentais para fornecer produtos frescos a preços reduzidos ou realizar doações para bancos de alimentos. 5) Feiras locais: Incentivar a criação e participação em feiras locais, que não só melhoram o acesso a alimentos frescos, mas também promovem a agricultura familiar, conectando produtores locais com consumidores e fortalecendo a economia local.
Os resultados do presente estudo destacam a importância de adotar estratégias mais eficazes para reduzir desigualdades socioeconômicas visto que estas têm um impacto direto no acesso e no consumo de FH, afetando negativamente a saúde e a qualidade de vida das populações mais vulneráveis. Para Belo Horizonte, isso representa um avanço significativo no enfrentamento das doenças crônicas e no aprofundamento do conhecimento epidemiológico dos territórios vinculados à Atenção Primária à Saúde.
No entanto, o presente estudo apresenta algumas limitações inerentes ao desenho do Vigitel. Primeiramente, a utilização do questionário de frequência alimentar pode introduzir o viés de aferição da dieta habitual, uma vez que a memória do entrevistado pode falhar, levando à superestimação ou subestimação do consumo alimentar. Em segundo lugar, o Vigitel é realizado com adultos residentes nas capitais dos estados brasileiros e no Distrito Federal, com domicílios que possuem telefone fixo, o que pode representar um risco para a representatividade da amostra. No entanto, essa limitação é minimizada pelo uso de fatores de ponderação dos dados. Adicionalmente, como o Vigitel abrange pessoas com pelo menos uma linha telefônica fixa, o tamanho da amostra é reduzido nas áreas mais vulneráveis, o que pode resultar em estimativas com maior margem de erro, especialmente em análises com menores níveis de granulação. Portanto, é necessário realizar novos estudos que envolvam a geração de populações sintéticas para imputar os dados faltantes e melhorar a precisão das estimativas.
Os nove clusters de vulnerabilidade social identificados neste estudo são ferramentas essenciais para compreender as desigualdades no consumo de frutas e hortaliças e suas implicações para a saúde pública. A análise dessas desigualdades demanda uma abordagem integrada, que una políticas públicas, programas de apoio e iniciativas comunitárias. Ao superar as barreiras socioeconômicas e promover o acesso a alimentos saudáveis, é possível melhorar a qualidade de vida das populações vulneráveis e contribuir para a construção de um sistema alimentar mais justo e inclusivo.
Em conclusão, os resultados indicaram uma maior prevalência do consumo de FH no cluster de baixo risco e uma menor prevalência no cluster de muito elevado risco. As estimativas variaram conforme o nível de granulação da análise, evidenciando que, ao desagregar os dados, foi possível identificar diferenças entre os clusters de vulnerabilidade, que se ocultavam quando se utilizavam resultados agregados em unidades geográficas mais amplas, como as quatro classes originais do IVS. A análise espacial revelou a existência de autocorrelação significativa, o que sugere que as prevalências do consumo de FH apresentam padrões espaciais que podem estar relacionados a fatores socioambientais e culturais específicos. Esses achados ressaltam a importância de considerar a granularidade espacial na análise de dados de saúde, para uma compreensão mais precisa das desigualdades e da distribuição do consumo de alimentos saudáveis em diferentes contextos de vulnerabilidade dentro de um mesmo território.

Financiamento:
Este estudo foi financiado com os seguintes recursos: 1) Centro de Inovação e Inteligência Artificial para Saúde (CI-IA Saúde), que recebe recursos da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) Processo nº 2020/09866-4, da Fundação de Amparo à Pesquisa de Minas Gerais (FAPEMIG) Processo nº PPE-00030-21 e da UNIMED Belo Horizonte; 2) CNPq e Decit/SECTICS/MS (chamada 21/2023); 3) Ministério da Saúde/Fundo Nacional de Saúde (TED 67/2023); 3) Fapemig chamada B01/2025 (APQ 02385-25); 4)Ministério da Saúde/Fundo Nacional de Saúde (TED Nº 114/2024 - "Núcleo de Inteligência Artificial para Saúde - NIAR-Saúde - UFMG")

Agradecimentos

Crizian Saar Gomes agradece a Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) pela bolsa recebida (processo nº 2024/07524-0).

Thania Mara Teixeira Rezende Faria foi apoiada pela Fundação Brasileira de Aperfeiçoamento do Ensino Superior durante um programa de doutorado sanduíche processo CAPES-PRINT nº 88887.935773/2024-00.

Juliana Bottoni de Souza agradece ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPQ) pela bolsa recebida (Processo nº150507/2023-2).
Deborah Carvalho Malta agradeçe ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPQ) pela bolsa recebida (CNPQ 0–0202/771013).

5. REFERÊNCIAS
1. Malta DC, Gomes CS, Veloso GA, Felisbino-Mendes MS, Brant LCC, Teixeira RA, et al. Burden of disease attributable to risk factors: Estimates of the Global Burden of Disease from 1990 to 2021. Public Health [Internet]. 1o de dezembro de 2024 [citado 30 de janeiro de 2025];237:387–96. Disponível em: https://pubmed.ncbi.nlm.nih.gov/39520735/
2. Institute for Health Metrics and Evaluation. Institute for Health Metrics and Evaluation. 2021 [citado 30 de janeiro de 2025]. VizHub - GBD Compare. Disponível em: https://vizhub.healthdata.org/gbd-compare/
3. Malta DC, Da Silva MMA, de Moura L, de Morais Neto OL. A implantação do Sistema de Vigilância de Doenças Crônicas Não Transmissíveis no Brasil, 2003 a 2015: alcances e desafios. Revista Brasileira de Epidemiologia [Internet]. 1o de outubro de 2017 [citado 26 de janeiro de 2025];20(4):661–75. Disponível em: https://www.scielo.br/j/rbepid/a/T3kFzmg5dpG3wNjF4hSF4Dm/
4. Brasil. Ministério da Saúde. Secretaria de Vigilância em Saúde. Departamento de Análise em Saúde e Vigilância de Doenças Não Transmissíveis. Plano de Ações Estratégicas para o Enfrentamento das Doenças Crônicas e Agravos não Transmissíveis no Brasil 2021-2030. Em Brasília: Ministério da Saúde, Secretaria de Vigilância em Saúde, Departamento de Análise em Saúde e Vigilância de Doenças Não Transmissíveis. –; 2021. p. 118. Disponível em: www.saude.gov.br
5. Bernal RTI, De Carvalho QH, Pell JP, Leyland AH, Dundas R, Barreto ML, et al. A methodology for small area prevalence estimation based on survey data. Int J Equity Health [Internet]. 31 de julho de 2020 [citado 30 de janeiro de 2025];19(1):1–10. Disponível em: https://equityhealthj.biomedcentral.com/articles/10.1186/s12939-020-01220-5
6. Kong AY, Zhang X. The Use of Small Area Estimates in Place-Based Health Research. Am J Public Health [Internet]. 1o de junho de 2020 [citado 26 de janeiro de 2025];110(6):829–32. Disponível em: https://pubmed.ncbi.nlm.nih.gov/32298183/
7. Cardoso LS de M, Gomes CS, Moreira AD, Bernal RTI, Ribeiro ALP, Malta DC. Fruit and vegetable consumption, leisure-time physical activity and binge drinking in Belo Horizonte, Brazil, according to the health vulnerability index. Revista Brasileira de Epidemiologia. 2021;24.
8. Pitchon A, Girodo AM, Gomes CC, Gomes DHP, Pimenta Júnior FG, Freire F, et al. Índice de Vulnerabilidade da Saúde 2012 [Internet]. Belo Horizonte: Prefeitura Municipal de Belo Horizonte; 2013 [cited 2024 May 29]. Available from: https://prefeitura.pbh.gov.br/sites/default/files/estrutura-degoverno/saude/2018/publicacaoes-da-vigilancia-emsaude/indice_vulnerabilidade2012.pdf
9. Delpino FM, Costa K, Farias SR, Chiavegatto Filho ADP, Arcêncio RA, Nunes BP. Machine learning for predicting chronic diseases: a systematic review. Public Health [Internet]. 1o de abril de 2022 [citado 26 de janeiro de 2025];205:14–25. Disponível em: https://pubmed.ncbi.nlm.nih.gov/35219838/
10. IBGE - Instituto Brasileiro de Geografia e Estatística. Censo Brasileiro de 2010 [Internet]. Rio de Janeiro: IBGE; 2010 [citado 28 de janeiro de 2025]. Disponível em: https://censo2010.ibge.gov.br/sinopse/index.php?uf=31
11. Brasil. Ministério da Saúde. Secretaria de Vigilância em Saúde. Departamento de Análise em Saúde e Vigilância de Doenças não Transmissíveis. Vigitel Brasil 2018: vigilância de fatores de risco e proteção para doenças crônicas por inquérito telefônico?: estimativas sobre frequência e distribuição sociodemográfica de fatores de risco e proteção para doenças crônicas nas capitais dos 26 estados brasileiros e no Distrito Federal em 2018 [Internet]. Brasília; 2019. Disponível em: http://bvsms.saude.gov.br/bvs/publicacoes/vigitel_brasil_2018
12. Zaki MJ, Meira, Jr W. Data Mining and Analysis. Data Mining and Analysis. 12 de maio de 2014;
13. Alves SN, Barbosa B, Faria TM, Vasconcelos MA, Gonçalves MA, Almeida JM, et al. Agrupamento Hierárquico de Setores Censitários para Estimativas mais Precisas de Riscos à Saúde em Pequenas Áreas [Internet]. Belo Horizonte: In: Anais do II Simpósio CI-IA Saúde da UFMG; 2024 [citado 26 de janeiro de 2025]. Disponível em: https://www.researchgate.net/publication/387690580_Agrupamento_Hierarquico_de_Setores_Censitarios_para_Estimativas_mais_Precisas_de_Riscos_a_Saude_em_Pequenas_Areas
14. Anselin L, Syabri I, Kho Y. GeoDa: An Introduction to Spatial Data Analysis. Geogr Anal. 1o de janeiro de 2006;38:5–22.
15. Nações Unidas Brasil. Nações Unidas Brasil. 2025 [citado 28 de janeiro de 2025]. Sustainable Development Goal 2: Fome zero e agricultura sustentável | As Nações Unidas no Brasil. Disponível em: https://brasil.un.org/pt-br/sdgs/2
16. Brasil. Ministério da Saúde. Ministério da Saúde. [citado 30 de janeiro de 2025]. Vigitel. Disponível em: https://svs.aids.gov.br/rstudio/vigitel/vigitel.Rmd
17. Cardoso LS de M, Gomes CS, Moreira AD, Bernal RTI, Ribeiro ALP, Malta DC. Consumo de frutas e hortaliças, prática de atividade física no tempo livre e consumo abusivo de bebida alcoólica em Belo Horizonte, Brasil, segundo Índice de Vulnerabilidade à Saúde. Revista Brasileira de Epidemiologia [Internet]. 16 de abril de 2021 [citado 26 de janeiro de 2025];24:e210013. Disponível em: https://www.scielo.br/j/rbepid/a/4Df8RCzfq3s9DGpxmRSdnxD/?lang=pt
18. Augusto NA, Jaime PC, Loch MR. Espaço geográfico urbano e consumo de frutas e hortaliças: Pesquisa Nacional de Saúde 2013. Cien Saude Colet [Internet]. 22 de abril de 2022 [citado 26 de janeiro de 2025];27(4):1491–502. Disponível em: https://www.scielo.br/j/csc/a/yCZhdngbMPwwLxqWq8ZZBwn/abstract/?lang=pt
19. Malta DC, Bernal RIT, de Mattos Almeida MC, Ishitani LH, Girodo AM, Paixão LMMM, et al. Inequities in intraurban areas in the distribution of risk factors for non communicable diseases, Belo Horizonte, 2010. Revista Brasileira de Epidemiologia. 1o de julho de 2014;17(3):629–41.
20. Tester JM, Rosas LG, Leung CW. Food Insecurity and Pediatric Obesity: a Double Whammy in the Era of COVID-19. Curr Obes Rep [Internet]. 1o de dezembro de 2020 [citado 26 de janeiro de 2025];9(4):442–50. Disponível em: https://pubmed.ncbi.nlm.nih.gov/33064269/
21. Claro RM, Maia EG, de Lima Costa BV, Diniz DP. Preço dos alimentos no Brasil: prefira preparações culinárias a alimentos ultraprocessados. Cad Saude Publica [Internet]. 29 de agosto de 2016 [citado 26 de janeiro de 2025];32(8):e00104715. Disponível em: https://www.scielo.br/j/csp/a/ZFnnYXybrMfLXMTL7dthckw
22. UNICEF Brasil. Estudo inédito do UNICEF aponta alto consumo de alimentos ultraprocessados em lares atendidos pelo Bolsa Família [Internet]. 2021 [citado 26 de janeiro de 2025]. Disponível em: https://www.unicef.org/brazil/comunicados-de-imprensa/estudo-inedito-do-unicef-aponta-alto-consumo-de-alimentos-ultraprocessados-em-lares-atendidos-pelo-bolsa-familia
23. Venson AH, Cardoso LB, Santiago FS, de Souza KB, Bielemann RM. Price elasticity of demand for ready-to-drink sugar-sweetened beverages in Brazil. PLoS ONE [2023]18(11): e0293413.


Other languages:







How to

Cite

Gomes, CS, Araújo, LF, Faria, TMTR, Bernal, RTI, Souza, JB, Alves, SN, Barbosa, BRG, Cardoso, LSM, Gonçalves, MA, Almeida, JM. USE OF MACHINE LEARNING TO PREDICT THE CONSUMPTION OF FRUITS AND VEGETABLES IN SMALL AREAS. Cien Saude Colet [periódico na internet] (2025/Nov). [Citado em 05/12/2025]. Está disponível em: http://www.cienciaesaudecoletiva.com.br/en/articles/use-of-machine-learning-to-predict-the-consumption-of-fruits-and-vegetables-in-small-areas/19858



Execution



Sponsors