Identificação do consumo de dietas obesogênica e diabetogênica a partir de dados do hemograma com Machone Learning: uma abordagem pré-clínica
Carregando...
Data
2025-02-19
Autores
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
O hemograma é um exame de rotina e geralmente não apresenta alterações
significativas nas fases iniciais de doenças metabólicas,
nem é utilizado diretamente para avaliar a qualidade dos alimentos
ingeridos. Neste estudo, testamos e avaliamos a viabilidade
de aplicar algoritmos de Machine Learning (Aprendizado de Máquina)
para identificar o tipo de dieta consumida a partir de parâmetros obtidos
do hemograma. O estudo foi conduzido em cinco etapas. Inicialmente,
utilizamos 7 (sete) algoritmos diferentes de Machine Learning para analisar
dados de hemogramas de 44 (quarenta e quatro) animais de laboratório,
que foram submetidos a uma dieta padrão com (11%) de gordura ou uma
dieta rica em gordura (58%), considerando 14 (quatorze) parâmetros do hemograma.
Os resultados iniciais apresentaram uma acurácia de 88% na
identificação da dieta. Após o balanceamento do conjunto de dados utilizando
a técnica SMOTE (Synthetic Minority Over-sampling Technique),
as acurácias atingiram 100%. Em seguida, realizamos a exclusão de algumas
variáveis e observamos que o impacto da Glicemia de jejum e PESO
variou entre os modelos, afetando principalmente algoritmos como K- vizinho
mais próximo KNN, sem comprometer a performance de Regressão
Logística RL. A remoção de variáveis como WBC, RBC, HGB, HCT não
impactou negativamente os modelos, contribuindo para uma maior simplificação
do processo. Para evitar overfitting (sobreajuste), dividimos os
dados em conjuntos de treinamento, validação e teste, realizando uma média
de 30 (trinta) repetições, e comparamos os modelos utilizando Datasets
desbalanceados e balanceados. O Dataset balanceado proporcionou melhorias
estatisticamente significativas na métrica de especificidade em grande
parte dos modelos e na sensibilidade em alguns casos, conforme indicado pelo t-teste (p-valor ≤ 0,05). Portanto, verificamos que é possível identificar
o tipo de dieta com base em apenas oito variáveis. Além disso, ao reduzir
o número de variáveis para duas - neutrófilos e linfócitos - associadas a avaliação
do processo inflamatório presente na obesidade e diabetes, os modelos
ainda mantiveram um bom desempenho, com acurácia superior a 91% e
equilíbrio nas cinco métricas analisadas. Toda a análise e o tratamento realizados
neste estudo também podem ser considerados uma abordagem
relevante para experimentos com pequeno tamanho amostral, um desafio recorrente
em pesquisas pré-clínicas devido às restrições éticas e aos altos
custos. Os métodos aplicados demonstraram sua capacidade de maximizar
o uso dos dados disponíveis, enfrentando desafios como o desequilíbrio
de classes e a limitação no número de amostras. Por fim, desenvolvemos um
protótipo de aplicação web voltada para pesquisadores da área saúde e biológicas.
Concluímos que a aplicação de técnicas de Machine Learning em
parâmetros hematológicos obtidos a partir do hemograma pode servir como
suporte à tomada de decisão para profissionais de saúde na identificação de
padrões alimentares inadequados que possam induzir obesidade e diabetes.
Descrição
184 f.
Palavras-chave
Alimentação, Obesidade, Hemograma, Doenças crônicas não transmissíveis, Mineração de dados, Aprendizado de máquina