Identificação do consumo de dietas obesogênica e diabetogênica a partir de dados do hemograma com Machone Learning: uma abordagem pré-clínica

Carregando...
Imagem de Miniatura

Data

2025-02-19

Título da Revista

ISSN da Revista

Título de Volume

Editor

Resumo

O hemograma é um exame de rotina e geralmente não apresenta alterações significativas nas fases iniciais de doenças metabólicas, nem é utilizado diretamente para avaliar a qualidade dos alimentos ingeridos. Neste estudo, testamos e avaliamos a viabilidade de aplicar algoritmos de Machine Learning (Aprendizado de Máquina) para identificar o tipo de dieta consumida a partir de parâmetros obtidos do hemograma. O estudo foi conduzido em cinco etapas. Inicialmente, utilizamos 7 (sete) algoritmos diferentes de Machine Learning para analisar dados de hemogramas de 44 (quarenta e quatro) animais de laboratório, que foram submetidos a uma dieta padrão com (11%) de gordura ou uma dieta rica em gordura (58%), considerando 14 (quatorze) parâmetros do hemograma. Os resultados iniciais apresentaram uma acurácia de 88% na identificação da dieta. Após o balanceamento do conjunto de dados utilizando a técnica SMOTE (Synthetic Minority Over-sampling Technique), as acurácias atingiram 100%. Em seguida, realizamos a exclusão de algumas variáveis e observamos que o impacto da Glicemia de jejum e PESO variou entre os modelos, afetando principalmente algoritmos como K- vizinho mais próximo KNN, sem comprometer a performance de Regressão Logística RL. A remoção de variáveis como WBC, RBC, HGB, HCT não impactou negativamente os modelos, contribuindo para uma maior simplificação do processo. Para evitar overfitting (sobreajuste), dividimos os dados em conjuntos de treinamento, validação e teste, realizando uma média de 30 (trinta) repetições, e comparamos os modelos utilizando Datasets desbalanceados e balanceados. O Dataset balanceado proporcionou melhorias estatisticamente significativas na métrica de especificidade em grande parte dos modelos e na sensibilidade em alguns casos, conforme indicado pelo t-teste (p-valor ≤ 0,05). Portanto, verificamos que é possível identificar o tipo de dieta com base em apenas oito variáveis. Além disso, ao reduzir o número de variáveis para duas - neutrófilos e linfócitos - associadas a avaliação do processo inflamatório presente na obesidade e diabetes, os modelos ainda mantiveram um bom desempenho, com acurácia superior a 91% e equilíbrio nas cinco métricas analisadas. Toda a análise e o tratamento realizados neste estudo também podem ser considerados uma abordagem relevante para experimentos com pequeno tamanho amostral, um desafio recorrente em pesquisas pré-clínicas devido às restrições éticas e aos altos custos. Os métodos aplicados demonstraram sua capacidade de maximizar o uso dos dados disponíveis, enfrentando desafios como o desequilíbrio de classes e a limitação no número de amostras. Por fim, desenvolvemos um protótipo de aplicação web voltada para pesquisadores da área saúde e biológicas. Concluímos que a aplicação de técnicas de Machine Learning em parâmetros hematológicos obtidos a partir do hemograma pode servir como suporte à tomada de decisão para profissionais de saúde na identificação de padrões alimentares inadequados que possam induzir obesidade e diabetes.

Descrição

184 f.

Palavras-chave

Alimentação, Obesidade, Hemograma, Doenças crônicas não transmissíveis, Mineração de dados, Aprendizado de máquina

Citação