banner
Lar / Notícias / Combinando aprendizado de máquina com modelos de Cox para identificar preditores para pós-incidente
Notícias

Combinando aprendizado de máquina com modelos de Cox para identificar preditores para pós-incidente

May 20, 2023May 20, 2023

Scientific Reports volume 13, Número do artigo: 9221 (2023) Citar este artigo

Detalhes das métricas

Nosso objetivo foi identificar novos preditores potenciais para câncer de mama entre mulheres na pós-menopausa, com interesse pré-especificado no papel dos escores de risco poligênico (PRS) para a predição de risco. Utilizamos um pipeline de análise em que o aprendizado de máquina foi usado para seleção de recursos, antes da previsão de risco por modelos estatísticos clássicos. Uma máquina "extreme gradient boosting" (XGBoost) com medidas de importância de recursos de Shapley foi usada para seleção de recursos entre \(\aprox\) 1,7 k recursos em 104.313 mulheres na pós-menopausa do UK Biobank. Construímos e comparamos o modelo Cox "aumentado" (incorporando os dois PRS, preditores conhecidos e novos) com um modelo Cox "base" (incorporando os dois PRS e preditores conhecidos) para previsão de risco. Ambos os PRS foram significativos no modelo de Cox aumentado (\(p<0,001\)). O XGBoost identificou 10 novas características, entre as quais cinco mostraram associações significativas com o câncer de mama pós-menopausa: ureia plasmática (HR = 0,95, 95% CI 0,92–0,98, \(p<0,001\)), fosfato plasmático (HR = 0,68, 95 % CI 0,53–0,88, \(p=0,003\)), taxa metabólica basal (HR = 1,17, 95% CI 1,11–1,24, \(p<0,001\)), contagem de glóbulos vermelhos (HR = 1,21, 95% CI 1,08–1,35, \(p<0,001\)) e creatinina na urina (HR = 1,05, 95% CI 1,01–1,09, \(p=0,006\)). A discriminação de risco foi mantida no modelo de Cox aumentado, resultando em índice C de 0,673 vs 0,667 (modelo de base de Cox) com os dados de treinamento e 0,665 vs 0,664 com os dados de teste. Identificamos biomarcadores de sangue/urina como potenciais novos preditores para câncer de mama pós-menopausa. Nossas descobertas fornecem novos insights sobre o risco de câncer de mama. Pesquisas futuras devem validar novos preditores, investigar o uso de múltiplos PRS e medidas antropométricas mais precisas para uma melhor previsão do risco de câncer de mama.

O câncer de mama é o câncer mais comum entre as mulheres, com 2,3 milhões de mulheres diagnosticadas com câncer de mama em 20201. Décadas de esforços estabeleceram vários preditores2 para a doença, incluindo fatores reprodutivos3,4,5, estilo de vida6,7 e fatores genéticos hereditários8,9 ,10. Apesar da identificação de múltiplos preditores modificáveis, o câncer de mama continua sendo a principal causa de morte, com 685.000 mortes em 2020 em todo o mundo. Os cânceres de mama pré e pós-menopausa são geralmente considerados como etiologicamente diferentes11,12,13,14,15.

Tradicionalmente, a descoberta de preditores para doenças como o câncer de mama é baseada em hipóteses. Embora seja razoável usar modelos estatísticos clássicos (por exemplo, regressão logística) para avaliar esses preditores, alguns novos preditores podem ser negligenciados no estágio de descoberta em dados ricos em informações antes da construção de um modelo clássico de predição. Os métodos de aprendizado de máquina (ML) são capazes de lidar com um grande número de preditores e relacionamentos não lineares complexos, portanto, podem fornecer assistência na descoberta de preditores16,17. Estudos anteriores de ML focaram principalmente em como as abordagens de ML se comparam aos modelos convencionais para previsão de risco de câncer de mama18,19,20,21,22, mas há uma falta de estudos sobre a utilização de ML para identificação de preditores. A crescente disponibilidade de coortes grandes e detalhadas, como o UK Biobank (UKB), oferece a oportunidade de utilizar abordagens livres de hipóteses para a identificação de preditores potencialmente novos.

Os últimos anos testemunharam o rápido desenvolvimento de escores de risco poligênico (PRS) que agregam o efeito de um grande número (por exemplo, centenas ou milhares) de variantes genéticas associadas a uma doença ou característica específica, identificadas por meio de estudos de associação ampla do genoma (GWAS). Os PRS foram propostos em uma variedade de práticas clínicas e pesquisas, incluindo o fornecimento de melhor risco futuro de doenças e a identificação de pessoas com alto risco para tratamento direcionado ou estratégias de triagem23. Por exemplo, o PRS adicionou benefícios na identificação de populações que mais se beneficiariam com a prescrição de estatinas24,25,26; O PRS adicionou precisão aos preditores de risco de doença arterial coronariana existentes (por exemplo, escore de risco de Framingham)27; e PRS de câncer de mama foram incorporados em modelos de previsão de risco existentes, como o Algoritmo de Estimativa de Carga e Incidência de Doenças de Análise de Mama e Ovário (BOADICEA)28 e o modelo de Tyrer-Cuzick29.

\) 0.49) and variants with minor allele frequency (MAF) \(<\) 0.005. This led to 305 variants remaining in PRS313 and 115,300 in PRS120k (Supplementary Table 1)./p>\) 30%, and those where all participants had the same value (such as rare diseases which no participants were affected by at baseline) which were of no discriminative utility, yielding 1,737 input features for ML models. All features were fitted in original scale from UKB without transformations./p>0.9\)), we removed either the feature with most missing data, or the auxiliary one. This step is necessary to reduce the collinearity prior to constructing a linear (e.g. Cox) statistical model when the model will be used to draw statistical inference on the estimated effect of features./p>