Data-driven methods for imputing national-level incidence in global burden of disease studies

Scott A McDonald; Brecht Devleesschauwer; Niko Speybroeck; Niel Hens; Nicolas Praet; Paul R Torgerson; Arie H Havelaar; Felicia Wu; Marlène Tremblay; Ermias W Amene; Dörte Döpfer

doi:10.2471/BLT.14.139972

Data-driven methods for imputing national-level incidence in global burden of disease studies

Bull World Health Organ. 2015 Apr 1;93(4):228-36. doi: 10.2471/BLT.14.139972. Epub 2015 Feb 27.

Authors

Affiliations

¹ Centre for Infectious Disease Control, National Institute for Public Health and the Environment (RIVM), Bilthoven, Netherlands .
² Department of Virology, Parasitology and Immunology, Faculty of Veterinary Medicine, Ghent University, Salisburylaan 133, 9820 Merelbeke, Belgium .
³ Institute of Health and Society (IRSS), Université catholique de Louvain, Brussels, Belgium .
⁴ Centre for Statistics, Hasselt University, Diepenbeek, Belgium .
⁵ Department of Biomedical Sciences, Institute of Tropical Medicine, Antwerp, Belgium .
⁶ Section of Veterinary Epidemiology, University of Zürich, Zürich, Switzerland .
⁷ Department of Food Science and Human Nutrition, Michigan State University, East Lansing, United States of America (USA).
⁸ Food Animal Production Medicine Section, School of Veterinary Medicine UW-Madison, Madison, USA .

Abstract
in English, Arabic, Chinese, French, Russian, Spanish

Objective: To develop transparent and reproducible methods for imputing missing data on disease incidence at national-level for the year 2005.

Methods: We compared several models for imputing missing country-level incidence rates for two foodborne diseases - congenital toxoplasmosis and aflatoxin-related hepatocellular carcinoma. Missing values were assumed to be missing at random. Predictor variables were selected using least absolute shrinkage and selection operator regression. We compared the predictive performance of naive extrapolation approaches and Bayesian random and mixed-effects regression models. Leave-one-out cross-validation was used to evaluate model accuracy.

Findings: The predictive accuracy of the Bayesian mixed-effects models was significantly better than that of the naive extrapolation method for one of the two disease models. However, Bayesian mixed-effects models produced wider prediction intervals for both data sets.

Conclusion: Several approaches are available for imputing missing data at national level. Strengths of a hierarchical regression approach for this type of task are the ability to derive estimates from other similar countries, transparency, computational efficiency and ease of interpretation. The inclusion of informative covariates may improve model performance, but results should be appraised carefully.

الغرض: وضع أساليب تتميز بالشفافية وقابلية التكرار لاحتساب البيانات المفقودة بشأن الإصابة بالمرض على الصعيد الوطني لعام 2005.

الطريقة: قمنا بمقارنة نماذج عديدة لاحتساب معدلات الإصابة بالمرض المفقودة على صعيد البلدان لمرضين من الأمراض المنقولة بالأغذية - داء المقوسات الخلقي والسرطان الكبدي الخلوي ذو الصلة بالأفلاتوكسين. تم افتراض فقدان القيم المفقودة عشوائياً. وتم اختيار متغيرات عوامل التكهن باستخدام أدنى انكماش مطلق وارتداد عامل الانتقاء. وقمنا بمقارنة الأداء التنبؤي لأساليب الاستيفاء البسيط ونماذج الارتداد للتأثيرات المختلطة والعشوائية البايزية. وتم استخدام التحقق المتبادل باستبعاد إحدى القيم لتقدير دقة النموذج.

النتائج: كانت الدقة التنبؤية لنماذج التأثيرات المختلطة البايزية أفضل بشكل كبير عن تلك الخاصة بأسلوب الاستيفاء البسيط في أحد نموذجي المرض. ومع ذلك، نتج عن نماذج التأثيرات المختلطة البايزية فترات تنبؤ أوسع في كلتا فئتي البيانات.

الاستنتاج: تتوفر أساليب عديدة لاحتساب البيانات المفقودة على الصعيد الوطني. وتتمثل نقاط قوة نموذج الارتداد الهرمي لهذا النوع من النهج في قدرته على استخلاص التقديرات من البلدان المشابهة الأخرى والشفافية والكفاءة الحاسوبية وسهولة التفسير. ويمكن أن يحسن إدراج المتغيرات المصاحبة الثرية بالمعلومات من أداء النموذج، غير أنه ينبغي تقييم النتائج بدقة.

目的: 开发2005年国家级疾病发病率缺失数据透明和可重复的填补方法。.

方法: 我们比较填补两种食源性疾病的缺失国家级发病率的几种模型：先天性弓形体病和黄曲霉毒素相关的肝细胞癌。假定缺失值是随机缺失。使用最小一乘收缩和选择算子（LASSO）回归来选择预测变量。我们比较自然推论方法和贝叶斯随机和混合效应回归模型的预测性能。使用留一交叉验证来评估模型的准确性。.

结果: 在两种疾病模型的其中一种当中，贝叶斯混合效应模型的预测精度明显优于自然推论方法。然而，贝叶斯混合效应模型对两个数据集生成的预测区间都更宽。.

结论: 国家层面缺失数据有若干种填补方法。此类任务的分层回归方法的优势在于从其他类似国家得出估算值的能力、透明性、计算效率和解释上的方便。增加信息性的协变量可以改善模型性能，但应对其结果进行仔细地评估。.

Objectif: Développer des méthodes transparentes et reproductibles pour imputer les données manquantes sur l'incidence d'une maladie au niveau national pour l'année 2005.

Méthodes: Nous avons comparé plusieurs modèles pour imputer les taux d'incidence manquants au niveau national pour deux maladies d'origine alimentaire: la toxoplasmose congénitale et le carcinome hépatocellulaire lié à l'aflatoxine. Les valeurs manquantes sont supposées être manquantes au hasard. Les variables prédictives ont été sélectionnées en utilisant la régression LASSO (least absolute shrinkage and selection operator). Nous avons comparé la performance prédictive des approches d'extrapolation naïves et les modèles de régression à effets aléatoires et mixtes bayésiens. La validation croisée «leave-one-out» a été utilisée pour évaluer la précision du modèle.

Résultats: La précision prédictive des modèles des effets mixtes bayésiens était significativement meilleure que celle de la méthode d'extrapolation naïve pour l'un des deux modèles de maladie. Cependant, les modèles d'effets mixtes bayésiens ont produit des intervalles de prédiction plus larges pour les deux ensembles de données.

Conclusion: Plusieurs approches sont disponibles pour imputer les données manquantes au niveau national. Les forces d'une approche de régression hiérarchique de ce type de tâche sont la capacité de dériver des estimations à partir d'autres pays similaires, la transparence, l'efficacité des calculs et la facilité d'interprétation. L'inclusion de covariables informatives peut améliorer la performance du modèle mais les résultats doivent être évalués avec prudence.

Цель: Разработать прозрачные и воспроизводимые методы ввода отсутствующих данных о распространенности заболевания на национальном уровне за 2005 год.

Методы: Производилось сравнение нескольких моделей ввода отсутствующих данных о частоте случаев заболевания на национальном уровне для двух заболеваний пищевого происхождения: врожденный токсоплазмоз и афлатоксин-зависимая гепатоклеточная карцинома. Отсутствующие значения были расценены как не имеющие определенной закономерности. Прогностические переменные были выбраны с использованием наименьшего абсолютного значения естественной убыли и регрессии оператора выбора. Было произведено сравнение прогностической эффективности методов первичной экстраполяции и байесовских регрессионных моделей со случайными и смешанными эффектами. Для оценки точности моделей использовалась перекрестная проверка с исключением.

Результаты: Прогностическая точность байесовских моделей со смешанными эффектами была существенно выше, чем при использовании метода первичной экстраполяции для одной из двух моделей заболевания. Тем не менее, байесовские модели со смешанными эффектами позволили получить более широкие прогностические интервалы для обеих совокупностей данных.

Вывод: Доступно несколько подходов к вводу отсутствующих данных на национальном уровне. Сильными сторонами подхода к решению задач данного типа с использованием метода многоуровневой регрессии являются возможность выведения приблизительных значений на основе данных для других схожих стран, прозрачность, эффективность вычислений и легкость интерпретации. Включение информативных ковариат может повысить эффективность модели, но результаты должны подвергаться тщательной оценке.

Objetivo: Desarrollar métodos transparentes y reproducibles de imputación de datos ausentes sobre la incidencia de la morbilidad a nivel nacional para el año 2005.

Métodos: Se compararon varios modelos de imputación de las tasas ausentes de incidencia a nivel nacional para dos enfermedades transmitidas por los alimentos, la toxoplasmosis congénita y el carcinoma hepatocelular relacionado con la aflatoxina. Se consideró que los valores ausentes faltaban al azar. Las variables de predicción se seleccionaron por medio de la contracción absoluta mínima y la regresión del operador de la selección. Se comparó el rendimiento predictivo de los enfoques de extrapolación ingenua y los modelos bayesianos de regresión al azar y de efectos mixtos, y se empleó una validación cruzada dejando uno fuera para evaluar la exactitud del modelo.

Resultados: La exactitud predictiva de los modelos bayesianos de efectos mixtos fue significativamente mejor que la del método de extrapolación ingenua para uno de los dos modelos de enfermedad. Sin embargo, los modelos bayesianos de efectos mixtos generaron intervalos de predicción más amplios para ambos conjuntos de datos.

Conclusión: Son numerosos los enfoques disponibles para la imputación de datos ausentes a nivel nacional. Los puntos fuertes de un enfoque de regresión jerárquica para este tipo de tareas son la capacidad de obtener estimaciones de otros países similares, la transparencia, la eficiencia informática y la facilidad de interpretación. La inclusión de covariables informativas puede mejorar el rendimiento del modelo, aunque se deben evaluar atentamente los resultados.

Publication types

Comparative Study
Research Support, N.I.H., Extramural

MeSH terms

Aflatoxins / adverse effects
Bayes Theorem
Biometry / methods*
Carcinoma, Hepatocellular / epidemiology
Carcinoma, Hepatocellular / etiology
Databases, Factual
Foodborne Diseases / epidemiology
Global Burden of Disease / methods*
Global Health
Humans
Incidence*
Regression Analysis*
Reproducibility of Results
Toxoplasmosis, Congenital / epidemiology
Toxoplasmosis, Congenital / etiology

Substances

Aflatoxins

Abstract in English, Arabic, Chinese, French, Russian, Spanish

Publication types

MeSH terms

Substances

Grants and funding

Abstract
in English, Arabic, Chinese, French, Russian, Spanish