Сердечно-сосудистые заболевания (ССЗ) остаются одной из ведущих причин смертности и инвалидности во всем мире, представляя собой сложный комплекс патологических состояний, затрагивающих функциональность и целостность сердечно-сосудистой системы. Наиболее часто встречающиеся формы ССЗ включают ишемическую болезнь сердца, цереброваскулярные инсульты, артериальную гипертензию и другие сосудистые нарушения. Эти заболевания нередко ассоциируются с дисфункцией липидного обмена, что приводит к гиперхолестеринемии и гипертриглицеридемии. Важно отметить, что ранняя диагностика и оценка факторов риска могут существенно улучшить исходы лечения и снизить уровень смертности [1].
Международный опыт показывает, что использование современных технологий, таких как машинное обучение и аналитика больших данных, может существенно повысить точность диагностики и прогнозирования ССЗ. В рамках данного исследования был проведен анализ датасета, содержащего данные 70,000 пациентов (равное распределение больных и здоровых в выборке), с целью выявления наиболее значимых факторов риска и их взаимосвязей с наличием ССЗ.
Методология
Для анализа использовался датасет [3], содержащий следующие данные (рис. 1):
Рис. 1. Анализируемые данные
Основные параметры включали возраст, пол, рост, вес, уровни систолического и диастолического давления, холестерин, глюкозу, наличие курения и алкоголизма, физической активности, а также наличие или отсутствие ССЗ.
Результаты анализа
На основе анализа были созданы портреты типичных мужчин и женщин, страдающих от ССЗ, а также контрольные группы без указанных патологий. Например, типичная женщина без ССЗ имеет средний возраст 51.7 лет, нормальный уровень холестерина, физически активна и имеет ИМТ 26.8, что соответствует избыточному весу. В то же время типичная женщина с ССЗ старше на 3 года, имеет повышенный уровень холестерина и более высокий ИМТ (29.0). Аналогичные закономерности наблюдаются среди мужчин.
Зависимости между параметрами
Была проведена оценка зависимости между различными параметрами и наличием ССЗ. Вот некоторые ключевые выводы:
- Возраст. Средний возраст среди людей с ССЗ примерно на 3 года выше, чем среди здоровых.
- Давление. У больных ССЗ, как правило, давление выше: примерно на 10 мм рт. ст.
- Холестерин. Повышенный уровень холестерина чаще встречается у женщин с ССЗ, чем у мужчин с ССЗ.
- ИМТ. У всех категорий пациентов свойственно иметь слегка избыточный вес, что связано с процессом старения. Однако ИМТ выше у больных ССЗ, что подтверждает связь избыточного веса с этими заболеваниями (рис. 2).
Рис. 2. Распределение больных и здоровых по уровню ИМТ
- Физическая активность. Физическая активность у людей с ССЗ незначительно ниже, чем у здоровых.
Логистическая регрессия
Для предсказания наличия ССЗ на основе данных показателей была применена модель логистической регрессии. Основные метрики модели включают:
- Accuracy: 0.7319 (Доля верных ответов)
- Recall: 0.6786 (Полнота данных)
- Precision: 0.7577 (Точность)
- F1 Score: 0.7160 (Гармоническое среднее между точностью и полнотой)
- ROC-AUC Score: 0.7585 (Качество модели)
Эти метрики указывают на хорошую способность модели разделять классы и предсказывать наличие ССЗ с приемлемой точностью.
Обсуждение
Анализ данных подтвердил важность таких факторов, как возраст, уровень холестерина, давление и ИМТ, в диагностике и управлении ССЗ. Международный опыт показывает, что мониторинг этих показателей на регулярной основе позволяет значительно снизить риск развития этих заболеваний [2, с. 937-952]. Кроме того, использование моделей машинного обучения, таких как логистическая регрессия, может помочь врачам в ранней диагностике и принятии более обоснованных клинических решений.
Однако стоит отметить, что модель требует дальнейшего улучшения, особенно в части повышения полноты (recall), чтобы минимизировать количество ложных отрицательных случаев.
Визуализации
Вставка визуализаций позволит лучше понять зависимости между различными параметрами и наличием ССЗ. Например, гистограммы распределения возраста и давления, а также гистограммы между наличием ССЗ и уровнем холестерина помогут визуально представить полученные результаты (рис. 3).
Рис. 3. Корреляция между уровнем холестерина и наличием ССЗ
Заключение
Ранняя диагностика и оценка факторов риска играют ключевую роль в профилактике и лечении сердечно-сосудистых заболеваний. Анализ датасета с использованием методов машинного обучения подтвердил важность таких параметров, как возраст, давление, уровень холестерина и ИМТ. Дальнейшее развитие моделей предсказательной аналитики позволит улучшить точность диагностики и эффективность лечения ССЗ.