ML проєкти для дипломної 2026: ідеї з кодом

«Я хочу зробити диплом на Machine Learning, але не знаю, що саме» — якби я отримував гривню кожного разу, коли це чую, вже б закрив іпотеку.

ML — хайпова тема. Всі хочуть. Але коли доходить до конкретики, починається: «Що робити? Де брати дані? Чи не занадто складно?»

Ця стаття — 15 реальних ідей для дипломних. Не абстрактні «система з нейронними мережами», а конкретні проєкти з датасетами, технологіями та оцінкою складності.

Як обирати тему

Три критерії:

Датасет існує — без даних ML не працює
Задача зрозуміла — класифікація, регресія, clustering
Результат вимірюваний — accuracy, F1, MSE

Якщо хоча б один пункт під питанням — тема ризикована.

Computer Vision (5 тем)

1. Класифікація зображень медичних знімків

Суть: Визначення патологій на рентгенівських знімках або МРТ.

Датасети:

NIH Chest X-rays (112K зображень)
RSNA Pneumonia Detection
Kaggle Brain MRI

Технології: TensorFlow/PyTorch, CNN (ResNet, EfficientNet)

Складність: ⭐⭐⭐⭐ (потребує розуміння transfer learning)

Наукова новизна: Порівняння архітектур на українському/локальному датасеті (якщо знайдеш)

2. Розпізнавання емоцій на обличчях

Суть: Визначення емоції (happy, sad, angry, etc.) по фото обличчя.

Датасети:

FER2013 (35K зображень)
AffectNet
CK+ Dataset

Технології: OpenCV, TensorFlow, CNN або Vision Transformer

Складність: ⭐⭐⭐ (стандартна задача класифікації)

Наукова новизна: Real-time detection через веб-камеру, аналіз в динаміці

3. Детекція об'єктів на дорозі

Суть: Знаходження пішоходів, машин, знаків на фото/відео.

Датасети:

KITTI Dataset
BDD100K
UA-DETRAC

Технології: YOLOv8, RetinaNet, Faster R-CNN

Складність: ⭐⭐⭐⭐ (object detection складніше за класифікацію)

Наукова новизна: Адаптація до українських доріг, нічний режим

4. Сегментація супутникових знімків

Суть: Виділення будівель, доріг, водойм на аерофото.

Датасети:

SpaceNet
Inria Aerial Image
DeepGlobe

Технології: U-Net, Mask R-CNN, Segmentation Models (Python library)

Складність: ⭐⭐⭐⭐⭐ (сегментація — одна з найскладніших задач)

Наукова новизна: Аналіз змін у часі (before/after), оцінка руйнувань

5. OCR для рукописного тексту

Суть: Розпізнавання рукописних документів.

Датасети:

IAM Handwriting Database
MNIST (для цифр)
Власний датасет (якщо специфічна мова)

Технології: Tesseract + ML, CRNN, Transformer-based

Складність: ⭐⭐⭐ (для друкованого тексту простіше)

Наукова новизна: Українська мова, історичні документи

NLP — Natural Language Processing (5 тем)

6. Sentiment Analysis для українських текстів

Суть: Визначення тональності (позитивна/негативна/нейтральна) відгуків.

Датасети:

Ukrainian Twitter Dataset (шукати на GitHub)
Власний збір з Rozetka/OLX відгуків
Translated datasets

Технології: BERT (multilingual), UkrRoBERTa, scikit-learn

Складність: ⭐⭐⭐ (українська мова додає складності)

Наукова новизна: Порівняння моделей саме для української

7. Чат-бот з NLU

Суть: Бот, який розуміє природну мову і відповідає по суті.

Датасети:

Intent classification datasets
Cornell Movie Dialogs
Власний FAQ датасет

Технології: Rasa, Dialogflow, або власна модель на Transformer

Складність: ⭐⭐⭐⭐ (NLU — нетривіальна задача)

Наукова новизна: Доменно-специфічний бот (медицина, юриспруденція)

8. Автоматичне реферування тексту

Суть: Генерація короткого summary з довгого тексту.

Датасети:

CNN/Daily Mail
XSum
Власний збір новин

Технології: T5, BART, GPT-2/3 (fine-tuned)

Складність: ⭐⭐⭐⭐⭐ (генеративні моделі складні)

Наукова новизна: Abstractive vs extractive порівняння для української

9. Named Entity Recognition (NER)

Суть: Виділення сутностей (імена, організації, локації) з тексту.

Датасети:

CoNLL-2003
Ukrainian NER datasets (lang-uk)
Власна анотація

Технології: SpaCy, Flair, BERT-based NER

Складність: ⭐⭐⭐ (sequence labeling)

Наукова новизна: NER для специфічного домену (юридичні документи)

10. Детекція фейкових новин

Суть: Класифікація новин як правдиві/фейкові.

Датасети:

LIAR Dataset
FakeNewsNet
Ukrainian fact-checking (VoxCheck, StopFake)

Технології: BERT, XGBoost + text features, Graph Neural Networks

Складність: ⭐⭐⭐⭐ (багатофакторний аналіз)

Наукова новизна: Актуально для України, cross-lingual detection

Прогнозування та Рекомендації (5 тем)

11. Прогнозування цін на нерухомість

Суть: Регресійна модель для оцінки вартості квартир/будинків.

Датасети:

Kaggle House Prices
Власний парсинг OLX/DIM
Ames Housing

Технології: XGBoost, LightGBM, Neural Networks

Складність: ⭐⭐⭐ (класична регресія)

Наукова новизна: Геопросторові features, вплив інфраструктури

12. Рекомендаційна система для фільмів/музики

Суть: Персоналізовані рекомендації на основі історії.

Датасети:

MovieLens (100K - 25M ratings)
Spotify Million Playlist
Last.fm

Технології: Collaborative filtering, Content-based, Hybrid (LightFM)

Складність: ⭐⭐⭐ (стандартна задача RecSys)

Наукова новизна: Cold start problem, explanation of recommendations

13. Прогнозування відтоку клієнтів (Churn)

Суть: Передбачення, чи клієнт покине сервіс.

Датасети:

Telco Customer Churn (Kaggle)
IBM HR Analytics
Bank Customer Churn

Технології: XGBoost, Random Forest, Logistic Regression

Складність: ⭐⭐⭐ (класична класифікація)

Наукова новизна: Interpretable ML (SHAP, LIME), дисбаланс класів

14. Прогнозування часових рядів

Суть: Передбачення майбутніх значень (продажі, трафік, ціни).

Датасети:

M4 Competition
Store Sales (Kaggle)
Energy Consumption datasets

Технології: Prophet, LSTM, Transformer (Temporal Fusion)

Складність: ⭐⭐⭐⭐ (часові ряди мають свою специфіку)

Наукова новизна: Ensemble методи, multi-step forecasting

15. Fraud Detection (виявлення шахрайства)

Суть: Класифікація транзакцій як легітимні/шахрайські.

Датасети:

IEEE-CIS Fraud Detection
Credit Card Fraud Detection (Kaggle)
Synthetic Financial Datasets

Технології: Isolation Forest, XGBoost, Autoencoders

Складність: ⭐⭐⭐⭐ (сильний дисбаланс класів)

Наукова новизна: Real-time detection, explainability

Де брати датасети

Універсальні джерела:

Kaggle — найбільша колекція + community
UCI Machine Learning Repository — класичні датасети
Papers with Code — датасети з публікацій
Google Dataset Search — пошук по всьому інтернету
Hugging Face Datasets — особливо для NLP

Для українських даних:

lang-uk — NLP датасети для української
data.gov.ua — відкриті державні дані
VoxUkraine — економічні дані
Парсинг OLX, Rozetka, Prom (з дозволу)

Чек-ліст перед вибором теми

[ ] Датасет існує і достатнього розміру (1000+ записів)
[ ] Задача чітко формулюється (classification/regression/clustering)
[ ] Є метрики для оцінки результату
[ ] Тема не занадто банальна (не iris classification)
[ ] Тема не занадто амбітна (не GPT-5 з нуля)
[ ] Викладач схвалив напрямок
[ ] Зрозуміло, де наукова новизна

Потрібна допомога з реалізацією?

Обрати тему — це 10% роботи. Решта — код, експерименти, документація.

Якщо самому складно — @SKPrograming1.

Ми робимо ML-дипломні під ключ: від вибору теми до підготовки до захисту.

? Наші контакти:

? Сайт: https://skp-degree.com.ua
? Telegram канал: @kursovi_diplomy
? Написати напряму: @SKPrograming1

Теги:

#machinelearning #ml #дипломна #теми #ідеї #датасет #python #tensorflow #pytorch #computervision #nlp #datascience #студент #кпі #лну #київ #artificialintelligence #deeplearning #neuralnetworks #студентськежиття #україна

Machine Learning Проєкти для Дипломної: 15 Ідей

Як обирати тему

Computer Vision (5 тем)

1. Класифікація зображень медичних знімків

2. Розпізнавання емоцій на обличчях

3. Детекція об'єктів на дорозі

4. Сегментація супутникових знімків

5. OCR для рукописного тексту

NLP — Natural Language Processing (5 тем)

6. Sentiment Analysis для українських текстів

7. Чат-бот з NLU

8. Автоматичне реферування тексту

9. Named Entity Recognition (NER)

10. Детекція фейкових новин

Прогнозування та Рекомендації (5 тем)

11. Прогнозування цін на нерухомість

12. Рекомендаційна система для фільмів/музики

13. Прогнозування відтоку клієнтів (Churn)

14. Прогнозування часових рядів

15. Fraud Detection (виявлення шахрайства)

Де брати датасети

Чек-ліст перед вибором теми

Потрібна допомога з реалізацією?

Про автора

Команда SKP-Degree

Поділитися

Схожі статті

WebSockets: real-time комунікація для веб-застосунків

REST API з FastAPI: від нуля до продакшну

Docker та Kubernetes: від нуля до продакшну

Потрібна допомога з роботою?