«Я хочу зробити диплом на Machine Learning, але не знаю, що саме» — якби я отримував гривню кожного разу, коли це чую, вже б закрив іпотеку.
ML — хайпова тема. Всі хочуть. Але коли доходить до конкретики, починається: «Що робити? Де брати дані? Чи не занадто складно?»
Ця стаття — 15 реальних ідей для дипломних. Не абстрактні «система з нейронними мережами», а конкретні проєкти з датасетами, технологіями та оцінкою складності.
Як обирати тему
Три критерії:
- Датасет існує — без даних ML не працює
- Задача зрозуміла — класифікація, регресія, clustering
- Результат вимірюваний — accuracy, F1, MSE
Якщо хоча б один пункт під питанням — тема ризикована.
Computer Vision (5 тем)
1. Класифікація зображень медичних знімків
Суть: Визначення патологій на рентгенівських знімках або МРТ.
Датасети:
- NIH Chest X-rays (112K зображень)
- RSNA Pneumonia Detection
- Kaggle Brain MRI
Технології: TensorFlow/PyTorch, CNN (ResNet, EfficientNet)
Складність: ⭐⭐⭐⭐ (потребує розуміння transfer learning)
Наукова новизна: Порівняння архітектур на українському/локальному датасеті (якщо знайдеш)
2. Розпізнавання емоцій на обличчях
Суть: Визначення емоції (happy, sad, angry, etc.) по фото обличчя.
Датасети:
- FER2013 (35K зображень)
- AffectNet
- CK+ Dataset
Технології: OpenCV, TensorFlow, CNN або Vision Transformer
Складність: ⭐⭐⭐ (стандартна задача класифікації)
Наукова новизна: Real-time detection через веб-камеру, аналіз в динаміці
3. Детекція об'єктів на дорозі
Суть: Знаходження пішоходів, машин, знаків на фото/відео.
Датасети:
- KITTI Dataset
- BDD100K
- UA-DETRAC
Технології: YOLOv8, RetinaNet, Faster R-CNN
Складність: ⭐⭐⭐⭐ (object detection складніше за класифікацію)
Наукова новизна: Адаптація до українських доріг, нічний режим
4. Сегментація супутникових знімків
Суть: Виділення будівель, доріг, водойм на аерофото.
Датасети:
- SpaceNet
- Inria Aerial Image
- DeepGlobe
Технології: U-Net, Mask R-CNN, Segmentation Models (Python library)
Складність: ⭐⭐⭐⭐⭐ (сегментація — одна з найскладніших задач)
Наукова новизна: Аналіз змін у часі (before/after), оцінка руйнувань
5. OCR для рукописного тексту
Суть: Розпізнавання рукописних документів.
Датасети:
- IAM Handwriting Database
- MNIST (для цифр)
- Власний датасет (якщо специфічна мова)
Технології: Tesseract + ML, CRNN, Transformer-based
Складність: ⭐⭐⭐ (для друкованого тексту простіше)
Наукова новизна: Українська мова, історичні документи
NLP — Natural Language Processing (5 тем)
6. Sentiment Analysis для українських текстів
Суть: Визначення тональності (позитивна/негативна/нейтральна) відгуків.
Датасети:
- Ukrainian Twitter Dataset (шукати на GitHub)
- Власний збір з Rozetka/OLX відгуків
- Translated datasets
Технології: BERT (multilingual), UkrRoBERTa, scikit-learn
Складність: ⭐⭐⭐ (українська мова додає складності)
Наукова новизна: Порівняння моделей саме для української
7. Чат-бот з NLU
Суть: Бот, який розуміє природну мову і відповідає по суті.
Датасети:
- Intent classification datasets
- Cornell Movie Dialogs
- Власний FAQ датасет
Технології: Rasa, Dialogflow, або власна модель на Transformer
Складність: ⭐⭐⭐⭐ (NLU — нетривіальна задача)
Наукова новизна: Доменно-специфічний бот (медицина, юриспруденція)
8. Автоматичне реферування тексту
Суть: Генерація короткого summary з довгого тексту.
Датасети:
- CNN/Daily Mail
- XSum
- Власний збір новин
Технології: T5, BART, GPT-2/3 (fine-tuned)
Складність: ⭐⭐⭐⭐⭐ (генеративні моделі складні)
Наукова новизна: Abstractive vs extractive порівняння для української
9. Named Entity Recognition (NER)
Суть: Виділення сутностей (імена, організації, локації) з тексту.
Датасети:
- CoNLL-2003
- Ukrainian NER datasets (lang-uk)
- Власна анотація
Технології: SpaCy, Flair, BERT-based NER
Складність: ⭐⭐⭐ (sequence labeling)
Наукова новизна: NER для специфічного домену (юридичні документи)
10. Детекція фейкових новин
Суть: Класифікація новин як правдиві/фейкові.
Датасети:
- LIAR Dataset
- FakeNewsNet
- Ukrainian fact-checking (VoxCheck, StopFake)
Технології: BERT, XGBoost + text features, Graph Neural Networks
Складність: ⭐⭐⭐⭐ (багатофакторний аналіз)
Наукова новизна: Актуально для України, cross-lingual detection
Прогнозування та Рекомендації (5 тем)
11. Прогнозування цін на нерухомість
Суть: Регресійна модель для оцінки вартості квартир/будинків.
Датасети:
- Kaggle House Prices
- Власний парсинг OLX/DIM
- Ames Housing
Технології: XGBoost, LightGBM, Neural Networks
Складність: ⭐⭐⭐ (класична регресія)
Наукова новизна: Геопросторові features, вплив інфраструктури
12. Рекомендаційна система для фільмів/музики
Суть: Персоналізовані рекомендації на основі історії.
Датасети:
- MovieLens (100K - 25M ratings)
- Spotify Million Playlist
- Last.fm
Технології: Collaborative filtering, Content-based, Hybrid (LightFM)
Складність: ⭐⭐⭐ (стандартна задача RecSys)
Наукова новизна: Cold start problem, explanation of recommendations
13. Прогнозування відтоку клієнтів (Churn)
Суть: Передбачення, чи клієнт покине сервіс.
Датасети:
- Telco Customer Churn (Kaggle)
- IBM HR Analytics
- Bank Customer Churn
Технології: XGBoost, Random Forest, Logistic Regression
Складність: ⭐⭐⭐ (класична класифікація)
Наукова новизна: Interpretable ML (SHAP, LIME), дисбаланс класів
14. Прогнозування часових рядів
Суть: Передбачення майбутніх значень (продажі, трафік, ціни).
Датасети:
- M4 Competition
- Store Sales (Kaggle)
- Energy Consumption datasets
Технології: Prophet, LSTM, Transformer (Temporal Fusion)
Складність: ⭐⭐⭐⭐ (часові ряди мають свою специфіку)
Наукова новизна: Ensemble методи, multi-step forecasting
15. Fraud Detection (виявлення шахрайства)
Суть: Класифікація транзакцій як легітимні/шахрайські.
Датасети:
- IEEE-CIS Fraud Detection
- Credit Card Fraud Detection (Kaggle)
- Synthetic Financial Datasets
Технології: Isolation Forest, XGBoost, Autoencoders
Складність: ⭐⭐⭐⭐ (сильний дисбаланс класів)
Наукова новизна: Real-time detection, explainability
Де брати датасети
Універсальні джерела:
- Kaggle — найбільша колекція + community
- UCI Machine Learning Repository — класичні датасети
- Papers with Code — датасети з публікацій
- Google Dataset Search — пошук по всьому інтернету
- Hugging Face Datasets — особливо для NLP
Для українських даних:
- lang-uk — NLP датасети для української
- data.gov.ua — відкриті державні дані
- VoxUkraine — економічні дані
- Парсинг OLX, Rozetka, Prom (з дозволу)
Чек-ліст перед вибором теми
- [ ] Датасет існує і достатнього розміру (1000+ записів)
- [ ] Задача чітко формулюється (classification/regression/clustering)
- [ ] Є метрики для оцінки результату
- [ ] Тема не занадто банальна (не iris classification)
- [ ] Тема не занадто амбітна (не GPT-5 з нуля)
- [ ] Викладач схвалив напрямок
- [ ] Зрозуміло, де наукова новизна
Потрібна допомога з реалізацією?
Обрати тему — це 10% роботи. Решта — код, експерименти, документація.
Якщо самому складно — @SKPrograming1.
Ми робимо ML-дипломні під ключ: від вибору теми до підготовки до захисту.
? Наші контакти:
- ? Сайт: https://skp-degree.com.ua
- ? Telegram канал: @kursovi_diplomy
- ? Написати напряму: @SKPrograming1
Теги:
#machinelearning #ml #дипломна #теми #ідеї #датасет #python #tensorflow #pytorch #computervision #nlp #datascience #студент #кпі #лну #київ #artificialintelligence #deeplearning #neuralnetworks #студентськежиття #україна