Classification of Websites Based on Visual and Textual Data Using a Hybrid Deep Learning Model: DeepCLA-Web

dc.contributor.authorŞeker, Harun
dc.contributor.authorÇubukçu, Burakhan
dc.date.accessioned2026-01-24T11:56:50Z
dc.date.available2026-01-24T11:56:50Z
dc.date.issued2025
dc.departmentAlanya Alaaddin Keykubat Üniversitesi
dc.description.abstractThis study proposes a hybrid deep learning model that processes both textual and visual content for web site classification. The amount of accessible information services on the internet is increasing daily, and within this intense data flow, accurately classifying web sites based on their content is crucial. To develop a deep learning model capable of performing this classification for users, 430 website addresses were selected from the UT1 Blacklist, published by Université Toulouse, and divided into three categories: shopping, news, and gaming. The proposed model uses Long Short-Term Memory (LSTM) for processing the textual content of websites and Convolutional Neural Network (CNN) for analyzing visual data. An Artificial Neural Network (ANN) combining the outputs of LSTM and CNN models performs the final classification. The performance of the proposed website classification model (DeepCLA-Web), which processes visual data with CNN, text with LSTM, and makes the final decision with ANN, was compared to a CNN model using only visual data and an LSTM model using only textual data based on commonly used metrics in the literature. The CNN model achieved an accuracy of 59.22%, the LSTM model 75.85%, while the proposed DeepCLA-Web reached 80.89% accuracy.
dc.description.abstractBu çalışmada, web sitelerinin sınıflandırılması için metin ve görsel içerikleri işleyen hibrit bir derin öğrenme modeli önerilmektedir. İnternette erişilebilen bilgi hizmetlerinin miktarı her geçen gün artmakta olup, yoğun veri akışı içinde web sitelerinin içeriğe göre doğru sınıflandırılması önem arz etmektedir. Kullanıcılar için bu işlemi yapabilecek bir derin öğrenme modeli oluşturmak amacıyla, Université Toulouse tarafından yayınlanan UT1 Blacklist içerisinden 430 web adresi seçilmiş ve bu adresler alışveriş, haber ve oyun olmak üzere üç kategoriye ayrılmıştır. Önerilen model, web sitelerinin metin içeriklerini işlemek için Uzun Kısa Süreli Bellek (LSTM) kullanırken, görüntü verilerini analiz etmek için Evrişimli Sinir Ağı (CNN) kullanmaktadır. LSTM ve CNN modellerinin çıktısını birleştiren bir Yapay Sinir Ağı (ANN) nihai sınıflandırmayı gerçekleştirmektedir. CNN ile görsel, LSTM ile metin işleyerek ANN ile nihai karar veren, önerilen web sitesi sınıflandırma modelinin (DeepCLA-Web) başarımı, sadece görsel verileri kullanan CNN modeli ve sadece metin verileri kullanan LSTM modeli ile literatürde sık kullanılan metrikler üzerinden kıyaslanmıştır. CNN modeli %59,22, LSTM modeli %75,85 doğruluk oranına ulaşırken, önerilen DeepCLA-Web %80,89 doğruluk oranına ulaşmıştır.
dc.identifier.doi10.46740/alku.1639372
dc.identifier.endpage79
dc.identifier.issn2667-7814
dc.identifier.issue2
dc.identifier.startpage66
dc.identifier.urihttps://doi.org/10.46740/alku.1639372
dc.identifier.urihttps://hdl.handle.net/20.500.12868/3352
dc.identifier.volume7
dc.language.isotr
dc.publisherAlanya Alaaddin Keykubat Üniversitesi
dc.relation.ispartofALKÜ Fen Bilimleri Dergisi
dc.relation.ispartofALKÜ Fen Bilimleri Dergisi
dc.relation.publicationcategoryMakale - Ulusal Hakemli Dergi - Kurum Öğretim Elemanı
dc.rightsinfo:eu-repo/semantics/openAccess
dc.snmzKA_DergiPark_20260121
dc.subjectDeep Learning
dc.subjectDerin Öğrenme
dc.titleClassification of Websites Based on Visual and Textual Data Using a Hybrid Deep Learning Model: DeepCLA-Web
dc.title.alternativeHibrit Derin Öğrenme Modeli ile Web Sitelerinin Görsel ve Metinsel Verilere Dayalı Sınıflandırılması: DeepCLA-Web
dc.typeArticle

Dosyalar