Hesaplamalı Arşiv Bilimi


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Türkiyat Araştırmaları Enstitüsü, Bilgi Ve Belge Yönetimi Anabilim Dalı, Türkiye

Tezin Onay Tarihi: 2025

Tezin Dili: Türkçe

Öğrenci: Oytun CİBAROĞLU

Danışman: Bahattin Yalçınkaya

Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu

Özet:

Arşiv bilimi; büyük veri ve yapay zekâ odaklı oldukça geniş çaplı bir dönüşümün içinde yer almaya başlamıştır. Bu doğrultuda hesaplamalı arşiv bilimi adı verilen yeni bir paradigma ortaya çıkmıştır. Bu alan, bilgisayar bilimi ile arşiv biliminin kolektif bilgisini birleştirerek dijital arşiv materyallerinin analizi, uzun süreli korunması ve erişimi için hesaplamalı yöntemler sunmaktadır. Bu tezde, hesaplamalı arşiv biliminin temel yaklaşımları benimsenerek; yapılandırılmış (TSV) ve yapılandırılmamış (uydu tarafından çekilen yer görüntüleri) dijital arşiv veri setleri üzerinde yapay zekâ tabanlı analizler gerçekleştirilmiş, hesaplamalı süreçlere ait provenans verisi oluşturulmuş ve tüm çıktılar, Archivematica programı aracılığıyla uzun süreli dijital korumaya alınmıştır. Çalışmanın ilk aşamasında, 1990-2009 yılları arasına ait 3,6 milyon örnek ve 11 öznitelikten oluşan ABD iç hat uçuş verileri analiz edilmiştir. Bu veri setinin seçilmesinin nedeni ise dijital arşiv verisi niteliğinde ve kamuya açık olmasıdır. Kapsamlı önişleme adımları (eksik değerlerin KNNImputer ile doldurulması, log dönüşümü, IQR yaklaşımı ile aykırı değerlerin giderilmesi, kırpma ve standardizasyon) sonrasında regresyon ve sınıflandırma görevleri gerçekleştirilmiştir. Yolcu sayısına ilişkin en başarılı regresyon modeli, çoklu doğrusal regresyonda %91,97 R² ve yapay sinir ağı ile de %99,90 R² elde etmiştir. Sınıflandırma analizlerinde mesafe kategorilerine göre %99,90 doğrulukla yığınlama modeli, uçuş başına yolcu sayısı sınıflandırmasında ise yapay sinir ağı modeli %99,59 doğrulukla en başarılı sonuçları vermiştir. Derin öğrenme analizleri kapsamında ise, 30 sınıflı AID yer görüntüleri veri seti, temel bir evrişimli sinir ağı (CNN) modeli oluşturularak işlenmiş; çeşitli giriş boyutları, optimizasyon algoritması türleri ve öğrenme oranları bazlı karşılaştırmalar yapılmıştır. Temel CNN modelinde en iyi sonuç, Adamax optimizasyon algoritması ile 250×250 giriş boyutu ve %91,40 doğrulukla elde edilmiştir. Veri artırımı ve hiperparametre optimizasyonu da model başarısına oldukça katkı sağlamıştır. Transfer öğrenmesi kapsamında ise EfficientNet mimarisinin (B0-B3, V2B0-V2B3) 8 farklı varyantı kullanılmış, öncelikle ağırlıksız olarak temel modeller eğitilmiş, ardından RandomSearch Tuner tekniği ile en iyi hiperparametre aramaları yapılmıştır. Optimize edilen modellerde B3, V2B2 ve V2B3 varyantları %97,20 doğruluk ile en iyi sonucu vermiştir. Tüm hesaplamalı süreçler, PROV uyumlu JSON formatında provenans verisi olarak yapılandırılmış; analizlere dair işlem bilgileri, kullanılan yöntemler, hiperparametreler ve çıktılar zaman damgalı şekilde kayıt altına alınmıştır. Örnek olarak seçilen iki analiz süreci, BagIt kütüphanesi ile paketlenmiş, orijinal ve türev veri setleriyle birlikte Archivematica sistemine yüklenmiş ve burada SIP, AIP ve DIP paketlerine dönüştürülerek uzun süreli koruma sağlanmıştır. Ayrıca genel işlem akışı, PROV-ML düğümleri ile diyagram olarak gösterilmiştir. Tezin alana temel katkısı; hesaplamalı yöntem ve tekniklerle üretilen veri ve bilgilerin, tüm girdi-çıktı boyutlarıyla birlikte uzun süreli korumaya alınabilecek nitelikli dijital arşiv nesnelerine (nitelikli veri havuzu) dönüştürülebileceğidir. Bu katkıya ek olarak yapay zekâ tabanlı süreçlere dair arşivsel provenansın oluşturulması, tüm hesaplamalı süreçlerin izlenebilirliği ve şeffaflığını da sağlamaktadır. Tez, bu yönüyle alanda dijital koruma, süreç belgeleme ve veri temelli karar destek mekanizmalarına katkı sağlamakta ve bu bağlamda kurumlar, araştırmacılar ve kullanıcılar için yeni bir arşivsel değerin üretilebileceğini savunmaktadır.