TÜRKÇEDE ANAHTAR SÖZCÜKLER: TÜRKÇE ULUSAL DERLEMİNDEN DERLEM-ÇIKIŞLI YÖNTEM İLE ÇIKARIMI, METİN TÜRLERİNE VE ALANLARINA GÖRE DAĞILIMLARININ SAPTANMASI VE ENVANTERİNİN OLUŞTURULMASI

Anahtar sözcükler derlem dilbilim alanyazınında bir metnin ya da derlemin, bir başka metin ya da derlem ile karşılaştırılması sonucu beklenenden istatistiksel olarak anlamlı ölçüde daha sık gözlenen, belirli bir tür profilinin göstergesi olan sözcükleri bulabileceğimiz ve metnin hakkındalığına ilişkin bilgi veren sözcüklerdir (Baker ve ark., 2006). Alanyazında İngilizce için anahtar sözcük çıkarımına ilişkin tartışılan yöntem basamaklarının Türkçe veri üzerinde de sınanması ve sonraki çalışmalara referans olacak biçimde sunulması gerekmektedir. Yürütülecek çalışmaların ise güvenirliği ve geçerliği yüksek verisetleri ve derlem araçları üzerinden yapılmasına ihtiyaç duyulmaktadır. Evrensel alanyazın günümüzde daha çok aşamaları sınanmış süreçleri kullanarak biçembilim ve söylem çözümlemesi alanlarındaki betimsel anahtar sözcük çalışmalarına odaklanmaktadır. Ulusal alanyazında ise derlem dilbilim yöntem ve ilkeleri kullanılarak güvenilir ve geçerli verisetleri ile yapılmış çalışmalar bulunmamaktadır.

Projenin temel amacı Türkçe doğal dil kullanım ortamlarında dil kullanıcılarının ürettiği dil verisinden yararlanılarak oluşturulan Türkçe Ulusal Derlemi (TUD) verisi üzerinden metin alanlarına ve türlerine göre hakkındalığa ilişkin bilgi sunan anahtar sözcükleri dökümlemektir. Anahtar sözcük listelerinin oluşturulması aşamasında İngilizce için sınanan istatistiksel ölçütler Türkçe veri üzerinde ele alınarak anahtar sözcük çıkarımına ilişkin yöntemsel konulara değinilecektir. Proje sonunda ise belirlenen istatistiksel ölçüt(ler) ile metin alanlarına ve türlerine göre anahtar sözcüklerin envanteri hazırlanacaktır.

Önerilen proje ileri düzey derlem dilbilimi alan bilgisi, derlem araçlarının kullanımı, pek çok ulusal ve uluslararası akademik çalışmada kullanılan TUD verisinin çevrimdışı araçlarla işlenebilmesini gerektirmektedir. Ulusal alanyazında diğer alanlarla karşılaştırıldığında daha yeni bir alan olarak karşımıza çıkan derlem dilbilim alanında yürütülen çalışmalarda yöntemsel konular da önemli bir yer tutmaktadır. Kullanılan hatalı yöntemlerle elde edilecek bulgularsa sonuçların güvenirliğini ve geçerliğini sorgulanabilir duruma getirebilmektedir. Derlem dilbilim alanında evrensel alanyazında sıklıkla çalışılan bir konu olan anahtar sözcüklerin metin türleri ve alanlarına ilişkin Türkçe veri özelinde ortaya çıkaracağı sorunlar ve konularsa henüz bilinmemektedir. Bu projenin anahtar sözcük çıkarımı ve disiplinlerarası çalışmalar için yöntembilimsel yol gösterici nitelik taşıması özgün yanı olarak nitelendirilebilir.

Proje süresince derlemden elde edilen doğal dil kullanım örneklerindeki verilere dayanarak, anahtar sözcüklerin metin alanlarındaki ve türlerindeki görünümü derlem-çıkışlı bir yöntemle elde edilecektir. Çalışmanın verisini dengeli ve temsil yeterliği olan TUD yazılı metinleri ile metin türleri ve alanlarına ilişkin TUD veritabanı üzerinden elde edilecek derlemler oluşturacaktır. Veriler AntConc (Anthony, 2023) derlem aracının sunduğu varsayılan özellikler temelinde işlenecektir. Alanyazında İngilizce için tartışılan kaynak ve hedef derlemin karşılaştırılmasında kullanılacak istatistiksel ölçütün ortaya çıkartacağı konuların ve soruların belirlenmesine metin türleri ve alanları bağlamında odaklandığı söylenebilir.

Projenin temel katkısı Türkçede daha önce çalışılmamış ve sınanmamış bir konu olan anahtar sözcük çıkarımına ilişkin temel bir araştırma örneği olmasıdır. Sınanacak yöntemler ile Türkçede metin türleri ve alanlarına ilişkin bir envanter oluşturulacaktır. Bu bağlamda proje sonunda elde edilecek verinin ve yöntemsel bilginin Türkçenin sözvarlığı zenginliğinin dökümlenmesine ve nitel çözümlemeler için katkı sunması beklenmekte; metin sınıflandırma, yazar tanıma gibi uygulama alanlarında çalışan bilim insanları için de somut çıktılar ortaya çıkarması beklenmektedir.