Ses tanıma sistemleri, mikrofon tarafından alınmış akustik bir işaretin, kelime kümesine çevirilmesini sağlayan sistemlerdir.
Ses Tanıma Süreci:
Sesin kaydedilmesi, sesin işlenmesi, karşılaştırma ve eşleştirme şeklindedir.
Sesin kaydedilmesi; mikrofonla alınan akustik sesin, bilgisayarda örneklenerek sayısal hale getirilip kayıt edilme işlemidir.
Sesin işlenmesi aşamasında genel olarak yapılan işlemler pencereleme,filtreleme, normalizasyon ve sesin kodlanmasıdır.
Karşılaştırma ve eşleştirmede kullanılan yapılar:
Saklı Markov Modeli
Ses tanıma sistemleri ses dalgalarını ses vektörlerine dönüştürerek işlem yaparlar. Oluşturulan bu vektörler Markov modeline göre sonlu durum makinesi gibi incelenirler. Bu durumda ses vektörlerinde bir sonraki vektör geçmişe bağlı olmayıp şu ana bağlıdır.
Bu modeldeki durum dizisi saklıdır ve vektörlerde bu durum dikkate alınarak hesaplanır. Buna Saklı Markov Modeli denir ve buda sistemde bazı sınırlamalara neden olur. Ses işaretlerin sonlu durum makinesi olarak işlenmesi için ses işaretleri simgeleştirilmelidir.
Bu işlem gerçekleştirilmeden daha önce ise ses dalgası işaret işleme aşamasında geçirilmelidir.
Durum dizisini bulamak için gerçekleştirilen algoritmalar.
- İleri algoritması: Durumların sırasını vererek ve çıkabilecek tüm durumların sıralarının olasılıklarını toplanmasını sağlar.
- Viterbi algoritması: Durum sıralarından ses vektörleriyle örtüşen en ideal olanı bulunur.
- Baum-Welch algoritması: Vektör dizisini baştan sona ve sondan başa tarayarak mevcut olasılıkları hesaplar.
Ses işaretleri işlenip parçalara ayrıldıktan sonra, elde edilen parçalar mevcut ses ve hecelerle örtüştürülmelidir. Bunu sağlamak içinde gramer, telaffuz gibi dil öğeleri analiz edilmelidir.
Ses işaretlerini işlenip, en küçük parçalarına ayırdıktan sonra, bu parçaların denk geldikleri ses ve hecelerle örtüştürülmesi gerekir. Bunun için tanımak istenilen ifadeleri türeten gramerden, telaffuz sözlüğü, sözcük ağları, gibi pek çok öğeyi harmanlamak gerekir.
Yapay Sinir Ağları
Yapay sinir ağları, giriş ve çıkışlar arası bir ilişki oluşturabilmek üzere eğitilebilir. Bu özellik nedeniyle örüntü tanıma ya da sınıflandırma amacıyla kullanılmaktadırlar. Ses tanıma sistemlerinde, amaç ses işaretine karşılık gelen fonem ve fonemlerden kelimelerin belirlenmesi olduğundan, ses işaretine karşılık çıkarılan özellik vektörlerinin yapay sinir ağları ile sınıflandırılması sağlanabilir. Ses tanıma sistemlerinde Yapay sinir ağları ses tanıma sistemlerinde bu şekilde kullanılır.
Dynamic Time Warping
Belirli bir sözcüğün aynı kişi tarafından yapılan her seslendirmesi aynı olmayabilir. Sözcüğün seslendirilmesi, bir seslendirmede uzun, bir seslendirmede ise daha kısa zamanda gerçekleştirilebilir.
Dynamic Time Warping algoritması, bu iki seslendirmeyi, zaman döneminde yayarak ya da daraltarak birbirine yaklaştırılmaya çalışır. Böylece bu iki seslendirme, zaman olarak örtüştürülmüş olur.
DTW algoritması, sözcük tabanlı ses tanıma sistemlerinde sık kullanılan bir yöntemdir. Bu yaklaşımla, çalışma anında saptanan sözcük kesimlemesi, sistemde kayıtlı sözcük şablonları ile seslendirme zamanları örtüştürülerek karşılaştırılması gerçekleştirilebilir.
Ses Tanıma Sistemlerinin Kullanım Alanları
Ses tanıma sistemleri günümüzde birçok alanda kullanılır. Konuşmadan yazıya çevirme, güvenlik amaçlı ses tanıma, engelliler için sesli komut gibi uygulamaları vardır.
Ses tanıma sistemleri, çalan müziği tanıma, çalan şarkıdaki sözleri senkronize etme gibi alanlarda da kullanılabilir.
[rwp-review id=”0″]