Konuşma Tanıma Kasım 11 · 3 dk okuma

Konuşma Tanıma Karşılaştırma Testi 2022

Konuşma Tanıma nedir?

Otomatik Konuşma Tanıma (ASR) olarak da bilinen Konuşma Tanıma (SR), sisteme ulaşan sesleri metne dönüştürmek için kullanılan bir sistemdir. Bu, kullanıcıların tuşlar veya düğmeler gibi geleneksel araçlar yerine; cihazları ve sistemleri konuşarak kontrol etmelerini sağlayan ilk adımdır.

 

Neden Konuşma Tanıma?

Telefon görüşmeleri hala insanlar ve işletmeler arasındaki ana etkileşim kanalıdır, ancak görüşmelerin manuel yöntemlerle analizi çok fazla zaman ve çaba gerektirir. Günümüzde bu süreç, otomatik konuşma tanıma (ASR) teknolojisinden yararlanan konuşma analizi yazılımıyla önemli ölçüde kolaylaşmıştır. ASR, kayıtların (konuşmadan metne) otomatik olarak dönüştürülmesine yardımcı olur ve çok daha az çaba ve zaman alır.

SR teknolojisi, sanal asistanlar ve sesli IVR sistemleri gibi Diyalogsal Yapay Zeka çözümlerinin arkasındaki temel teknolojidir. Çeşitli sektörlerden farklı büyüklükteki birçok şirket, artık müşterilerinin ve çalışanlarının yaşamlarına olumlu katkıda bulunmak için SR teknolojisiyle desteklenen diyalogsal çözümleri kullanıyor.

 

Ne Üzerinde Çalışıyoruz?

Son zamanlarda, konuşma teknolojileri, derin sinir ağı tabanlı Hibrit modellemeden uçtan uca (E2E) modellemeye geçiyor. E2E modelleri, SR doğruluğu açısından çoğu karşılaştırmada en iyi sonuçları elde ederken, Hibrit modeller hala ticari SR sistemlerinin büyük bir bölümünde kullanılmaktadır.

SESTEK olarak 100’den fazla mühendisle çalışan bir Ar-Ge merkeziyiz ve günceli yakından takip ederek teknolojilerimizi müşterilerimize en iyi çözümleri üretecek şekilde geliştiriyoruz.

Bu nedenle modellerimizi yeni teknolojilerle eğitmek, bu sürümleri karşılaştırmak ve performanslarını ölçmek için bir çalışma yaptık.

 

Hibrit ve E2E Arasındaki Fark

Geleneksel Hibrit konuşma tanıma sistemleri, akustik model, dil modeli ve fonetik sözlük gibi ayrı modülleri bağımsız olarak eğiterek ve alınan ses kaydının deşifresi için bu modülleri birleştirerek çalışır. Öte yandan, E2E, tek bir sinir ağı aracılığıyla çok daha basit bir eğitim boru hattı deşifre işlemine sahiptir. Bu, eğitim ve deşifre süresini azaltır ve doğal dil anlama (NLU) gibi aşağı akış işleme ile ortak optimizasyona izin verir.

Hibrit sistemlerin dezavantajlarına gelince, her modülün optimal durumu, deşifre sırasında kullanılan birleşik sistemin de optimal durumda olduğunu garanti etmez. Her modülün eğitimi farklı uzmanlık gerektirebilir ve fonetik sözlük için bir dilbilim uzmanı gerekebilir.

E2E, Hybrid sistemlerin bu dezavantajlarını ortadan kaldırmayı başarmıştır.

 

SR Doğruluk Testi

Kelime Hata Oranı (WER), SR doğruluklarını karşılaştırmak için en iyi ölçüm yöntemidir. WER (%) olarak gösterilir ve ses için bir referans dökümü ile SR dökümü karşılaştırılarak elde edilir. Düşük bir WER, yüksek doğrulukta bir transkripti belirtir.

WER = (değiştirmeler + eklemeler + silmeler) / konuşulan kelime sayısı

Testlerimizi yaparken 2 farklı sektöre ait 1 saatlik İngilizce Çağrı Merkezi kayıtlarını kullandık, bunları metin haline getirdik ve veri seti içerisinde nihai kelime-hata oranlarını hesapladık.

 

SESTEK, önde gelen SR tedarikçileriyle kıyaslanmıştır ve bu testte sürekli olarak en düşük WER puanını almıştır.


Feragat: Çıktı ile ilgili olarak, diğer çözüm sağlayıcılardan her koşulda daha iyi olduğumuzu iddia etmiyoruz. Konuşma tanıma süreci, geniş bir arama alanı üzerinde milyonlarca parametrenin hesaplanmasını ve optimize edilmesini içerir. Büyük ölçüde stokastiktir (istatistiksel olarak analiz edilebilen ancak kesin olarak tahmin edilemeyen bir model). Bir tedarikçinin SR motoru, belirli bir kayıt için diğerlerinden daha iyi performans gösterebilir, ancak aynı motor bir başkası için farklı bir performans sergileyebilir.


Yazar: Debi Çakar, Ürün Analisti, Ürün Yönetimi Ekibi, SESTEK

 

Keşfetmeye Devam Et
Sesli IVR Aralık 28 · 4 dk okuma
Sesli IVR ile Tahsilat Süreçlerini Dijitalleştirme

Pandeminin olumsuz etkileri ve küresel durgunluk riskinin bir sonucu olarak sürekli artış gösteren tüketici borcu, bu pazarın büyümesine katkıda bulunuyor.

Devamını Oku
Müşteri Deneyimi Eylül 17 · 6 dk okuma
Müşteri Deneyimi Odaklı Self Servis: Bir Bankacılık Başarı Hikayesi

“Kullanıcı deneyimi” veya moda tabirle “UX.” Son zamanlarda bu terimi ne kadar sık duyduğumuzu fark ettiniz mi? Mobil uygulamalardan ürün tasarımına, web sitelerinden tanıtım yazılarına uzanan farklı alanlarda sürekli olarak...

Devamını Oku
Otomasyon Şubat 21 · 5 dk okuma
Sigorta Sektörü İçin Zorunlu Bir Poliçe: Otomasyon

Günümüzde teknoloji, müşterilerin şirketlerle nasıl etkileşime girdiğini ve onlarla ilgili algılarını belirliyor. Sigorta sektörü de bundan azade değil. 2020’de PwC tarafından yapılan bir araştırma sonucunda görüşülen kişilerin A'inin; hizmetlerindeki dij

Devamını Oku

Bize Ulaşın

Teşekkürler!

İletişime geçtiğiniz için teşekkürler. En kısa sürede size geri döneceğiz.