Konuşma Tanıma Mart 27 · 3 dk okuma

Konuşma Tanıma Karşılaştırma Testi 2023

Konuşma Tanıma nedir?

Otomatik Konuşma Tanıma (ASR) olarak da bilinen Konuşma Tanıma (SR), sisteme ulaşan sesleri metne dönüştürmek için kullanılan bir sistemdir. Bu, kullanıcıların tuşlar veya düğmeler gibi geleneksel araçlar yerine; cihazları ve sistemleri konuşarak kontrol etmelerini sağlayan ilk adımdır.

 

Neden Konuşma Tanıma?

Telefon görüşmeleri hala insanlar ve işletmeler arasındaki ana etkileşim kanalıdır, ancak görüşmelerin manuel yöntemlerle analizi çok fazla zaman ve çaba gerektirir. Günümüzde bu süreç, otomatik konuşma tanıma (ASR) teknolojisinden yararlanan konuşma analizi yazılımıyla önemli ölçüde kolaylaşmıştır. ASR, kayıtların (konuşmadan metne) otomatik olarak dönüştürülmesine yardımcı olur ve çok daha az çaba ve zaman alır.

SR teknolojisi, sanal asistanlar ve sesli IVR sistemleri gibi Diyalogsal Yapay Zeka çözümlerinin arkasındaki temel teknolojidir. Çeşitli sektörlerden farklı büyüklükteki birçok şirket, artık müşterilerinin ve çalışanlarının yaşamlarına olumlu katkıda bulunmak için SR teknolojisiyle desteklenen diyalogsal çözümleri kullanıyor.

 

Ne Üzerinde Çalışıyoruz?

Son zamanlarda, konuşma teknolojileri, derin sinir ağı tabanlı Hibrit modellemeden uçtan uca (E2E) modellemeye geçiyor. E2E modelleri, SR doğruluğu açısından çoğu karşılaştırmada en iyi sonuçları elde ederken, Hibrit modeller hala ticari SR sistemlerinin büyük bir bölümünde kullanılmaktadır.

SESTEK olarak 100’den fazla mühendisle çalışan bir Ar-Ge merkeziyiz ve günceli yakından takip ederek teknolojilerimizi müşterilerimize en iyi çözümleri üretecek şekilde geliştiriyoruz.

Bu nedenle modellerimizi yeni teknolojilerle eğitmek, bu sürümleri karşılaştırmak ve performanslarını ölçmek için bir çalışma yaptık.

 

Hibrit ve E2E Arasındaki Fark

Geleneksel Hibrit konuşma tanıma sistemleri, akustik model, dil modeli ve fonetik sözlük gibi ayrı modülleri bağımsız olarak eğiterek ve alınan ses kaydının deşifresi için bu modülleri birleştirerek çalışır. Öte yandan, E2E, tek bir sinir ağı aracılığıyla çok daha basit bir eğitim boru hattı deşifre işlemine sahiptir. Bu, eğitim ve deşifre süresini azaltır ve doğal dil anlama (NLU) gibi aşağı akış işleme ile ortak optimizasyona izin verir.

Hibrit sistemlerin dezavantajlarına gelince, her modülün optimal durumu, deşifre sırasında kullanılan birleşik sistemin de optimal durumda olduğunu garanti etmez. Her modülün eğitimi farklı uzmanlık gerektirebilir ve fonetik sözlük için bir dilbilim uzmanı gerekebilir.

E2E, Hybrid sistemlerin bu dezavantajlarını ortadan kaldırmayı başarmıştır.

 

SR Doğruluk Testi

Kelime Hata Oranı (WER), SR doğruluklarını karşılaştırmak için en iyi ölçüm yöntemidir. WER (%) olarak gösterilir ve ses için bir referans dökümü ile SR dökümü karşılaştırılarak elde edilir. Düşük bir WER, yüksek doğrulukta bir transkripti belirtir.

WER = (değiştirmeler + eklemeler + silmeler) / konuşulan kelime sayısı

Testlerimizi yaparken 2 farklı sektöre ait 1 saatlik İngilizce Çağrı Merkezi kayıtlarını kullandık, bunları metin haline getirdik ve veri seti içerisinde nihai kelime-hata oranlarını hesapladık.

 

SESTEK, önde gelen SR tedarikçileriyle kıyaslanmıştır ve bu testte sürekli olarak en düşük WER puanını almıştır.


Feragat: Çıktı ile ilgili olarak, diğer çözüm sağlayıcılardan her koşulda daha iyi olduğumuzu iddia etmiyoruz. Konuşma tanıma süreci, geniş bir arama alanı üzerinde milyonlarca parametrenin hesaplanmasını ve optimize edilmesini içerir. Büyük ölçüde stokastiktir (istatistiksel olarak analiz edilebilen ancak kesin olarak tahmin edilemeyen bir model). Bir tedarikçinin SR motoru, belirli bir kayıt için diğerlerinden daha iyi performans gösterebilir, ancak aynı motor bir başkası için farklı bir performans sergileyebilir.


Yazar: Debi Çakar, Ürün Analisti, Ürün Yönetimi Ekibi, SESTEK

 

Keşfetmeye Devam Et
Müşteri Deneyimi Eylül 17 · 6 dk okuma
Müşteri Deneyimi Odaklı Self Servis: Bir Bankacılık Başarı Hikayesi

“Kullanıcı deneyimi” veya moda tabirle “UX.” Son zamanlarda bu terimi ne kadar sık duyduğumuzu fark ettiniz mi? Mobil uygulamalardan ürün tasarımına, web sitelerinden tanıtım yazılarına uzanan farklı alanlarda sürekli olarak...

Devamını Oku
Strateji Ocak 30 · 5 dk okuma
Gartner’ın 2023 ve Sonrası İçin En İyi 10 Stratejik Öngörüsü

Geçtiğimiz yıllarda olduğu gibi bu yıl da teknoloji kararlarımızı büyük ölçüde etkileyeceğine inandığımız ilk on trendi sizler için derledik.

Devamını Oku
Yapay Zeka Şubat 21 · 5 dk okuma
Dostumuz ChatGPT bizim için derledi

ChatGPT ile çağrı merkezlerinin olmazsa olmazı otomasyon ve sigorta sektöründe diyalogsal yapay zekanın önemi üzerine sohbet ettik.

Devamını Oku

Bize Ulaşın

Teşekkürler!

İletişime geçtiğiniz için teşekkürler. En kısa sürede size geri döneceğiz.

Başarısız!


Anasayfaya Dön

Application Form

Click here or drop files to upload

Teşekkürler!

Hepsi Tamam!


- pozisyonu için başvurunuz başarıyla gönderildi.


Kariyer Sayfasına Dön

Başarısız!


Kariyer Sayfasına Dön