Buluş

Google sesleri ayırt edebilen derin öğrenme sistemi geliştirdi

Biz insanlar kalabalıktaki sesleri ayırt etmede genellikle iyiyiz. Peki ya bilgisayarlar? Bizim kadar değil. Ancak Google, şaşırtıcı derecede basit bir çözüme sahip.

Google araştırmacıları, konuştuklarında insanların yüzlerine bakarak belirli sesleri ayırt edebilecek bir derin öğrenme sistemi geliştirdi. Ekip önce tek başına konuşan kişileri tanımak için nöral ağ modelini eğitti. Daha sonra yapay zekanın farklı ses parçalarına çoklu sesleri nasıl izole edeceğini öğretmek için arka plan gürültüsünün yer aldığı sanal “partiler” oluşturdu.

Videodan da görebileceğiniz üzere sonuçlar gayet tatmin edici. İnsanlar aynı anda konuştuklarında bile (Conan O’brian’a konuk olan Jon Dore ve Rory Scovel gibi), yapay zeka sadece yüzlerine odaklanarak bir kişi için temiz bir ses parçası oluşturabiliyor. Konuşmacı, yüzünü el hareketleri veya mikrofonla kısmen kapatsa bile sonuç yine başarılı.

Araştırman detaylarının yer aldığı blog yazısında geliştirme sürecini ekip şu şekilde açıklıyor:

“Eğitim örnekleri oluşturmak için, 100.000 yüksek kaliteli video konferans ve YouTube’dan geniş bir koleksiyon toplayarak başladık. Bu videolardan, temiz bir konuşmayla (ör. Karışık müzik, kitle sesleri veya başka bir konuşmacı) ve video karelerinde görünür olan tek bir hoparlörle bölümler çıkardık. Bu, kabaca 2000 saatlik video klipler, her biri kameraya görünen ve arka plan karışması olmayan bir kişi ile sonuçlandı. Daha sonra bu temiz verileri “sentetik kokteyl partileri” oluşturmak için kullandık – yüz videolarının karışımları ve bunların ayrı video kaynaklarından gelen konuşmalarının yanı sıra AudioSet’ten edindiğimiz konuşma dışı arka plan sesleri.”

Ne için kullanılacak?

Peki Google bu teknolojiyle ne yapacak? Öncelikli olarak elbette kendi ticari ürünlerinde kullanacak. Şirketin görüntülü konuşma servisleri bunların başında geliyor. Örneğin bu servisleri kalabalık bir ortamda veya grup görüşmelerinde kullanırken epey işe yarayabilir. Söz konusu teknoloji özellikle profesyonel olarak video çekim işleriyle uğraşanlar için ideal görünüyor.

Ancak akıllara hemen son zamanların popüler konusu olan kullanıcı gizliliği geliyor. Sesleri ayırt eden derin öğrenme teknolojisi, kalabalık ortamlardaki insanları dinlemek için kullanılabilir. Hatta devletler teknoloji şirketlerinden bizzat bunu talep edebilir. Ancak bu tahminler için henüz erken. Öncelikle teknolojinin gelişimini tamamlaması lazım.

Paylaş
Etiketler

gelecek.tech

Teknolojinin dokunduğu her konuda ilham alabileceğiniz teknolojik yaşam platformu.

İlgili yazılar

İlginizi çekebilir

Close
Close