Teknoloji

Sentetik Veri Tehlikeli Bir Öğretmendir

31 Ocak 2024

Ölçek büyütme yarışında, düşük kaliteli veri kümeleri üzerinde eğitilen yapay zekaların sayısı arttı ve bu, her türlü eşitsizliği daha da artıracak.

↓

Nisan 2022’de, metinden resme görsel-dilsel bir model olan Dall-E piyasaya sürüldüğünde, ilk üç ayda bir milyondan fazla kullanıcıyı çektiği iddia edildi. Bunu Ocak 2023’te, görünüşe göre lansmandan sadece iki ay sonra 100 milyon aktif kullanıcıya ulaşan ChatGPT izledi. Her ikisi de üretken yapay zekanın geliştirilmesinde kayda değer anlara işaret ediyor ve bu da yapay zeka tarafından oluşturulan içeriğin web’de patlamasına neden oluyor. Kötü haber şu ki, 2024’te bu aynı zamanda uydurma, anlamsız bilgilerde, yanlış bilgilerde ve dezenformasyonda bir patlama göreceğimiz ve bu yapay zeka modellerinde kodlanan sosyal olumsuz stereotiplerin şiddetleneceği anlamına geliyor.

Yapay zeka devrimi, yakın zamanda ortaya çıkan herhangi bir teorik buluşla değil (aslında yapay sinir ağlarının temelini oluşturan temel çalışmaların çoğu onlarca yıldır ortalıkta dolaşıyor) büyük veri kümelerinin “mevcudiyeti” ile teşvik edildi. İdeal olarak bir yapay zeka modeli, belirli bir olguyu (insan dili, biliş veya görsel dünya) gerçek olguyu olabildiğince yakından temsil edecek şekilde yakalar.

Örneğin, büyük bir dil modelinin (LLM) insana benzer metinler üretmesi için, modelin bir şekilde insan dilini, etkileşimini ve iletişimini temsil eden büyük miktarda veriyle beslenmesi önemlidir. İnanışa göre, veri seti ne kadar büyük olursa, insan olaylarını tüm doğal güzelliği, çirkinliği ve hatta zalimliğiyle o kadar iyi yakalar. Modelleri, veri kümelerini ve GPU’ları büyütme takıntısının damgasını vurduğu bir çağdayız. Örneğin mevcut Yüksek Lisans’lar artık trilyon parametreli makine öğrenimi modelleri çağına girdiler, bu da milyarlarca boyutlu veri kümelerine ihtiyaç duydukları anlamına geliyor. Nerede bulabiliriz? İnternette.

Bu web kaynaklı verilerin, dilin modellenebileceği bir proxy olan insan iletişimi ve etkileşimi için “temel gerçeği” yakaladığı varsayılmaktadır. Her ne kadar çeşitli araştırmacılar çevrimiçi veri setlerinin çoğu zaman düşük kalitede olduğunu, olumsuz klişeleri daha da kötüleştirdiğini ve çoğu zaman dışlanmış gruplara yönelik ırkçı hakaretler ve nefret söylemi gibi sorunlu içerik barındırdığını göstermiş olsa da, bu durum büyük yapay zeka şirketlerinin bu verileri kullanmaktan vazgeçmesini engellemedi. Bu tür veriler ölçek büyütme yarışında.

Üretken yapay zekayla birlikte bu sorun çok daha kötü hale gelmek üzere. Bu modeller, sosyal dünyayı girdi verilerinden nesnel bir şekilde temsil etmek yerine, sosyal stereotipleri kodlar ve güçlendirir. Aslında son çalışmalar, üretken modellerin tarihsel olarak marjinalleştirilmiş kimliklere, kültürlere ve dillere yönelik ırkçı ve ayrımcı tutumları kodladığını ve yeniden ürettiğini göstermektedir.

Şu anda ne kadar metin, resim, ses ve video verisinin hangi hızda oluşturulduğundan emin olmak, en son teknolojiye sahip algılama araçlarıyla bile imkansız olmasa da zordur. Stanford Üniversitesi araştırmacıları Hans Hanley ve Zakir Durumeric, 1 Ocak 2022 ile 31 Mart 2023 arasında Reddit’te yayınlanan sentetik makalelerin sayısında yüzde 68, yanlış bilgi veren haber makalelerinde ise yüzde 131 artış olacağını tahmin ediyor. Boomy, çevrimiçi müzik oluşturucu şirket , şu ana kadar 14,5 milyon şarkı (veya kayıtlı müziğin yüzde 14’ü) ürettiğini iddia ediyor. Nvidia, 2021 yılında, 2030 yılına kadar yapay zeka modellerinde gerçek verilerden daha fazla sentetik veri bulunacağını öngördü. Kesin olan bir şey var: Web, sentetik olarak üretilmiş veriler tarafından istila ediliyor.

Endişe verici olan şey, bu büyük miktardaki üretken yapay zeka çıktılarının, gelecekteki üretken yapay zeka modelleri için eğitim materyali olarak kullanılacak olmasıdır. Sonuç olarak 2024 yılında üretken modellere yönelik eğitim materyallerinin çok önemli bir kısmı üretken modellerden üretilen sentetik verilerden oluşacak. Yakında yapay zeka modellerini yalnızca yapay zeka modelleri tarafından üretilen sentetik verileri kullanarak eğiteceğimiz özyinelemeli bir döngünün içinde sıkışıp kalacağız. Bunların çoğu, tarihsel ve toplumsal eşitsizlikleri artırmaya devam edecek stereotiplerle kirlenecek. Ne yazık ki bu aynı zamanda tıp, terapi, eğitim ve hukuk dahil olmak üzere yüksek riskli sektörlere uygulanan üretken modelleri eğitmek için kullanacağımız veriler olacak. Bunun feci sonuçlarıyla henüz yüzleşmedik. 2024 yılına gelindiğinde, şu anda çok etkileyici bulduğumuz üretken yapay zeka içerik patlaması, bizi ısırmak için geri gelecek devasa bir toksik çöplüğe dönüşecek.

Kaynak: Wired Magazine