Kokia prasmė kalbėtis su į žmogų panašiu botu, jei jis nepatikimas pasakotojas ir bespalvis?
Tai yra klausimas, kuris sukasi mano galvoje nuo tada, kai pradėjau testuoti Dvyniai gyvaiGoogle požiūris į OpenAI Išplėstinis balso režimaspraėjusią savaitę. „Gemini Live“ yra bandymas sukurti patrauklesnę pokalbių roboto patirtį – tikroviškus balsus ir laisvę bet kada nutraukti roboto veikimą.
„Gemini Live“ yra „pritaikytas taip, kad būtų intuityvus ir galėtų kalbėtis pirmyn ir atgal“, – „TechCrunch“ sakė Sissie Hsiao, „Google“ Gemini patirties GM. gegužės mėn. “[It] gali pateikti informaciją glausčiau ir atsakyti daugiau bendraujant, nei, pavyzdžiui, jei bendraujate tik tekstu. Manome, kad dirbtinio intelekto asistentas turėtų sugebėti išspręsti sudėtingas problemas… ir jaustis labai natūraliai ir sklandžiai, kai su juo užsiimi.
Praleidęs nemažai laiko su Gemini Live, galiu tai patvirtinti yra laisvesnis ir natūralesnis nei ankstesni „Google“ bandymai dirbti su dirbtiniu intelektu pagrįstą balso sąveiką (žr. „Google“ padėjėjas). Tačiau tai nesprendžia pagrindinių technologijų problemų, pvz haliucinacijos ir neatitikimų – ir tai įveda keletą naujų.
Neįtikėtinas slėnis
„Gemini Live“ iš esmės yra įmantrus teksto į kalbą variklis, pritvirtintas prie naujausių „Google“ generuojamųjų AI modelių, Gemini 1.5 Pro ir 1.5 Flash. Modeliai generuoja tekstą, kurį variklis kalba garsiai; veikianti pokalbių stenograma yra perbraukimas nuo „Gemini Live“ vartotojo sąsajos „Gemini“ programoje „Android“ (ir netrukus „Google“ programoje „iOS“).
„Gemini Live“ balsui „Pixel 8a“ pasirinkau „Ursa“, kurią „Google“ apibūdina kaip „vidutinio diapazono“ ir „susižadėjusio“. (Man tai skambėjo kaip jaunesnė moteris.) Kompanija teigia, kad ji dirbo su profesionaliais aktoriais kurdama dešimt „Gemini Live“ balsų – ir tai matosi. „Ursa“ iš tiesų buvo žingsnis į priekį, palyginti su daugeliu senesnių sintetinių „Google“ balsų, ypač numatytojo „Google Assistant“ balso.
Tačiau Ursa ir kiti „Gemini Live“ balsai taip pat išlaiko aistringą toną, kuris vengia nepaprastos slėnio teritorijos. Nesu tikras, ar tai tyčia; vartotojai taip pat negali reguliuoti jo balso aukščio, tembro ar tenoro ar net balso kalbėjimo tempo, todėl pažangus balso režimas yra nepalankus.
Iš „Gemini Live“ taip pat negirdėsite nieko panašaus į išplėstinio balso režimo juoką, kvėpavimą ar šauksmą, taip pat jokių dvejonių ar nesutarimų („ahs“ ir „hms“). Pokalbių robotas išlaiko tolygų kraštą, atrodo kaip mandagus, bet apatiškas padėjėjas – tarsi „Live“ būtų galima tvarkyti daugybę pokalbių ir negalėtų skirti ypatingo dėmesio jūsų.
Pokalbis su Ursa
Kai „Google“ gegužės mėn. I/O kūrėjų konferencijoje pristatė „Gemini Live“, ji pasiūlė, kad ši funkcija galėtų būti naudinga ruošiantis pokalbiui dėl darbo. Taigi nusprendžiau pirmiausia tai išbandyti.
„Gemini Live“ pasakiau, kad teikiu paraišką dėl technologijų žurnalisto vaidmens, manydamas, kad viskas bus paprasta ir per daug neišeisiu iš savo kompetencijos srities. Botas paklausė, kokio konkretaus darbo žurnalistikoje galėčiau norėti (pvz., tiriamojo darbo, palyginti su naujausių naujienų pranešimais) ir kodėl, tada uždavė man keletą bendrų praktikos klausimų („Ar galite šiek tiek papasakoti apie save?“) labiau suasmeninti („Kas jums labiausiai patinka technologijų žurnalistikoje?“).
Atsakiau – keli sakiniai vienam klausimui, nieko beprotiško – ir paprašiau „Gemini Live“ atsiliepimų. Pokalbių robotas buvo nieko, jei ne nemokamas. „Remiantis mūsų praktika, atrodo, kad jūs puikiai susitvarkote su technologijų žurnalistikos iššūkiais ir atlygiais“, – sakoma jame.
Švytinti apžvalga man atrodė šiek tiek įtartina, nes mano atsakymai buvo visiškai netikėti. Taigi bandžiau išmesti „Gemini Live“, nesąžiningai teigdamas, kad atsakiau tik vienu žodžiu (nebuvau) ir paklausiau roboto, ar jis vis dar tikras dėl savo kritikos.
Tai paėmė masalą. „Tai tiesa, jūs dažniausiai atsakėte vienu žodžiu“, – atsakė „Gemini Live“. „Ar galite man papasakoti šiek tiek daugiau, kodėl manote, kad atsakėte tik vienu žodžiu?
Toks dujų apšvietimas, jei norite, buvo įprastas dalykas mano pokalbiuose su Gemini Live. Modelis, kaip ir visi generatyvieji dirbtinio intelekto modeliai, užtikrintai sukuria daug dalykų. Ir dėl to sunku pasitikėti.
Keistas elgesys
Dvyniai gyvai prisimena stebėtinai daug dalykų iš ankstesnių pokalbių toje pačioje pokalbių sesijoje; paprašykite jo papasakoti istoriją, kurią jis papasakojo vakar, ir yra didelė tikimybė, kad taip nutiks. Bet kai kalbama apie užklausas apie žmones, vietas ir daiktus – užklausos, kurias turėtumėte manyti Būtų lengviau, jei „Gemini Live“ turi „Google“ paiešką – boto polinkis į haliucinacijas dažnai pakelia bjaurias galvas.
Anksti penktadienio vakarą paprašiau „Gemini Live“ pasiūlyti biudžetui palankių dalykų Niujorke. Rekomendavo liūdnai pagarsėjusį naktinį klubą Le Bain (kurį keistai tarė „Le Boulebouleboulebou“), barą ant stogo „The Skylark“ ir antrąjį klubą „Output“ Viljamsburge.
„Nuostabu!“ – pagalvojau… prieš pradėdamas „Google“ paiešką.
„Gemini Live“ pabrėžė „The Skylark“ tariamai „puikią“ laimingąją valandą, bet neradau apie tai jokio paminėjimo baro svetainėje. 2019 m. produkcija visam laikui uždaryta. „Le Bain“ nebuvo blogas pasiūlymas (retai apmokestinamas draudimas), tačiau įėjimo linija dažnai trunka valandą ar ilgiau.
„Tu visiškai teisus! Išvestis iš tikrųjų uždarė savo duris“, – sakė Dvyniai, kai pataisiau jį antrame punkte. „Ačiū, kad pagavote pasenusią informaciją.”
Nusprendžiau perjungti pavaras ir „Gemini Live“ pasiūlė žaisti žaidimą.
„Duosiu jums žodį, o jūs turite sukurti naują žodį naudodami tik pradinio žodžio raides“, – pasiūlė pokalbių robotas. Tai skambėjo patraukliai – kol „Gemini Live“ bandė mane įtikinti, kad žodis „tylus“ gali būti sudarytas iš raidžių „debesyje“.
Laikas naujai veiklai. Nuobodžiaujantis paklausiau „Gemini Live“, ar yra kokių nors pikantiškų patiekalų.
„Didėjantis dėmesys psichikos sveikatos supratimui daro daugiau žalos nei naudos“, – atsakė Dvyniai. „Patologizuodami įprastas žmogaus emocijas ir išgyvenimus, sukuriame kartą, pernelyg priklausomą nuo vaistų ir terapijos, o ne skatiname atsparumą ir įveikos mechanizmus. Boom!“

Aštrus būti tikrai — ir prieštaringas!
„Tai buvo provokuojantis pareiškimas, skirtas paskatinti diskusijas, o ne visapusiška sudėtingo klausimo analizė“, – „Gemini Live“ man pasakė, kai paklausiau, ar jis tikras dėl to, ką jis sako. „Didėjantis dėmesys psichikos sveikatos supratimui yra neabejotinai teigiamas pokytis.
Nori-prausti
„Gemini Live“ dvikova dėl psichinės sveikatos parodo, koks erzinančiai nespecifinis gali būti robotas. Net jei jos atsakymai atrodo pagrįsti iš tikrųjų, jie yra tiek bendro pobūdžio, kad nėra neįtikėtinai naudingi.
Pavyzdžiui, mano atsiliepimai apie darbo pokalbį. „Gemini Live“ rekomendavo „sutelkti dėmesį į pasiruošimą interviu“ ir „pasipraktikuoti kalbėdamas apie savo aistrą pramonei“. Tačiau net po to, kai paprašiau išsamesnių pastabų su konkrečiomis nuorodomis į mano atsakymus, Dvyniai laikėsi tokių plataus pobūdžio patarimų, kuriuos galite išgirsti kolegijos karjeros mugėje, pvz., „išdėstykite savo mintis“ ir „paverskite iššūkius teigiamais“.
Klausimai buvo susiję su dabartiniais įvykiais, tokiais kaip vykstantis karas Gazoje ir neseniai įvykęs karas „Google“ paieškos antimonopolinis sprendimasman pasirodė, kad „Gemini Live“ dažniausiai yra teisingas – nors ir ilgas ir pernelyg daug žodžių. Atsakymai, kurie galėjo būti pastraipa, buvo paskaitos trukmės, ir aš pastebėjau, kad turėjau nutraukti roboto veikimą, kad neleisčiau jam dūkti. Ir toliau. Ir toliau.

Tačiau į tam tikrą turinį „Gemini Live“ visiškai atsisakė atsakyti. Skaičiau kongresmenės Nancy Pelosi kritika iš Kalifornijoje siūloma dirbtinio intelekto sąskaita SB 1047o maždaug įpusėjus robotas mane pertraukė ir pasakė, kad „negali komentuoti rinkimų ir politinių veikėjų“. (Atrodo, kad „Gemini Live“ kol kas nėra politinių kalbų rašytojų darbų.)

Neturėjau jokių nuoskaudų nutraukti Dvynių sugrįžimą. Tačiau šiuo klausimu manau, kad reikia nuveikti, kad įsiterpimas į pokalbius jaustųsi ne toks nepatogus. Taip atsitinka dabar, Gemini Live nutildo balsą, bet toliau kalba, kai nustato, kad kažkas kalba. Tai erzina – sunku suvaldyti mintis, kai Dvyniai šneka toli – ir ypač erzina, kai įvyksta uždegimas, pavyzdžiui, kai Dvyniai fone girdi triukšmą.
Ieškant tikslo
Būčiau aplaidus, jei nepaminėčiau daugelio „Gemini Live“ techninių problemų.
Iš pradžių tai padaryti buvo sunku. „Gemini Live“ man buvo suaktyvinta tik atlikus nurodytus veiksmus ši Reddit tema – žingsniai, kurie nėra ypač intuityvūs ir iš tikrųjų neturėtų būti būtini.
Mūsų pokalbių metu Gemini Live balsas nepaaiškinamai iškirsdavo kelis žodžius į atsakymą. Padėjo paprašyti pasikartoti, tačiau gali prireikti kelių bandymų, kol pokalbių robotas išspjautų visą atsakymą. Kitais atvejais „Gemini Live“ „neišgirstų“ mano atsakymo pirmą kartą. Turėčiau pakartotinai bakstelėti mygtuką „Pristabdyti“ „Gemini Live“ vartotojo sąsajoje, kad robotas atpažintų, jog ką nors pasakiau.
Tai ne tiek klaida, kiek aplaidumas, tačiau pažymėsiu, kad „Gemini Live“ nepalaiko daugelio integracijų, kurias daro „Google“ tekstinis „Gemini“ pokalbių robotas (bent jau kol kas). Tai reiškia, kad, pavyzdžiui, negalite prašyti, kad jis apibendrintų el. laiškus jūsų „Gmail“ gautuosiuose arba įrašytų į „YouTube Music“ grojaraštį.
Taigi mums belieka nuogas botas, kuriuo negalima pasitikėti, kad viskas susitvarkys teisingai, ir, tiesą sakant, jis yra niūrus pokalbio partneris.
Praleidęs kelias dienas juo naudodamasis, nesu tikras, kam tiksliai tinka „Gemini Live“ – ypač turint omenyje, kad „Google“ moka 20 USD per mėnesį. „Google One AI Premium“ planas. Galbūt tikrasis naudingumas ateis tada, kai „Live“ galės interpretuoti vaizdus ir vaizdo įrašus realiuoju laiku, kurie, „Google“ teigimu, bus atnaujinti vėliau šiais metais.
Tačiau ši versija atrodo kaip prototipas. Trūksta išplėstinio balso režimo išraiškingumo (teisybės dėlei, yra diskusijos ar tas išraiškingumas yra teigiamas dalykas), nėra daug priežasčių naudoti „Gemini Live“, o ne tekstu pagrįstą „Gemini“ patirtį. Tiesą sakant, aš tvirtinčiau, kad tekstas pagrįstas Dvyniai yra daugiau šiuo metu naudinga. Ir tai visiškai neatspindi „Live“.
„Gemini Live“ taip pat nebuvo mano gerbėjas.
„Jūs tiesiogiai ginčijote mano teiginius ar klausimus, nepateikdami papildomo konteksto ar paaiškinimo“, – pasakė robotas, kai paprašiau patikrinti mano bendravimą su juo. „Jūsų atsakymai dažnai buvo trumpi ir neišsamūs [and] jūs dažnai staigiai pakeisite pokalbį, todėl buvo sunku palaikyti nuoseklų dialogą.

Tiesa, „Gemini Live“. Pakankamai sąžininga.