Hang-asszisztensek

A hang-asszisztensek közötti választás nem egyszerű, így mielőtt kiválasztanánk a számunkra legmegfelelőbbet, ismerkedjünk meg velük.

Az első hang-asszisztens 2011. október 4-én jelent meg az Apple iPhone 4S-sel: Ő volt Siri a digitális asszisztens, akit azóta többször megújult hangszínileg, új képességeket szerzett és egy időben eléggé lemaradt közben a feltörekvő konkurenciához képest.
Na de hogyan is működik egy hang-asszisztens, milyen célból hozták létre és mire használják elsősorban az emberek?
Nézzük sorban:

Hogy működik egy hang-asszisztens, egyáltalán mi is az?

A hang-asszisztensek két irány találkozásából jöttek létre. Az egyik a virtuális asszisztens, amely nyelvtani mondatokat dolgozott fel és próbált rá választ adni természetesnek ható szöveggel. Chat szerű megoldások korán, már az 1960-as évektől rendelkezésre álltak, a az ELIZA nevű “chat-bot” például az össes Tandy/Radio Shack számítógépen elérhető volt az 1970-es években. A működés a begépelt szövegben lévő kulcskifejezések megtalálására és erre való “dobozolt válaszra” épített, így az életszerű beszélgetéstől messze állt, viszont nagyon jól tudta hozni a “táv psziho-analítikust”, aki mindig visszakérdez a válaszadás helyett.

A másik irányvonal a természetes hang alapú szöveg írásos leképzése (TTS) függetlenül a hang egyedi tulajdonságaitól.
Viszonylag korán rendelkezésre álltak a hangutasításokat feldolgozó rendszerek, amelyek egy konkrét hangmintára reagáltak: Azonos szórend, hanglejtés, akcentus és szövegdinamika kellett ahhoz, hogy a hangutasítást egy parancshoz tudják rendelni. A viruális asszisztensek megjelenésével egy lépéssel közelebb kerültünk a Turing által megálmodott világhoz, ahol nem lehet különbséget tenni csak a beszélgetés alapján, hogy emberrel vagy géppel folytatunk-e párbeszédet. Ez persze koránt sem jelenti azt, hogy a Apple Siri, Google Assistant (mért nincs még emberi neve vajon?), és Amazon Alexa képesek úgy kommunikálni, mintha egy valódi asszisztenssel beszélgetnénk (bár a Google Duplex eléggé meggyőző), és ennek több oka is van, amit a következő pontokban fogok kifejteni.
A hang-asszisztens célja tehát, hogy az élő beszédet “megértse” és annak megfelelően reagáljon, akár valamilyen feladat végrehajtásával akár válaszadással.

Miért nem képesek a jelenlegi hang-asszisztensek úgy kommunikálni, mint egy valódi asszisztens?

Több oka is meghúzódik a háttérben.

  1. A jelenleg elterjedt megoldások “kiszervezik a megértést”: Valójában egy hangszóró és mikrofon párost kapunk, amely az adott hívószóval való aktiválás után elküldi a rögzített szöveget egy szerverfarmban található számítógép együttesre (értsd “felhőbe”) az interneten keresztül és az onnan érkező hangfájlt játsza le. Bár vannak próbálkozások a lokális hang-asszisztensi működésre is (ezekről is ejtünk szót a későbbiekben), jelenleg szinte csak felhős megoldáshoz férhetünk hozzá. Ennek az egyértelmű hátránya a hálózati szolgáltatástól való függés: ha nincs internet kapcsolat, akkor csak hangszóróként alkalmazhatjuk ezeket, illetve a szolgáltatás feltételei is változhatnak idővel.
  2. A válaszadások nem tanuló algoritmusokkal történnek (még), hanem vagy egy előre felépített végrehajtási sorrend alapján, amit akár magunk is megtaníthatunk nekik.
  3. A legtöbben nem virtuális asszisztensként használják, hanem szórakozásra. A komplexebb feladatokat nem bízzák az asszisztensre, így a legtöbb esetben az időmérés, zene lejátszás vagy az időjárás előrejelzés funkciót használják.

A legtöbb mobiltelefonban ott csak egy gombnyomásra van a hang-asszisztens, használatának viszont van egy nagyon fontos vetülete, ami korlátozza a felhasználhatóságukat, ez pedig az általuk ismert nyelvek.

Milyen nyelven beszélnek a hang-asszisztensek?

Google Home Sonos integráció: ez sem működik Magyarországon
Google Home Sonos integráció: ez sem működik Magyarországon
Alexa Sonos integráció: Magyarországon nem használható
Alexa Sonos integráció: Magyarországon nem használható

Azt egyből kijelenthetjük, hogy magyarul jelenleg (2021. június) nem beszélnek. Van rá lehetőség, hogy a Google Assistant-ot rábirjuk magyar mondatok kimondására, sőt Siri is képes feladatokat végrehajtani egy-egy rövid magyar kifejezésre, de ennél többet jelenleg nem hajlandóak megtenni.
Amellett sem szabad elmennünk, hogy hivatalosan sem a Google, sem az Amazon hang-asszisztens szolgáltatása nem támogatott Magyarországon. Ez annyit tesz, hogy az USA-ban rendelkezésre álló lehetőségek nagyjából 5-10%-át lehet itthoni címmel kihasználni.
A hang-asszisztensek ugyanis geolokációs alapon engedélyeznek és tiltanak egyes funkciókat, így előfordulhat, hogy egy termék bőszen hirdeti, hogy bizony ő Google Home és Amazon Alexa kompatibilis, majd hazaérve és kicsomagolva döbbenünk rá, hogy kis országunk bizony nem szerepel a támogatottak között, így el is felejthetjük a “legális” hozzáférést.

Persze a probléma megoldásához nem kell az USA-ba költöznünk, vagyis elég, ha azt virtuálisan tesszük. Ha sikerül meggyőznünk a hang-asszisztensünket, hogy valójában New York egyik kertvárosában lakunk, akkor ezek a problémák egy csapásra megoldódnak, bár előfordul, hogy ideiglenesen, mert viszonylag hamar feltűnik a magyar IP címről való folyamatos bejelentkezés.
Ez egyébként a legtöbb tartósan külföldön dolgozó felhasználó problémája is, amint kiérnek az országhatáron, rögtön elvesztik a jogosultságukat a szolgáltatások egy jelentős része felett.

De nézzük akkor jelenleg mely nyelveket támogatják a legjelentősebb hang-asszisztensek:

Amazon Alexa Google Assistant (Eszközönként eltérő lehet) Apple Siri
Angol Angol Angol
Német Német Német
Francia Francia Francia
Hindi Hindi
Olasz Olasz Olasz
Japán Japán Japán
Portugál (Brazil) Portugál (Brazil)
Spanyol Spanyol Spanyol
Holland Holland
 – Norvég Norvég
Svéd Svéd
 – Koreai Koreai
 – Dán Dán
 – Mandarin (Tajvan) Mandarin
 –  – Arab
 –  – Kanton
 –  – Finn
 –  – Héber
 – Maláj
 –  – Orosz
 – Thai
Török

Általánosságban igaz, hogy a főbb nyelveket a támogatással nem rendelkező országokban lehet használni, így nálunk az angol, német, spanyol, francia nyelvek érhetőek el elsősorban.

Milyen megoldások vannak jelenleg a piacon?

A fent említett három, nagy piaci részesedéssel rendelkező hang-asszisztens (Amazon Alexa, Google Assistant, Apple Siri) mellett a nagyobb telefon- és okoseszköz gyártóknak is vannak hang-asszisztens megoldásai: Samsung Bixby/Viv, a Microsoft Cortana (ami már csak vállalati szinten érhető el), Yandex Alice, Alibaba csoport AliGerie, Huawei Celia, Xiaomi XiaoAI, csak hogy a nagyobb márkákat említsük. Közös bennük a “felhős működés.

A bejegyzés elején említettem, hogy néhány lokálisan működő megoldás van a piacon, többségük vagy túl kicsi, vagy felvásárlás során elvesztette a lokális funkcióját. A tgalpon lévő megoldások közül a Mycroft emelkedik ki, nyílt-forráskódú és az adatbiztonság a fő fókusza, viszont jelenleg nem “Plug & Play” (a Mark II 2021-ben érkezik, a chip válság hátráltatja a megjelenést), ezért a felhasználók jelentős részének nem jelent alternatív megoldást.

Az Alexa, Google Assistant és Siri összehasonlítását a következő bejegyzésünkben ejtem meg.

Hogyan lássunk hozzá?

bármilyen összeg befektetése nélkül kipróbálhatjuk a hang-asszisztensek működését, elég csak elővenni a telefonunkat, hiszen azon nagyon nagy valószínűséggel “ül” már egy virtuális asszisztens, gyártótól függően, de akár le is tölthetjük a megfelelő alkalmazásokat a telefonunkra (Az Amazon megoldása érhető el egyformán az Apple és a Google eszközökre is, a másik két asszisztenst teljesértékűen csak a saját ökoszisztémájából érhetjük el).
Érdemes itt kezdeni, és ha megtetszik, akkor tovább lehet lépni az okos hangszórók irányába.