29.10.2024
Okolnosti ma na mojich cestách včera zaviali do Banskej Bystrice. A napadlo mi, že ikonické Námestie SNP je ako stvorené pre otestovanie novej generácie môjho projektu VScan, ktorého účelom je integrovať veľké jazykové modely do priestorovej orientácie. Výsledky boli... zaujímavé. Svoje postrehy spisujem primárne pre seba ako poznámky, možno však inšpirujú aj niekoho ďalšieho. 🙂
Echolokácia je veľmi silný nástroj, ktorý dokáže slepcovi sprostredkovať tvar okolitého priestoru a v kombinácii s inými zmyslami aj jeho povahu. Viem chodiť po uliciach a vnímať rad budov na jednej či oboch stranách, prechádzať námestiami, otvorenými priestormi a držať sa pritom nadiaľku objektov v nich. To je veľmi super, ak je cieľom dostať sa skrz. Ibaže ja som turista, ktorý prišiel na kultúrne významné miesto Slovenska, a mne predsa nejde o to prefrčať tadiaľ s klapkami na očiach. Ja chcem vidieť nádych priestoru, pochopiť jeho výzor, architektúru, sloh, objaviť zaujímavé umelecké diela, kochať sa panorámou. A napríklad aj vidieť, popri akých obchodoch, podnikoch, či stánkoch prechádzam. Ja viem že sú tam, ale chcem vedieť aj to, o aké konkrétne ide, lebo aj to prispieva k atmosfére priestoru.\ Echolokácia nedokáže sprostredkovávať tento jeho rozmer. Zvukom neprečítam nápisy nad dverami, pestrofarebné neóny či štíty, pútavé výklady, neidentifikujem sochy, budovi v pozadí a pod. Hoci, ja echolokačne viem určiť, kde by sa takéto prvky mohli vyskytovať. Ako som spomínal, viaceré z nich, ako stánky, reštaurácie, sochy technicky aj priamo vidím, niektoré veci nevidím ale z priestoru tuším, že by tam mohli byť. Preto som chcel nástroj, ktorý by som mohol vždy podľa potreby namieriť na konkrétny priestor, a nechať si ho popísať. Začal som vývoj novej generácie VScanu, fotografickej aplikácie špeciálne nadizajnovanej na účel slepeckého cestovania, a včera som ju mal možnosť konečne otestovať v praxi.
Vyskočil som z trolejbusu na Národnej. Pokiaľ idete od železničnej stanice, odtiaľto sa do centra dostanete veľmi ľahko. Stačí sa pobrať po vystúpení vpravo, na prvej odbočiť doľava a máte asi 300 metrovú rovnú ulicu prakticky bez premávky, ktorá vás dovedie skoro až na námestie. Ja som tu nahodil svoj typický orientačný stack. To znamená palica dopredu, FlashSonar boky a čelo, a na smartfóne v ľavej ruke Seeing Assistant Move zameraný na cieľ cesty, v mojom prípade Čajovňa Čarovňa (podnik na námestí, kam som mal namierené). Prvá otázka znela, ako by do tohto workflowu mali vlastne prakticky zapadať LLM. Chcel som, aby išlo o mohutnú flexibilitu, ktorá by bola po ruke, ale zároveň nezavadzala. Urobil som preto to, že som aktivoval SAM, poslal ho na pozadie a otvoril VScan. Tlačidlo spúšte pokrýva temer celú obrazovku. Vypol som zvuky, blesk. Kráčal som po ulici a z času na čas som namieril telefón napr. na budovu, popri ktorej som prechádzal, na protiľahlú stranu cesty a palcom stlačil spúšť. Tu je dôležité povedať, že išlo o veľmi plynulý pohyb. Nijakým spôsobom som nemenil ani polohu smartfónu, ani som nijak starostlivo nezameriaval, proste idem po ulici, viem, že v horizonte desiatok sekúnd ma nečakajú žiadne manévre, tak nechám riadenie na autopilot a venujem trocha pozornosti okoliu, podobne ako keď sa pozeráte z okna idúceho auta či vlaku. Presne takto nejako som si to predstavoval. Navyše to môže aj vyzerať celkom prirodzene, človek normálne pozerá do smartfónu, pokiaľ nie je aktivovaný blesk, fotenie nemusí byť vôbec okaté. Možno v prípadoch, kedy som si na fotku nakrátko zastal, ale išlo o fakt kratučké okamyhy rádovo v jednotkách sekúnd, ktoré si nikto nevšimne.\ Nový VScan má okrem toho zabudovanú priamo na hlavnej obrazovke možnosť pýtať sa hlasom LLM, ešte chcem naprogramovať, aby sa dal vstup aktivovať zatrasením. To by mohlo byť tiež dosť cool, keďže by sa takto dali za pochodu bez rozptýlenia aj klásť dodatočné otázky.\ LLM mi skutočne opísala okolité prostredie. Keďže išlo viacmenej len o obyčajnú ulicu, ak som ju pochopil správne, nebolo tu veľa čo vidieť. To sa ale zachvíľu zmenilo. Viacerí ľudia mi po ceste povedali, že na námestie sa musím dostať cez bránu. Priznám sa úplne som nepochopil, čo mali na mysli, ale keď som prišiel bližšie, skutočne som prešiel akýmsi priechodom. Odfotil som si ho a išlo naozaj o klenutý priechod, dokonca som sa dozvedel, že je v ňom vraj Pepsi automat. Neskúmal som, či je to pravda, keďže nemôžem Pepsi, je to ale pekná ukážka typu detailu, ktorý by za normálnych okolností prešiel úplne nepovšimnutý (jedine, ak by mal aktívne chladenie alebo iný zvukový prejav), pričom tieto automaty vedia byť dosť užitočné.
Pokračoval som na námestie. Našiel som čajovňu, presnejšie, hneď dva podniky oproti sebe, a nevedel som, ktorý je ten, čo zháňam. Toto je tiež typický usecase pre LLM. Hoci, v tomto prípade som si veľmi nepomohol. Neviem, či to môže byť pravda, ale podnik nemal vývesný štít, a to nie len podľa LLM, ale aj niektorí okoloidúci, ktorých som sa pýtal nevedeli, o čom hovorím, pričom sme stáli priamo pred cieľom. Napadá mi jedine, že je mimo sezóny, sú povykladané stoly a stoličky ale cez deň minimálna prevádzka (btw úplne fantastické tréningové prostredie pre echolokačnú detekciu nízkych a malých objektov). Slovom, toto je pekná typická situácia, hoci v tomto prípade mi nevišla. Možno by sa v tomto kontexte dali použiť napr. fotky zo sociálnych sietí, keby ich LLM porovnali so zábermi z kamery, to zatiaľ ale len špekulujem.\ Ináč Čarovňa je skvelý podnik, vychutnal som si brazílske Maté s medom a našlo sa aj niečo na zamaškrtenie. Po noci bez spánku a štvorhodinovej ceste vlakom s autobusovou výlukou na časti trate to bolo veľmi vítané občerstvenie, majú okrem čajov aj výber pražených káv, ak ste skôr na ne.
Po dobití energie som sa pustil do samotného námestia. Ide o rozsiahlu, zväčša pešiu zónu, po ktorej sa dá krásne prechádzať. Tu som už nemal aktívnu navigáciu ani konkrétny cieľ, mojim zámerom bolo poobzerať sa po okolí a nájsť si zaujímavé prvky, o ktorých som nevedel, že sú tam, to je pointa turizmu. Je to trocha iný mód priestorovky, techniky sú v princípe podobné, ale tu je cieľom nie nachádzať, ale objavovať.
Pričom LLM sú na takýto mód ako stvorené. O orientáciu sa staral FlashSonar a echolokačný aparát, vďaka nim som sa vedel pohybovať uprostred voľného priestoru a zároveň mať nadohľad okolité objekty a budovy, takže išlo o relatívne kontrolovaný pohyb. A LLM dodávali tým priestorovým informáciám super kontext, takže to nebolo o tom, že idem paralelne s "tamtými budovami" alebo vzhľadom na "henten objekt", ale vedel som, že idem popri budove s reliéfom určitej osobnosti, ktorej meno som aj zistil, ale už si ho nepamätám, prípadne že prechádzam popri pamätníku.
Pravda, nie všetko išlo úplne hladko. V prvom rade, námestia vedia byť plné objektov, aj tu som narazil na stoly a stoličky na miestach, kde by som ich... nie celkom čakal, príklad, vyšiel som z čajovne, o ktorej som predpokladal, že je na jednej zo strán námestia, no po pár metroch som narazil na ďalšie stoly so stoličkami v línii, za ktorými bola voľná plocha. Mohlo ísť o stánky? Neviem, mal som na prieskum len relatívne krátky čas, mohol som tiež zle prečítať priestor a zaradiť v ňom čajovňu inde, než v skutočnosti bola. Taktiež tvar námestia teoreticky nemusí byť pravidelný obdĺžnik, môže to byť všetko od neho cez alternatívne geometrické tvary až po zložitejšie viac-členné útvary, nehovoriac o tom, že námestia mávajú aj svoje vlastné podnámestia. Taktiež optické sledovanie pinpointed objektov je niečo, čo bolo niekedy jednoduchšie, niekedy zložitejšie. Takým charakteristickým prvkom banskobystrického námestia je jeho šikmá hodinová veža, ktorá je vidieť už z diaľky. Stávalo sa mi ale, že som napríklad išiel popri nejakých podnikoch, veža bola podľa popisu v zábere, ktorý som smeroval pred seba, prešiel som pár krokov a zmizla z neho. Ako sa ukázalo, na záberoch figurovala viac vpravo, a ja som po odbočení dorazil k nej na vzdialenosť, kedy dokázal LLM prečítať jej názov.\ Slovom, budem musieť zapracovať na efektívnom zladení jednotlivých nástrojov, aby sa dopĺňali najlepším možným spôsobom. Jednak sa naučiť echolokačne viac systematicky mapovať širší priestor, nie len v rozmedzí desiatok metrov, čo je okamžitý dohľad, ale efektívnejšie skladať mozajku priestoru z pohybu. Už to podvedome aj robím, ale potrebujem v tom väčšiu prax a oveľa viac skúseností. Taktiež, LLM, vedieť správne interpretovať výstup spolu s ďalšími metadátami typu kam smeroval smartfón, keď bol obrázok zachytený, rovnako som používal teraz iba základný prompt What's in the image? Do budúcna som zvažoval viacero alternatív, napríklad celú jednu funkciu VScanu, pri ktorej by človek zatrasením vedel nadiktovať user prompt, pričom myšlienka je taká, že napr. zbadám cez LLM hodinovú vežu, chcem sa k nej dostať, tak zatrasiem telefónom, nadiktujem "Is there a clock-tower in the image?" (je na obrázku hodinová veža?) a potom už len skenujem telefónom a určujem k nej smer, či pôjdem rovno k nej alebo popri bližších objektoch a budem ju používať iba ako vzdialenú referenciu záleží na mojom aktuálnom rozhodnutí vzhľadom na okolitý priestor.
Zatiaľ nevyvodzujem nijaké definitívne závery, na samotnom námestí išlo len o relatívne krátky, 45-minutový experiment, zameraný na rôzne témy a oblasti. V každom prípade išlo pre mňa o veľmi plodnú a podnetnú skúsenosť.
Mimochodom, cesta do BB z Bratislavy mi v celku zabrala celý deň, bola z veľkej časti v mojej réžii, zahŕňa to transport do a z mesta, presuny po ňom, obhliadku námestia. Na ceste som si zranil členok. A môžete si typnúť kde. 😃\ Bolo to so sprievodom počas vystupovania z vlaku v Kozárovciach, jednu spolucestujúcu som požiadal, či by mi neukázala výlukový autobus, zvyknú parkovať pred vlakovou stanicou, ja som v Kozárovciach v živote nebol, a na prestup bolo pár minút. Ja som mal za sebov prebdenú noc aj deň, dvojhodinovú cestu vlakom, bol som polo-prispatý a zostať dve hodiny trčať v nejakej dedine bolo to posledné, čo som potreboval (nič v zlom, Kozárovce).\ Akurát som pri vystupovaní z vlaku nejak neodhadol vzdialenosť a stúpil do koľajiska. Skoro som si pritom aj zlomil palicu, keď som sa o ňu reflexívne oprel, fakt sa niekedy nestačím čudovať, ako dokáže flexovať, ohla sa bezsrandy ako luk a skočila naspäť, ako by bola z gumy. Ja som z toho vyšiel s miernym narazením členka o perón. Nič vážne, nijaká krv ani krívanie, len modrina a zostalo to jemne citlivé počas zvyšku dňa.
Poznámka 2, ak by ste niekto chceli cestovať z BA do BB alebo naopak, odporúčam kým trvá výluka severnú trasu cez vrútky. Máte tam len jeden prestup namiesto dvoch, aj to medzi vlakmi, ktoré sa hľadajú ľahšie než busy. Navyše Vrútky sú super stanica. Majú riadny podchod, keď vojdete do staničnej budovy, vo vestibule je na jednej strane predaj lístkov a na druhej strane take-away bufet, a vypočuť si staničné hlásenie "Osobný vlak Železničnej spoločnosti Slovensko, smer Priekopa", vždy stojí za to. 😃
Poznámka 3. Ak používate SAM v blízkosti námestí, odporúčam namiesto optimálnej trasy nechať vybrať najkratšiu. Neviem, či toto robia len najnovšie vývojové verzie alebo aj stabilné, ale aj teraz, ponáhľal som sa na trolejbus, zastávka bola odomňa nejakých 450 metrov vzdušnou čiarou, a SAM mi vybral trasu dlhú 1,1 km. 😃 Po korekcii nastavenia to spadlo na 490 metrov. Moja teória je, že sa snaží vyhýbať otvoreným plochám, čo bolo ale v tomto prípade zbytočné a nie je to prvý krát, čo sa mi niečo podobné stalo. Pravda, neviem čo všetko konkrétne jednotlivé nastavenia obsahujú a na základe akej metodiky pracujú, možno robí optimal aj iné úpravy, vďaka ktorým sa oplatí, no špecificky v tomto druhu situácií je fajn zvážiť voľbu najkratšej trasy.
Category: priestorovka technologie