Vychádza Vscan 0.2.2. Skutočne univerzálny a konečne na Google Play!

06.08.2025

bolo to komplikovanejšie, než som čakal, ale musím povedať, že s výsledkom som dosť spokojný. Zatiaľ 😃 Prichádzajú VScan 0.2.1 a 0.2.2.

Rýchle pripomenutie, VScan je môj malý výskumný projekt, ktorý sa snaží zistiť, či a ako by sa dali využiť veľké jazykové modely pre vytvorenie vizuálnych senzorických kanálov pre slepcov. Alebo bez buzzwordov, je to appka, ktorá sa snaží zistiť, ako by veľké jazykové modely mohli efektívne pomáhať slepcom pri každodenných, alebo aj menej každodenných činnostiach, suplujúc zrakové vnímanie. Na túto tému som už písal pár príspevkov, viz. tu a tu.

Konečne v obchodoch

Pre mnohých asi najväčšou novinkou je, že je aplikácia už konečne na Google Play, a čoskoro sa pevne verím dostane aj na F-Droid. Takže už žiadne sideloadovanie, hľadajte com.rastislavkish.vscan. Jediná drobnosť, ak ste predtým mali nainštalovaný VScan 0.2 cez Obtainium, tak preinštalácia vymaže všetky dáta aplikácie, pretože GP release používa iný podpisovací kľúč než verzia z môjho GitHub repozitára.

Úplná univerzalita

Zmien v samotnej appke je niekoľko. Tou z môjho pohľadu úplne najlepšou je, že VScan už nie je naviazaný na OpenAI. Teraz si môžete nadefinovať úplne ľubovoľného providera vrátane vašich vlastných serverov, a používať na nich modely, aké len chcete. Pre netechnických používateľov sa stále odporúčajú známe mená ako OpenAI či Anthropic, pretože všetky ich modely ponúkajú rozumný kompromis kvality, ceny a súkromia, no pokročilejší používatelia teraz môžu kľudne siahnuť aj po Gemini 2.5 pro, Gemme 3 27B, Qwene 2.5 VL 72B alebo malom 7-miliardovom Molme, ktorého tréning sa špeciálne sústredil na lokalizáciu objektov. Môžete pritom použiť akéhokoľvek providera, ktorý podporuje OpenAI protokol, čo je viacmenej univerzálny štandard a využívať oficiálnych poskytovateľov, routery, vlastné GPU deploymenty alebo kľudne váš laptop, ak je dosť výkonný.\ Pozn. aplikácia obsahuje presety pre rôzne známe služby a modely, ktoré by mali fungovať out of the box, ale netestoval som každú jednu, pretože by to bolo časovo náročné. Ak nájdete nejaký preset, ktorý nerobí čo má, určite hláste.\ Táto zmena bola pre vývoj VScanu veľmi veľmi dôležitá, pretože okrem vyššie spomínaných benefitov otvára zaujímavé nové smery vývoja, ktoré boli dosiaľ problematické. Ale o tom až niekedy inokedy.\ Zároveň dôrazne odporúčam prečítať si sekciu Initial setup v readme projektu, nájdete tam podrobné inštrukcie toho, akop VScan pri prvom spustení nakonfigurovať.

Multifunkčné políčko a ďalšie zmeny

Okrem týchto zmien máme aj menej výrazné, ale predsa celkom užitočné novinky. Na hlavnú skenovaciu obrazovku pribudlo multifunkčné políčko, ktoré umožňuje rýchlo modelu poslať správu, ale tiež nastaviť system prompt či user prompt, jednotlivé funkcie sa prepínajú tlačidlami v hornom panely. Pridržaním ktoréhokoľvek tlačidla sa aktivuje hlasový vstup daného parametra, ktorý ale zatiaľ nie je odladený celkom podľa mojich predstáv, takže očakávajte bugy.\ Tiež pribudla podpora udalostí a akcií, teraz si viete napr. nadefinovať niektorú z vašich konfigurácií povedzme na tlačidlo hlasitosti a rýchlo ňou zanalyzovať scénu alebo odfotený obrázok. Udalosť zatrasenia ešte nie je implementovaná, chcem sa trochu pohrať s tymi senzormi a vymyslieť tam niečo zaujímavé, aby to bolo praktické na použitie.\ A autopopisovanie ukladaných obrázkov je teraz voliteľné a predvolene vypnuté, podobne ako blesk.

Repozitár projektu

To sú zmeny so far. Celý projekt nájdete ako zvyčajne na mojom GitHube, konkrétne tu.

Pričom v readme je kopa zaujímavých informácií, vrátane backgroundu projektu, plus mínus jeho teórie, konkrétne príklady a scenáre použitia aj podrobné usage instructions.

Veľa zábavy!

Category: technologie priestorovka