Współtwórca HoloLens, Avi Bar-Zeev, udostępnia: Droga do okularów AR na każdą pogodę
Droga do okularów XR na każdą pogodę
Od ponad 30 lat pracuję nad XR, metaverse i obliczeniami przestrzennymi, w tym asystując lub doradzając przy 10 różnych projektach zestawu słuchawkowego XR. Miałem wielkie szczęście, że mogłem wnieść wkład w szereg projektów na wczesnym etapie, głównie poprzez udowadnianie lub odrzucanie wymagań i definiowanie kluczowych doświadczeń użytkowników, zanim zespoły wydadzą miliard dolarów na ich budowę. Po drodze nauczyłem się lekcji o tym, co działa, a co nie. Czasami poprawną odpowiedzią jest „jeszcze niedojrzały”.
Nie ujawnię żadnych informacji, które mój były pracodawca nadal uważa za zastrzeżone. Podam linki do opublikowanych patentów, które mogą dać nam pewien wgląd. To jest prawdziwy cel patentów, wierzcie lub nie. Oczywiście unikałbym patentów, które moim zdaniem zachęcałyby do spekulacji.
Ważne jest, aby uważać, aby niczego, co mówię lub piszę, nie traktować jako dowodu planów produktowych jakiejkolwiek firmy, a nawet krytyki czyichkolwiek wysiłków. To wcale nie było moim zamiarem.
Jako tło, pierwszym prawdziwym doświadczeniem XR, które zbudowałem, była JASKINIA. W tym czasie pożyczyłem komputer za 250 dolarów 000 i olbrzymi projektor i zainwestowałem kolejne 30 dolarów,000 w surowce. Zestaw słuchawkowy VR za 100 dolarów 000 Disneya, który został wyprodukowany w latach 90., nigdy nie trafił na rynek komercyjny. Aby unieść ciężar, wymaga kabli zwisających z sufitu, ale setki tysięcy próbowały tego.
Mam nadzieję, że do stycznia 2010 r. będziemy gotowi do rozpoczęcia opracowywania gotowych do użytku konsumenckich okularów XR. Czas zrobić wielki plusk na tym wolno poruszającym się polu. Ponadto w tym samym czasie pojawiły się Google Glass i Magic Leap. Na szczęście jednym z zadań, jakie otrzymaliśmy w zespole inkubacyjnym Microsoftu, było znalezienie nowych pomysłów na następną generację XBoxa.
„Bądź agresywny, nawet zmuszając nas do powiedzenia„ to szaleństwo ”- powiedział wtedy jeden z dyrektorów Xbox.
Na pewno mam „radykalne” pomysły. Nasz mały zespół wkrótce rozpoczął pracę nad nową koncepcją produktu „Screen Zero”: zastąpienie wszystkich ekranów jednym ekranem. Byłem odpowiedzialny za eksplorację techniczną i pomogłem zdefiniować doświadczenie w pierwszym roku formacyjnym. Moje powody odejścia nie są warte miejsca w tym artykule. Ale po ponad tysiącu osób HoloLens wystartował w 2016 roku.
To przełomowy sprzęt. Ale nadal nie nadaje się do noszenia na każdą pogodę. Żaden z dzisiejszych Magic Leap 2, Snap Spectacles, Varjo czy Quest.
Czego dokładnie potrzeba, aby uzyskać okulary AR, które można nosić przez cały dzień?
1. Maksymalizm i minimalizm
Podejście maksymalistyczne, takie jak ostatecznie przyjęte przez HoloLens, odnosi się do konsolidacji wielu czujników, algorytmów i zasilania w system wysokiej klasy. Kiedy już ustalimy inżynierię i doświadczenie użytkownika, możemy teoretycznie je zawęzić. Ale to zajmuje więcej czasu, a samo zoptymalizowanie mocy przez niektóre urządzenia elektroniczne może zająć nawet dekadę.
Cambria i podobne urządzenia są podobnie maksymalistyczne, do tego stopnia, że symulują AR z gigantycznym nieprzezroczystym wyświetlaczem VR i wieloma kamerami, z precyzyjną kontrolą piksel po pikselu nad mieszanką rzeczywistości i symulacji. Maksymalizacja jest najlepsza dla zaawansowanych aplikacji i podstawowych prac badawczo-rozwojowych. Niektórzy twierdzą, że nawet jeśli aplikacje są bardziej przemysłowe, to są jedynymi narzędziami, które w tej chwili działają.
Jednak nawet najdroższych obecnie urządzeń na rynku nie można nosić przez cały dzień i nie można ich używać do zwykłych interakcji społecznych ani nawet do bezpiecznego chodzenia po ulicach. Funkcje maksymalistyczne, takie jak wyświetlacze holograficzne lub pola świetlne, nie są jeszcze dojrzałe.
Z drugiej strony urządzenia o minimalistycznym podejściu to między innymi Amazon Echo Frames, Snap Spectacles i Ray-Ban Stories. Pakują tylko technologię, która pasuje do obecnych ograniczeń formy okularów do noszenia, często całkowicie rezygnując z wyświetlaczy.
Ale czy okulary bez wyświetlacza można liczyć jako XR?
Jeśli to wzmacnia perspektywę sytuacyjną, powiedziałbym, że tak. Podcast lub miks muzyczny to nie XR, ponieważ nadal nie wyczuwa Ciebie ani Twojego obecnego otoczenia. Aplikacje do nawigacji GPS są trochę podobne, ale nie wystarczają. Dodanie dźwięku przestrzennego i kamer do AI i precyzyjnego pozycjonowania zdecydowanie liczy się jako XR, nawet bez wyświetlacza.
Minimalistyczne podejście może w krótkim czasie sprzedać więcej produktów i zwykle skupia się na konkretnym aspekcie i sprawia, że jest to najlepsze w swojej klasie rozwiązanie. Jeśli potrafisz to zrobić dobrze, tak jak Walkman i iPhone, możesz sprzedawać za miliardy dolarów. Ale nie myśl, że minimalizm jest łatwy, ponieważ pod wieloma względami trudno jest zrobić dobrze.
2. Najlepsza metoda
Miałem nadzieję, że Screen Zero XBoxa to hybryda minimalistycznych okularów i maksymalistycznej konsoli. Okulary AR powinny mieć rozmiar podobny do okularów Oakley lub mniejszy. Następny gospodarz wykona większość ciężkiego podnoszenia do czterech par okularów w tym samym pomieszczeniu.
3. Ergonomia, zużycie energii i ciepło
Dlaczego oddzielić? Sprowadza się to do zużycia energii, a dokładniej: ciepła.
Cała praca komputera kończy się w postaci ciepła, a inne mogą obejmować fotony i/lub napędy mechaniczne, takie jak dźwięk. Ile ciepła? Para lekkich okularów AR może generować około 1 wata energii.
Typowy smartfon może generować około 10 watów, a następnie się nagrzewać. Host lub komputer PC może zużywać 10-100 razy więcej energii niż smartfon, a zatem 100-1000 razy więcej energii niż okulary. Pomyśl o małych latarkach LED i gigantycznych suszarkach do ubrań. To ogromna różnica w zużyciu energii.
Aby zrównoważyć zużycie energii, potrzebujemy rozwiązań podobnych do tych, nad którymi pracowałem od 2010 roku, takich jak fuzja danych, renderowanie dzielone, zoptymalizowane strumienie renderowania. W przypadku niższych przepustowości renderowanie z dopasowaniem czasu oparte na śledzeniu gałek ocznych działa dobrze i obejmuje opóźnienia w komunikacji.
Procesor, kamera, wyświetlacz i pamięć RAM zużywają dużo energii i generują dużo ciepła. Sekret polega więc na tym, aby w większości przypadków używać ich oszczędnie. Pomyśl o niestandardowym sprzęcie o niskim poborze mocy: nowe czujniki kontekstowe, wyświetlacze o bardzo niskim poborze mocy i algorytmy, które sprytnie się „budzą”.
To zajmie trochę czasu. Na przykład, jeśli mysz optyczna i kontroler hosta nie są w trybie czuwania, ich baterie się wyczerpią, więc zaczynają od rozwiązania na uwięzi. Dziś mysz optyczna może wytrzymać kilka miesięcy na małej baterii.
4. Poza salonem
Aby obsługiwać szeroką gamę zastosowań, optycznie przezroczyste systemy AR muszą idealnie blokować światło z jasnego otoczenia (nawet oświetlenie okna lub salonu), lepiej personalizować i miksować dźwięk przestrzenny z rzeczywistością, regulować ostrość optyczną, przechwytywać i odtwarzać wirtualne hologramy innych osób i więcej.
Nawet jeśli urządzenie jest podzielone na jednostkę główną i słuchawki, w naszej głowie wciąż jest za dużo „rzeczy”. Ogromnym wyzwaniem ergonomicznym jest pozbycie się gigantycznych pasków, których wciąż używa większość urządzeń XR, które sprawiają, że zestawy słuchawkowe wyglądają jak robaki przytulające się do twarzy.
Każdy rodzaj pasków, które wymagają naciągania, ograniczy różnorodność bazy użytkownika (biorąc pod uwagę różnice w wielkości głowy i podatność na brudzenie włosów) oraz zmniejszy prawdopodobieństwo noszenia okularów. Oznacza to, że sprzęt na każdą pogodę musi być super lekki i ogólnie pasować tak samo dobrze jak zwykłe okulary.
Uzyskanie rozmiaru okularów Oakley lub mniejszych często oznacza przeniesienie większej części systemu do klipsa lub pilota. Magic Leap oferuje taki klips. Zauważyłem, że urządzenia XR wykorzystują konfigurację pałąka na szyję, co oznacza zawieszenie komponentów komputerowych na szyi konsumenta. Dzięki tej dzielonej konstrukcji, im więcej oddzielnych prac jest wykonywanych, tym lżejszy może być zespół oko/głowa.
W 2010 roku osobiście bardziej interesowałem się bicepsem, ponieważ był to punkt zaczepienia i w razie potrzeby krótka linka. Dzięki temu cięższe i gorętsze elementy znajdują się z dala od głowy i szyi oraz mają dużą powierzchnię do rozpraszania ciepła. Bioczujniki umieszczone na ramieniu mogą również wykrywać gesty, podobnie jak Meta używa urządzenia Control plus Labs do odczytywania gestów z nadgarstka. W ten sposób projektanci produktów wciąż mogą powiedzieć „brak kabli”.
5. Skup się
Ponieważ duża liczba osób dorosłych musi korygować widzenie do bliży i dali, całodzienna obudowa do noszenia często musi powiększać i skupiać dla nas rzeczywisty świat. Oznacza to co najmniej, że soczewki muszą obsługiwać optykę z niestandardowymi parametrami widzenia. Firma falowodowa, którą Snap nabył wcześniej, ogłosiła plany osadzenia powiązanej optyki w funkcjonalnych soczewkach wizyjnych, ale było to trudne.
Ale czy wystarczy jeden parametr widzenia? Wielu dorosłych potrzebuje okularów tylko do czytania lub prowadzenia samochodu (dalekowzroczność), co oznacza, że potrzebują okularów, aby móc przełączyć się na różne stany. Czy więc potrzebujemy dwóch czy trzech par drogich okularów? A może dwuogniskowe, trójogniskowe, które odpowiednio dostosowują światło w zależności od tego, gdzie patrzysz? (Praktyczne, ale nie idealne)
Jednym z rozwiązań, na które naciskam, jest dynamiczna regulacja optyczna, dzięki której ta sama para okularów może wspierać czytanie lub prowadzenie samochodu, a nawet powiększać drobny druk i odległe znaki. Pozwala to również na łatwe wypróbowanie go większej liczbie znajomych. Wyobraź sobie, że Twój XBox obsługuje tylko gry dla jednego gracza i masz dwóch lub trzech znajomych w pokoju? Coś w rodzaju bummera.
Obecnie najlepsze metody dynamicznego ogniskowania obejmują Alvarez (mechaniczny suwak) i regulowane soczewki wypełnione płynem. Rozwiązania mechaniczne mają tendencję do zmniejszania niezawodności. Jest sporo prac badawczo-rozwojowych nad układaniem specjalnych wyświetlaczy LCD i elektroniczną zmianą ostrości. Mega przejęła firmę do podjęcia tego zadania.
Następnie pojawia się problem z ogniskowaniem wirtualnego obrazu w oparciu o aktualną linię wzroku. Avegant i Magic Leap pokazali nam, jak szybko przełączać się między dwiema ogniskowymi, symulując proste wyświetlanie pola światła, co jest ważne dla nawigowania „wirtualnymi obiektami” przy odpowiedniej ogniskowej w rozpiętości skrzydeł. Przyglądałem się już kilku sposobom ciągłego skanowania ogniskowej, ale komercyjne monitory w praktyce nie są wystarczająco szybkie.
Śledzenie oczu może wspomóc przetwarzanie, zmniejszyć obciążenie obliczeniowe i zapewnić bardziej naturalny wkład użytkownika. Dobrze znam problem ze śledzeniem wzroku i na wczesnym etapie ostrzegam decydentów o ryzyku.
Wreszcie, po stronie biznesowej, Luxottica zarabia dużo pieniędzy, sprzedając tanie i drogie okulary. Obecnie dominuje na rynku i większości znanych marek okularów. Firmy produkujące okulary XR muszą z nimi współpracować lub przeciwko nim, a żaden z nich nie jest łatwym wyborem. Meta zdecydowała się na współpracę z nimi, aby opracować okulary Ray-Ban. Konkurentami firmy są Warby Parke i inni mali gracze. Nie można sprzedawać dobrych nowych produktów bez dobrych kanałów dystrybucji i partnerów.
6. Kontrast
Magic Leap 2 oferuje sposób na selektywne rozmycie świata przyrody. Pracuję nad tym problemem od 2010 roku, ale wciąż nie ma idealnego rozwiązania. Szereg inżynierów optycznych nie uznało tego za konieczne. Powody są następujące:
Powszechnie rozumie się, dlaczego przezroczyste wyświetlacze „addytywne” nie mogą wyświetlać „czarnego”. RGB{{0}},0,0 dla czerni, która w rzeczywistości niczego nie dodaje i nie jest widoczna w istniejącym świetle. Możemy jednak łatwo nakłonić Cię do postrzegania czerni i cieni, zbliżając się do jaśniejszych obszarów.
Naprawdę trudny problem pojawia się, gdy zabierasz okulary XR na zewnątrz i patrzysz na ścianę oświetloną jasnym światłem słonecznym, prawdopodobnie w pobliżu ciemnego lub zacienionego obszaru. Niektóre obszary mogą być od 1000 do 10000 razy jaśniejsze niż inne. Kontrast jest tak wyraźny w pomieszczeniach, że wizualizacje AR wyglądają wręcz przerażająco. Inżynierowie optyki często twierdzą, że aby to przezwyciężyć, trzeba emitować więcej światła. Ich optyka jest zazwyczaj wydajna tylko w 1% -10%, co oznacza, że większość światła nie dostaje się nawet do oczu i tylko dodaje więcej ciepła. Przypomnij sobie, że nie można po prostu zaprojektować systemu opartego na optyce, ponieważ ciepło jest jednym z największych czynników ograniczających.
W rzeczywistości każda para przezroczystych okularów AR lub przezroczystych okularów wideo musi uwzględniać rzeczywistą scenę podczas wprowadzania ulepszeń wizualnych. W przypadku przezroczystości okulary często trzeba odjąć od rzeczywistego oświetlenia, aby uzyskać pożądany kolor końcowy. W przypadku perspektywy wideo wyświetlacz może zastąpić cały piksel, ale wszelka przezroczystość wirtualnej sceny 3D nadal musi być zmieszana z kolorem tła odczytanym z kamery. Więc to, na co patrzysz, to wysokoenergetyczna kamera i obwody, które są albo przezroczyste, albo nieprzezroczyste. Jest to ogromne ograniczenie projektowe, ponieważ dodaje energii i wagi, jednocześnie blokując oczy.
Na pozór selektywne cieniowanie za pomocą przezroczystych okularów jest tańsze niż zasilanie wyświetlacza lub dodanie kamery. W 2010 roku przed falowodem umieściłem prosty monochromatyczny wyświetlacz LCD. Działa zgodnie z oczekiwaniami, renderując bryły 3D z miękkimi czarnymi konturami. Ma jednak wady, w tym konieczność dynamicznej kalibracji, wyświetlacz LCD zniekształca rzeczywiste światło (głównie załamanie przewodów sterujących). Sam ma słabą dynamikę. Na zewnątrz czasami potrzebujesz prawie 100 procent krycia. W pomieszczeniach, szczególnie w sytuacjach towarzyskich i teleobecności, chcesz być bardziej przejrzysty, aby widzieć ludzi bezpośrednio w oczy.
Głównym zarzutem wobec tego podejścia jest to, że wyświetlacze LCD lub inne przestrzenne modulatory światła są często nieostre, cal od oka. Zniekształcenia są jednak takie, że dzięki odpowiednim wyświetlaczom AR z przezroczystymi plusami i minusami oraz niektórymi szybkimi czujnikami o niskim poborze mocy Twoje okulary przeciwsłoneczne mogą blokować światło słoneczne, odblaski lub reflektory bez przyciemniania pola widzenia w innym miejscu. Możesz subtelnie zaciemnić świat i sprawić, by polecane książki wyglądały na błyszczące. Dzięki bardziej zaawansowanemu odejmowaniu (filtrowaniu) okulary mogą nawet zmienić kolor świata, poprawić widzenie w nocy, a nawet zapewnić biometryczną informację zwrotną, gdy czujesz się niespokojny lub rozkojarzony.
Zrobiłem różne rzeczy demo i spędziłem dużo czasu szukając lepszego sposobu. Ale wszystkie mają pewne wady. Jednak wdrożenie Magic Leap 2 daje mi nadzieję, że podstawowe problemy zostaną rozwiązane.
7. Sieć
Radia również wymagają energii, więc w systemie dzielonym zawsze istnieje kompromis. Najbardziej obiecująca przyszłość leży w wykorzystaniu częstotliwości radiowych wyższej klasy w celu uzyskania niższej mocy i większej przepustowości niż obecnie. Ale głównym wyzwaniem jest to, że ta częstotliwość nie może przejść przez skórę ani ściany (na dobre lub na złe). Tak więc rozwiązanie musi być bardzo sprytne, ponieważ fale radiowe odbijają się i rozchodzą wokół pomieszczeń i ludzi, więc może być konieczne użycie większej liczby nadajników niż obecnie. Oczywiście zwiększa to koszty i złożoność.
W przypadku całodziennych urządzeń do noszenia wymaga również, aby sieć była dostępna przed sprzedażą produktów, które na niej polegają. To ograniczenie jest największym powodem, dla którego firmy nigdy nie wypuszczają rozwiązania do renderowania podzielonego, które zalecam. 5G jest bliższe temu, czego potrzebujemy, ale przynajmniej w USA, to w większości rozwiązuje problem mniejszych opóźnień i większej liczby osób korzystających z sieci w tym samym czasie. Potrzebujemy więcej niż 5G, ale to dobry początek.
Aby pozbyć się oryginalnego „hosta” (lub podobnego) z pokoju, zachowując niewielką i lekką obudowę, potrzebujemy sposobu na przetwarzanie „na krawędzi”, połączone w sposób, który nie narusza naszej prywatności. Wysyłanie danych z czujników biometrycznych do dowolnego rozwiązania brzegowego lub w chmurze jest bardzo niepokojące dla każdego, ponieważ można je łatwo nadużyć.
8. Kamera
Umieszczenie aparatu na okularach jest trudne. Google Glass popełnił wiele błędów w akceptacji społecznej i został szeroko zaatakowany. Ale Snap wydaje się mieć w tym względzie niewiele problemów. W tym samym czasie Facebook pracował nad uchwyceniem szczegółów życia każdego człowieka, prawdopodobnie w celu dostarczania bardziej spersonalizowanych reklam, czy nam się to podoba, czy nie.
Niektóre kamery są energochłonne, takie jak digitalizacja scen 3D i cyfrowa okluzja ludzi lub przedmiotów. Aby prawidłowo umieścić grafikę 3D, trzeba stale śledzić głowę w przestrzeni, a kamery są nadal wiodącym rozwiązaniem. Wykorzystując czujniki IMU, zwiększamy zużycie energii.
Robienie zdjęć lub filmów to dość popularny przypadek użycia, zwłaszcza jeśli jest bardziej naturalny i wygodny niż inne urządzenia. Jednak ze względu na ograniczenia wielkości i mocy, jakość zdjęć będzie niższa niż w typowym smartfonie. Zapewnienie małego białego światła w kadrze nie wystarczy, aby rozwiązać złożony problem społecznej aprobaty.
Rozumienie sceny jest łatwiejsze do wyobrażenia jako główna cecha okularów do aparatu, po części dlatego, że nie musi robić zdjęć innym ludziom, ale co ważniejsze, otwiera najważniejszy nowy przypadek użycia okularów przez cały dzień: zrozumienie sytuacji.
9. Doświadczenie
W 2010 roku działem badawczo-rozwojowym, który mam nadzieję opracować, są okulary AR, które obsługują potężne funkcje śledzenia wzroku i ciała, a także odkrywają bardziej naturalny interfejs użytkownika do przetwarzania przestrzennego, wykraczający poza tradycyjny „prostokąt w prostokącie” komputerów i myszy. Chociaż sprzęt z pewnością ma swoje ograniczenia, powszechne przyjęcie XR wymaga od kogoś odpowiedzi na empiryczne pytanie „jak” wchodzić w interakcje w przyszłości? „Pudełko 3D w pudełku” wyraźnie nie jest. Mamy więc jeszcze dużo pracy do wykonania.
Podczas gdy Meta koncentruje swoje wysiłki na VR na zdaniu tak zwanego „wizualnego testu Turinga”, okulary XR, które można nosić przez cały dzień, muszą być bardziej przydatne niż inne. Wielu wyobraża sobie warstwy lub kanały AR przenikające naszą rzeczywistość, oznaczające wszystko, co widzimy, dodając informacje, opowiadając przestrzenne historie w 3D i przerysowując świat. Chociaż prawdopodobnie będzie to na żądanie, nie jest to codzienne doświadczenie, którego bym się spodziewał.
Przez większość czasu ludzie chcą poprawić to, co często robią: komunikować się, nawigować, odkrywać otaczający nas świat, rozumieć, a nawet zmieniać miejsce, robić zakupy, doświadczać treści i zarabiać na pracy. Aby odnieść sukces, okulary XR muszą radzić sobie lepiej niż my ze smartfonami czy innymi urządzeniami.
Oto, czego nie może zrobić smartfon. Wyobraź sobie parę normalnie wyglądających okularów, które dynamicznie dostosowują ostrość i selektywnie blokują światło. Mogą rozmawiać z Tobą proaktywnie i prywatnie, bez konieczności wpisywania tekstu lub proszenia werbalnie. Samo to byłoby produktem o wartości miliarda dolarów. Takie okulary mogą pomóc Ci zapamiętać rzeczy lub zapewnić godne zaufania rekomendacje w ramach codziennych doświadczeń (w przeciwieństwie do reklam push).
Najważniejsze badania, jakie przeprowadziłem w tej dziedzinie, to komunikacja asynchroniczna przy użyciu niewizualnych okularów XR. Funkcje głosowe i tekstowe smartfonów są dziś wystarczająco dobre, ale czy wiedzą, kiedy masz problemy z koncentracją? Czy mogą pomóc Ci zmienić kontekst we właściwym czasie, aby zapewnić płynność pracy lub zabawy? Oto jak mogą błyszczeć okulary (zakładając, że możemy zaufać producentowi).
Wszystko, co opisałem, jest bardzo trudne, a odpowiednia technologia prawie nie istnieje. Nie jest jeszcze na torze minimalistycznym, ale to dlatego, że nie postawiliśmy go przed miniaturyzacją optyki i maksymalizacją pola widzenia. Ale jeśli zadasz pytanie: jakie okulary XR mogą odnieść sukces tam, gdzie inni nie? Nadal uważam, że wszystko, co wymieniłem powyżej, pomoże ci zbudować świetny produkt.
