kombajn
Znawca - Baseball
Genie 3 firmy Google DeepMind to przełomowy model świata oparty na sztucznej inteligencji, który może generować interaktywne środowiska 3D w czasie rzeczywistym na podstawie prostych poleceń tekstowych. Wydany 5 sierpnia 2025 r., stanowi duży krok naprzód w stosunku do swojego poprzednika, Genie 2, oferując dłuższy czas interakcji, pamięć świata, zdarzenia z możliwością podpowiedzi i płynniejszą grafikę.
Jest to najnowsza generacja interaktywnego modelu świata DeepMind. Zasadniczo jest to silnik tekstowy do środowiska 3D: wpisujesz opis, taki jak "średniowieczny dziedziniec zamkowy z pochodniami i deszczem", a on natychmiast tworzy grywalną przestrzeń 3D. Co ważne, działa on w czasie rzeczywistym, w rozdzielczości 720p i 24 klatkach na sekundę, zachowując spójność środowiska przez kilka minut - co jest znacznym postępem w stosunku do 10-20-sekundowych światów Genie 2.
Google uważa, że to będzie 'kamień milowy' dla AGI
AGI to skrót od „Artificial General Intelligence”, czyli 'sztucznej inteligencji ogólnej'. Jest to teoretyczny rodzaj sztucznej inteligencji, który odnosi się do zdolności komputera do rozumienia, uczenia się i wykonywania dowolnych zadań intelektualnych, które może wykonywać człowiek. W przeciwieństwie do dzisiejszych wąskich systemów AI, które są szkolone do wykonywania określonych zadań, AGI miałaby zdolność uogólniania wiedzy i umiejętności w różnych dziedzinach.....
Ludzie mogą wchodzić w interakcje z wirtualnymi środowiskami podobnie jak w grach wideo, gdzie widzą, a nawet czują cyfrowe obiekty w realistyczny sposób. Co więcej, Genie 3 ma potencjał, aby zwiększyć to doświadczenie poprzez tworzenie bardzo szczegółowych i responsywnych wirtualnych scen. Zamiast biernie obserwować, użytkownicy będą mogli bezpośrednio angażować się w środowisko. W rezultacie nauka staje się bardziej wciągająca, interaktywna i praktyczna.
W związku z tym narzędzia edukacyjne zasilane przez Genie 3 mogą pomóc uczniom w bezpiecznym i skutecznym rozwijaniu praktycznych umiejętności, wypełniając lukę między teorią a praktyką w świecie rzeczywistym. Wydany 5 sierpnia 2025 r., jest obecnie dostępny jako ograniczony podgląd badawczy dla wybranych naukowców i twórców, podczas gdy szerszy dostęp jest badany.
Kluczowe cechy Genie 3
Generowanie 3D w czasie rzeczywistym
Tworzy interaktywne środowiska wirtualne w czasie rzeczywistym, co oznacza, że świat płynnie reaguje na ruchy i działania użytkownika, bez opóźnień związanych z renderowaniem. Zapewnia wrażenia w czasie rzeczywistym przy 24 klatkach na sekundę i rozdzielczości 720p.
Wydłużony czas interakcji
W przeciwieństwie do krótkotrwałych środowisk Genie 2, Genie 3 utrzymuje spójne stany przez kilka minut, pozwalając użytkownikom na eksplorację i znaczącą interakcję w czasie.
Pamięć wizualna i trwałość świata
Genie 3 zachowuje cechy przestrzenne - jeśli pomalujesz ścianę lub przesuniesz obiekt, a następnie odwrócisz wzrok i wrócisz, zmiany pozostaną nienaruszone. Umożliwia to zapamiętywanie i utrwalanie środowiska podczas eksploracji.
Promptable World Events
Możesz dynamicznie modyfikować środowisko za pomocą monitów tekstowych - dodawać deszcz, odradzać postacie, zmieniać oświetlenie lub wyzwalać zdarzenia wewnątrz świata.
Symulacja zgodna z fizyką
Genie 3 realistycznie modeluje naturalne zjawiska, takie jak oświetlenie, dynamika wody, grawitacja i interakcja obiektów, dzięki czemu generowane światy są fizycznie spójne.
Zrozumienie intermodalne
W niektórych wersjach, oprócz tekstu, może pobierać obrazy lub szkice i przekształcać je w światy, które można eksplorować - choć większość funkcji opiera się na podpowiedziach tekstowych.
Modelowanie wieloagentowe i ekosystemowe
Choć wciąż w fazie rozwoju, Genie 3 obiecująco radzi sobie z symulowaniem środowisk z wieloma agentami, zachowaniami i dynamicznymi ekosystemami, takimi jak lasy, jeziora, stworzenia lub roboty.
Czym jest modelowanie 3D w czasie rzeczywistym?
Modelowanie 3D w czasie rzeczywistym odnosi się do generowania na żywo i renderowania trójwymiarowych środowisk i obiektów, w których każda klatka jest generowana lub aktualizowana w miarę poruszania się lub interakcji użytkownika. Dla porównania, tradycyjne przepływy pracy 3D tworzą statyczne modele lub wstępnie renderowane sekwencje.
Z kolei modelowanie w czasie rzeczywistym pozwala na tworzenie i modyfikowanie światów w locie, dostosowując się do danych wprowadzanych przez gracza, zmieniając oświetlenie, fizykę i zdarzenia natychmiast. "Zanim model taki jak Genie 3 będzie mógł zostać wykorzystany w rzeczywistych sytuacjach, najpierw musi zostać wykonanych kilka ważnych kroków" - wyjaśnił Fruchter. Mimo to wierzy on, że tego typu technologia może prowadzić do bardziej wydajnych metod szkoleniowych i lepszej wydajności modelu.
Na przykład, Genie 3 może pewnego dnia zostać wykorzystany do uczenia samojeżdżących samochodów, jak bezpiecznie reagować w niebezpiecznych sytuacjach, takich jak niespodziewane wtargnięcie pieszego na drogę. W ten sposób model ten mógłby poprawić zdolność samochodu do podejmowania szybkich i bezpiecznych decyzji w czasie rzeczywistym.
Model ucieleśnia tę koncepcję: gdy tylko wyślesz monit opisujący scenę, model zaczyna renderować krajobraz, symulując obiekty, fizykę i środowisko - klatka po klatce, zsynchronizowane z kontrolą i ruchem użytkownika, z płynną liczbą klatek na sekundę.
link
Jest to najnowsza generacja interaktywnego modelu świata DeepMind. Zasadniczo jest to silnik tekstowy do środowiska 3D: wpisujesz opis, taki jak "średniowieczny dziedziniec zamkowy z pochodniami i deszczem", a on natychmiast tworzy grywalną przestrzeń 3D. Co ważne, działa on w czasie rzeczywistym, w rozdzielczości 720p i 24 klatkach na sekundę, zachowując spójność środowiska przez kilka minut - co jest znacznym postępem w stosunku do 10-20-sekundowych światów Genie 2.
Google uważa, że to będzie 'kamień milowy' dla AGI
AGI to skrót od „Artificial General Intelligence”, czyli 'sztucznej inteligencji ogólnej'. Jest to teoretyczny rodzaj sztucznej inteligencji, który odnosi się do zdolności komputera do rozumienia, uczenia się i wykonywania dowolnych zadań intelektualnych, które może wykonywać człowiek. W przeciwieństwie do dzisiejszych wąskich systemów AI, które są szkolone do wykonywania określonych zadań, AGI miałaby zdolność uogólniania wiedzy i umiejętności w różnych dziedzinach.....
Ludzie mogą wchodzić w interakcje z wirtualnymi środowiskami podobnie jak w grach wideo, gdzie widzą, a nawet czują cyfrowe obiekty w realistyczny sposób. Co więcej, Genie 3 ma potencjał, aby zwiększyć to doświadczenie poprzez tworzenie bardzo szczegółowych i responsywnych wirtualnych scen. Zamiast biernie obserwować, użytkownicy będą mogli bezpośrednio angażować się w środowisko. W rezultacie nauka staje się bardziej wciągająca, interaktywna i praktyczna.
W związku z tym narzędzia edukacyjne zasilane przez Genie 3 mogą pomóc uczniom w bezpiecznym i skutecznym rozwijaniu praktycznych umiejętności, wypełniając lukę między teorią a praktyką w świecie rzeczywistym. Wydany 5 sierpnia 2025 r., jest obecnie dostępny jako ograniczony podgląd badawczy dla wybranych naukowców i twórców, podczas gdy szerszy dostęp jest badany.
Kluczowe cechy Genie 3
Generowanie 3D w czasie rzeczywistym
Tworzy interaktywne środowiska wirtualne w czasie rzeczywistym, co oznacza, że świat płynnie reaguje na ruchy i działania użytkownika, bez opóźnień związanych z renderowaniem. Zapewnia wrażenia w czasie rzeczywistym przy 24 klatkach na sekundę i rozdzielczości 720p.
Wydłużony czas interakcji
W przeciwieństwie do krótkotrwałych środowisk Genie 2, Genie 3 utrzymuje spójne stany przez kilka minut, pozwalając użytkownikom na eksplorację i znaczącą interakcję w czasie.
Pamięć wizualna i trwałość świata
Genie 3 zachowuje cechy przestrzenne - jeśli pomalujesz ścianę lub przesuniesz obiekt, a następnie odwrócisz wzrok i wrócisz, zmiany pozostaną nienaruszone. Umożliwia to zapamiętywanie i utrwalanie środowiska podczas eksploracji.
Promptable World Events
Możesz dynamicznie modyfikować środowisko za pomocą monitów tekstowych - dodawać deszcz, odradzać postacie, zmieniać oświetlenie lub wyzwalać zdarzenia wewnątrz świata.
Symulacja zgodna z fizyką
Genie 3 realistycznie modeluje naturalne zjawiska, takie jak oświetlenie, dynamika wody, grawitacja i interakcja obiektów, dzięki czemu generowane światy są fizycznie spójne.
Zrozumienie intermodalne
W niektórych wersjach, oprócz tekstu, może pobierać obrazy lub szkice i przekształcać je w światy, które można eksplorować - choć większość funkcji opiera się na podpowiedziach tekstowych.
Modelowanie wieloagentowe i ekosystemowe
Choć wciąż w fazie rozwoju, Genie 3 obiecująco radzi sobie z symulowaniem środowisk z wieloma agentami, zachowaniami i dynamicznymi ekosystemami, takimi jak lasy, jeziora, stworzenia lub roboty.
Czym jest modelowanie 3D w czasie rzeczywistym?
Modelowanie 3D w czasie rzeczywistym odnosi się do generowania na żywo i renderowania trójwymiarowych środowisk i obiektów, w których każda klatka jest generowana lub aktualizowana w miarę poruszania się lub interakcji użytkownika. Dla porównania, tradycyjne przepływy pracy 3D tworzą statyczne modele lub wstępnie renderowane sekwencje.
Z kolei modelowanie w czasie rzeczywistym pozwala na tworzenie i modyfikowanie światów w locie, dostosowując się do danych wprowadzanych przez gracza, zmieniając oświetlenie, fizykę i zdarzenia natychmiast. "Zanim model taki jak Genie 3 będzie mógł zostać wykorzystany w rzeczywistych sytuacjach, najpierw musi zostać wykonanych kilka ważnych kroków" - wyjaśnił Fruchter. Mimo to wierzy on, że tego typu technologia może prowadzić do bardziej wydajnych metod szkoleniowych i lepszej wydajności modelu.
Na przykład, Genie 3 może pewnego dnia zostać wykorzystany do uczenia samojeżdżących samochodów, jak bezpiecznie reagować w niebezpiecznych sytuacjach, takich jak niespodziewane wtargnięcie pieszego na drogę. W ten sposób model ten mógłby poprawić zdolność samochodu do podejmowania szybkich i bezpiecznych decyzji w czasie rzeczywistym.
Model ucieleśnia tę koncepcję: gdy tylko wyślesz monit opisujący scenę, model zaczyna renderować krajobraz, symulując obiekty, fizykę i środowisko - klatka po klatce, zsynchronizowane z kontrolą i ruchem użytkownika, z płynną liczbą klatek na sekundę.
link