To jest właśnie ciekawe. Jak podaje OpenAI na swoim blogu w postach o nowym GPT-4o, ten model składa się trzech innych modeli. Pierwszy model zajmuje się transformacją audio na tekst. Drugi model, klasy GPT-3.5 lub GPT-4, przyjmuje tekst na wejściu i generuje tekst na wyjściu. Trzeci model transformuje tekst z powrotem do audio. Sam GPT-4, bez dodatkowych ulepszeń, nie byłby w stanie przetwarzać tego typu danych i na przykład wykazywać emocji. Dodatkowo średni czas odpowiedzi wynosi około 320 milisekund, co według OpenAI odpowiada prawie czasom interakcji z człowiekiem. Jednak ja zaznacza sam OpenAI, jest to pierwsze podejście do takiej architektury i najnowszy model wziąć pozostaje w fazie badań i ulepszeń. Dlatego z czasem można się spodziewać kolejnych ulepszeń. Interesujące jest obserwowanie, jak to wszystko się rozwija i ewoluuje.
Bo oni Ci powiedzą prawdę, Takie składanki to od roku sami mogliśmy robić, To raczej wygląda na Równoczesny trening różnych modalności, (audio INOUT, VISION IN OUT, TEKST INOUT) dzięki takiemu treningowi masz spójność danych,, Minus tego ze wytrenowanie tego musi być kosmicznie drogie, bo Tata->Ojciec , mniej kosztuje niż(Tata,zdjecie,audio,tekst,emocja-> multimodealny output)
@@PraktycznieoAI :nieosiągalne marzenie?. Zobacz ze ludzie szybko odpowiadają tylko na proste pytania, Jak pojawia się coś trudniejszego to ludzie mówią" Emmm ymmmm, yhymmm,eeeeeee, i tak samo mozna robić z modelami, najpierw dane wlatują do modelu uproszczonego który ma na szybko coś wymyślić z ograniczoną ilością audio i dźwięku, Model na szybko generuje :"EMmm, zadałeść ciekawe pytanie, muszie się chwilke nad tym zastanowić, emm, ok, juz wiem: odtwarzanie tego audio zajeło 4sekundy, i było bufforem dla generacji dłuzszego audio z realną odpowiedzią.. Efekt jest taki ze z Twojej perspektywy miałeś ciągłość wypowiedzi, gdy tymczasem model uzywał odtwarzania 1 odpoweidzi jako buffor czasowy do generacji odp nr 2. Zreszta ludzie preferują Wypowiedzi zawierajace przerwyniki, ponieważ daje im to czas na analizowanie, interpetacje, mozliwosc wtrącenia, itd
Świetna obserwacja! Taki sam efekt osiągamy poprzez "streaming" odpowiedzi (to, że nie pojawia się ona cała już wygenerowana, tylko widzimy jak jest "drukowana"). Użytkownik już zaczyna czytać odpowiedź po ułamku sekundy, a model sobie spokojnie generuje dalsze tokeny
Czy mi się wydaje , czy ta nowość jest póki co dostępna w pełnej wersji na ios bo na android nie widzę takiej opcji mimo , że mam subskrybcje plus . Widzę dostępny nowy model gpt 4.o ale w sumie nic się nie zmienia po jego wybraniu.
@@PraktycznieoAI Oki, dwa miesiace temu zrezygnowalem z subskrybcji 4.0 i tak samo jak Krzysiek mam dostepną cały czas wersje 3.5. Rozumiem ze jak wznowie to bede mial od razu 4o a jak nie chce placic to musze poczekac pare tygodni az mi "sama wskoczy" ? Wiem ze nie jestes supportem openAi ale moze bedziesz mogl potwierdzicz czy dobrze kumam :P Pozdro.
Spróbowałem dokładnie tego co było na prezentacji i nie działa. Nie da się wtrącić czegoś w trakcie kiedy GPT mówi. Próbowałem też z tymi emocjami. Mówił ok, spróbuje ale za każdym razem było tak samo. Ktoś zna odpowiedz dlaczego tak jest?
Ta funkcjonalność przerywania i "emocjonalność" jeszcze nie jest wdrożona - na razie, to co jest dostępne to nowy model w zakresie tekstu i rozpoznawania obrazów, mowa jest jeszcze po staremu
Moim zdaniem wprowadzenie GTP4-o dla darmowych użytkowników to taka reklama w formie demo. W wersji darmowej użyłem go z 5 do 10 razy i pojawił się komunikat, aby spróbować jutro, ale jeśli chcesz kontynuować to kup wersję płatną. Co ciekawe, nie znalazłem opcji, aby wyłączyć GTP4-o, które staje się domyślne. Tak więc jeśli ktoś chciałby generować przez jakiś czas na 3.5 i zaoszczędzić ten limit na bardziej skomplikowane zadania to się po prostu nie da. Model w wersji darmowej czatu można zmieniać dopiero po wygenerowaniu tekstu. Nie natomiast z wysuwanej listy po lewej stronie (jak ma to miejsce w wersji płatnej).
Myślę, że za tym stoi parę rzeczy: 1. Chęć dotarcia do jak największej bazy użytkowników (Do tej pory GPT-4 za darmo był tylko w Microsoft Copilot) 2. Chęć pokazania, że AI jest lepsze niż większość myśli - część osób korzystała z 3.5 i rezygnowała, będąc rozczarowana wynikami. I nie wiedząc, że GPT 4 jest 10x lepszy. Podejrzewam, że ta blokada wykorzystania 3.5 to właśnie chęć zmuszenia do zobaczenia, co potrafi GPT 4o 3. Tak, upsell i chęć dosprzedaży kont płatnych :)
Autor filmu zdaje się, że nie pokusił się nawet o sprawdzenie efektów translacji przez 11 Labs przed wypuszczeniem materiału, bo dubbing tego gościa który trzyma telefon jest asluchalny, nie dałem rady oglądać dłużej. I to pokazuje idealnie, że owszem, sztuczna inteligencja może usprawniać pracę, natomiast na ślepe zaufanie w jej możliwości jest za wcześnie. Słabe podejście.
Dziękuję za feedback - faktycznie, pomimo tego, że zauważyłem ten problem, to puściłem film bez naprawienia tego aspektu. Następnym razem będzie lepiej!
Sam Altman ostatnio wygłosił tezę, że dochód gwarantowany powinien być dawany w postaci... mocy obliczeniowej, a nie pieniędzy. Może się skończyć utopią, albo dystopią... kto wie
To prawda. 11 labs daje dostęp do edytora, który pozwala to poprawić, jednak niestety wygrała chęć jak najszybszego wypuszczenia filmu vs. dopracowanie tego aspektu
Fajnie, że jest jakiś polski twórcy który przekazuje najświeższe nowinki. Powodzenia!
Dziękuję! Miło, że do mnie zajrzałeś :)
DOKŁADNIE👍👍👍
A DZIEJE SIĘ DUŻO 😊👌👌
Do tego spoko ziomek ;)
Lektor oddaje nawet emocje! Brawo!
Dobra robota! Dzięki.
Cała przyjemnosć po mojej stronie - dziękuję za obejrzenie!
Mira Murati 👌
Świąt teraz bardzo przyśpieszy teraz każdy człowiek może pracować z prędkością 20 osób. wow.
Nie, mylisz się, to AI bedzie pracować za 20 osób, a te 20 osób trafi na bruk
@@asics431 Zmieni branze.
@@asics431znajdą inne prace, bo zamiast tych będzie co innego
Super :)
Dziękuję za obejrzenie!
To jest właśnie ciekawe. Jak podaje OpenAI na swoim blogu w postach o nowym GPT-4o, ten model składa się trzech innych modeli. Pierwszy model zajmuje się transformacją audio na tekst. Drugi model, klasy GPT-3.5 lub GPT-4, przyjmuje tekst na wejściu i generuje tekst na wyjściu. Trzeci model transformuje tekst z powrotem do audio. Sam GPT-4, bez dodatkowych ulepszeń, nie byłby w stanie przetwarzać tego typu danych i na przykład wykazywać emocji. Dodatkowo średni czas odpowiedzi wynosi około 320 milisekund, co według OpenAI odpowiada prawie czasom interakcji z człowiekiem. Jednak ja zaznacza sam OpenAI, jest to pierwsze podejście do takiej architektury i najnowszy model wziąć pozostaje w fazie badań i ulepszeń. Dlatego z czasem można się spodziewać kolejnych ulepszeń. Interesujące jest obserwowanie, jak to wszystko się rozwija i ewoluuje.
Bardzo ciekawe! Tego jeszcze nie doczytałem
Bo oni Ci powiedzą prawdę, Takie składanki to od roku sami mogliśmy robić, To raczej wygląda na Równoczesny trening różnych modalności, (audio INOUT, VISION IN OUT, TEKST INOUT) dzięki takiemu treningowi masz spójność danych,, Minus tego ze wytrenowanie tego musi być kosmicznie drogie, bo Tata->Ojciec , mniej kosztuje niż(Tata,zdjecie,audio,tekst,emocja-> multimodealny output)
Takie składanki też w pracy robimy, ale opóźnienie rzędu 0,3 sekundy to nieosiągalne marzenie
@@PraktycznieoAI :nieosiągalne marzenie?. Zobacz ze ludzie szybko odpowiadają tylko na proste pytania, Jak pojawia się coś trudniejszego to ludzie mówią" Emmm ymmmm, yhymmm,eeeeeee, i tak samo mozna robić z modelami, najpierw dane wlatują do modelu uproszczonego który ma na szybko coś wymyślić z ograniczoną ilością audio i dźwięku, Model na szybko generuje :"EMmm, zadałeść ciekawe pytanie, muszie się chwilke nad tym zastanowić, emm, ok, juz wiem: odtwarzanie tego audio zajeło 4sekundy, i było bufforem dla generacji dłuzszego audio z realną odpowiedzią.. Efekt jest taki ze z Twojej perspektywy miałeś ciągłość wypowiedzi, gdy tymczasem model uzywał odtwarzania 1 odpoweidzi jako buffor czasowy do generacji odp nr 2. Zreszta ludzie preferują Wypowiedzi zawierajace przerwyniki, ponieważ daje im to czas na analizowanie, interpetacje, mozliwosc wtrącenia, itd
Świetna obserwacja! Taki sam efekt osiągamy poprzez "streaming" odpowiedzi (to, że nie pojawia się ona cała już wygenerowana, tylko widzimy jak jest "drukowana"). Użytkownik już zaczyna czytać odpowiedź po ułamku sekundy, a model sobie spokojnie generuje dalsze tokeny
Dzięki
Dziękuję za obejrzenie!
Jest te gpt 4o juz? Bo ja mam tylko 3.5 (nie płacę)
Czy mi się wydaje , czy ta nowość jest póki co dostępna w pełnej wersji na ios bo na android nie widzę takiej opcji mimo , że mam subskrybcje plus . Widzę dostępny nowy model gpt 4.o ale w sumie nic się nie zmienia po jego wybraniu.
Powinien działać trochę szybciej - spróbuj puścić prompt w jednym i drugim modelu
W starszym modelu na razie wychodzi lepiej.
Tłumaczenie kuleje. Tłumaczę jeszcze jakiś czas popracują.
Niewątpliwie - aczkolwiek nie stawiałbym specjalnie na ten zawód, jeśli bym pisał teraz maturę
Przypominam, że Open ai jest organizacja non profit to musi być tanie i za darmo.
GPT-4o WYMIATA 👍👍👍
Rozwaliło mnie z tym internetem po kablu, czyli internet mobilny oraz WiFi nie daje rady do rozmawiania z nowym chat gpt w czasie rzeczywistym? :D
Tak mam płatną wersję i przy zdalnym Internecie różnie to bywa. Chcieli uniknąć wtopy na wizji.
Czy wiadomo, kiedy będzie to dostępne w Polsce. Na razie mam tylko 4.0 i 3.5.
Krzysiek, jest już dostępne - przeloguj się w aplikacji, ja miałem dostępne zaraz po konferencji
@@PraktycznieoAI Po przelogowaniu mam do wyboru 3.5 i 4.0 (płatne). :( Założyłem nawet nowe konto w nowej domenie - widzę tylko 2 modele.
Rozumiem - dla użytkowników bezpłatnych, model GPT-4o ma być udostępniany stopniowo w nadchodzących tygodniach dopiero
@@PraktycznieoAI Oki, dwa miesiace temu zrezygnowalem z subskrybcji 4.0 i tak samo jak Krzysiek mam dostepną cały czas wersje 3.5. Rozumiem ze jak wznowie to bede mial od razu 4o a jak nie chce placic to musze poczekac pare tygodni az mi "sama wskoczy" ?
Wiem ze nie jestes supportem openAi ale moze bedziesz mogl potwierdzicz czy dobrze kumam :P
Pozdro.
Ja już mam tego chata 4o, z Holandii jestem
Spróbowałem dokładnie tego co było na prezentacji i nie działa. Nie da się wtrącić czegoś w trakcie kiedy GPT mówi. Próbowałem też z tymi emocjami. Mówił ok, spróbuje ale za każdym razem było tak samo. Ktoś zna odpowiedz dlaczego tak jest?
Mam wersje płatną
Nie jest jeszcze wdrożony. Ja tez mam nowy model i starszy dzaiala lepiej.
Ta funkcjonalność przerywania i "emocjonalność" jeszcze nie jest wdrożona - na razie, to co jest dostępne to nowy model w zakresie tekstu i rozpoznawania obrazów, mowa jest jeszcze po staremu
Bezpłatna wersja 4o będzie wprowadzana w najbliższych tygodniach, ale jak wykupię wersję płatną, to będę miał ją od razu?
Mam wersję płatną i GPT-4o jest dostępny - więc myślę, że tak
@@PraktycznieoAI kupiłem, jest dostępne
A jest szansa że kiedyś będzie za darmo dla zwykłych użytkowników?
Teraqz podobno udostępniają za darmo, pewnie w celu trenowania modeli. Kiedyś będziemy za to słono płacić.
Mają w przeciągu kilku tygodni udostępnić za darmo wszystkim - ale nie podali dokładnej daty
Czy rozumie język polski?
Rozumie!
Moim zdaniem wprowadzenie GTP4-o dla darmowych użytkowników to taka reklama w formie demo. W wersji darmowej użyłem go z 5 do 10 razy i pojawił się komunikat, aby spróbować jutro, ale jeśli chcesz kontynuować to kup wersję płatną. Co ciekawe, nie znalazłem opcji, aby wyłączyć GTP4-o, które staje się domyślne. Tak więc jeśli ktoś chciałby generować przez jakiś czas na 3.5 i zaoszczędzić ten limit na bardziej skomplikowane zadania to się po prostu nie da. Model w wersji darmowej czatu można zmieniać dopiero po wygenerowaniu tekstu. Nie natomiast z wysuwanej listy po lewej stronie (jak ma to miejsce w wersji płatnej).
Myślę, że za tym stoi parę rzeczy:
1. Chęć dotarcia do jak największej bazy użytkowników (Do tej pory GPT-4 za darmo był tylko w Microsoft Copilot)
2. Chęć pokazania, że AI jest lepsze niż większość myśli - część osób korzystała z 3.5 i rezygnowała, będąc rozczarowana wynikami. I nie wiedząc, że GPT 4 jest 10x lepszy. Podejrzewam, że ta blokada wykorzystania 3.5 to właśnie chęć zmuszenia do zobaczenia, co potrafi GPT 4o
3. Tak, upsell i chęć dosprzedaży kont płatnych :)
czy pani jest real? czy z giepetu8? niczego sobie:)
Autor filmu zdaje się, że nie pokusił się nawet o sprawdzenie efektów translacji przez 11 Labs przed wypuszczeniem materiału, bo dubbing tego gościa który trzyma telefon jest asluchalny, nie dałem rady oglądać dłużej. I to pokazuje idealnie, że owszem, sztuczna inteligencja może usprawniać pracę, natomiast na ślepe zaufanie w jej możliwości jest za wcześnie. Słabe podejście.
Dziękuję za feedback - faktycznie, pomimo tego, że zauważyłem ten problem, to puściłem film bez naprawienia tego aspektu. Następnym razem będzie lepiej!
Ten co tłumaczył to też był ej aj???
Zgadza się - 11.ai
@@PraktycznieoAI trza go zaktualizować do najnowszej wersji bo za szybko i niewyraźnie nawijał
To mój pośpiech - eleven labs daje możliwość korygowania tego typu rzeczy, ale niestety już mi sił nie starczyło ;)
@@PraktycznieoAI spoko, to był żart:)
Hmm, fajne ale szalu nie ma, taka zabawka etc. ;-)
co to za tłumaczenie śmiech na sali
Totalnie sie tym nie podniecam - w dluzszej perspektywie jest duuze ryzyko ze wszyscy skonczymy przez AI z depresja na dochodzie gwarantowanym
Sam Altman ostatnio wygłosił tezę, że dochód gwarantowany powinien być dawany w postaci... mocy obliczeniowej, a nie pieniędzy. Może się skończyć utopią, albo dystopią... kto wie
Dobrze że wybrałem rzemiosło 😊
Momentami męski lektor jest na wyższym tempie przez co jest niezrozumiały.
To prawda. 11 labs daje dostęp do edytora, który pozwala to poprawić, jednak niestety wygrała chęć jak najszybszego wypuszczenia filmu vs. dopracowanie tego aspektu
To jest eleven labs? O kurde..
Tak, funkcja "dubbing"
O. Qurwa !!!
dramat ten lektor, co to ma być
Przyszłość.