[ODNews] #48 - jak oszukać AI, SORA bez API?, finansowa definicja AGI?

Hej, tu Patryk!

Przed wami pierwsze zestawienie w nowym roku! Przechodzimy od razu do newsów! 🔥

BYD wkracza na rynek robotów humanoidalnych

BYD, chiński lider rynku pojazdów elektrycznych, ogłosił wejście na rynek humanoidalnych robotów, poszukując talentów do zespołu Embodied Intelligence Research Team. Już od 2022 roku firma rozwija robotykę, w tym systemy humanoidalne, wspierając swoje operacje produkcyjne, a teraz planuje szeroką ekspansję w AI, przeznaczając na ten cel 100 miliardów juanów (ok. 13,7 mld USD).

https://electrek.co/2024/12/17/byd-enters-humanoid-robot-race-global-talent-search-kicks-off/

Nie będzie API do SORY?

OpenAI poinformowało, że nie planuje na razie wprowadzenia API dla swojego modelu do generacji wideo Sora, co może wynikać z problemów z przepustowością po niedawnym, niespodziewanie intensywnym zainteresowaniu platformą. Decyzja ta stawia OpenAI w trudnej pozycji względem konkurencji, która już oferuje lub zapowiedziała API dla swoich generatywnych modeli wideo. Decyzja OpenAI może ograniczyć możliwości integracji Sory w zewnętrznych aplikacjach.

https://techcrunch.com/2024/12/17/openai-says-it-has-no-plans-for-a-sora-api-yet/

Grok na iOS

xAI, firma Elona Muska, wprowadza testową aplikację naiOS dla swojego chatbota Grok, wcześniej dostępnego wyłącznie dla użytkowników serwisu X. Aplikacja umożliwia m.in. generowanie obrazów z opisów tekstowych, przetwarzanie zapytań w czasie rzeczywistym z uwzględnieniem danych z sieci i platformy X oraz funkcje generatywnej AI, takie jak streszczanie tekstów. Zapowiedziano również stronę Grok.com, która ma rozszerzyć dostęp do chatbota.

https://techcrunch.com/2025/01/08/xai-is-testing-a-standalone-ios-app-for-its-grok-chatbot/

Jak bezpieczne są wyszukiwarki oparte na AI?

Nowe badania wykazały, że funkcja wyszukiwania w ChatGPT może być manipulowana za pomocą ukrytego kodu w witrynach internetowych, co skutkuje tworzeniem błędnych lub stronniczych podsumowań, np. ignorujących negatywne recenzje produktu. Podejście to ujawnia ryzyko stosowania dużych modeli językowych w wyszukiwarkach, szczególnie w kontekście bezpieczeństwa informacji i ochrony przed złośliwym oprogramowaniem.

https://techcrunch.com/2024/12/26/chatgpt-search-can-be-tricked-into-misleading-users-new-research-reveals/

Nowa metoda COCONUT – lepsze rozumowanie, ale trudniejsze do zrozumienia?

Najnowsza praca Meta FAIR prezentuje metodologię „COCONUT” (chain-of-continuous-thought) jako alternatywę dla klasycznego podejścia chain-of-thought (CoT). Gdzie kroki przekazywane są wewnątrz modelu w postaci zrozumiałej dla AI zamiast pośredniego zamieniania ich na słowa zrozumiałe dla ludzi. Takie podejście pozwala na bardziej zwięzłe i bogate semantycznie reprezentacje myślenia, poprawiając wyniki modelu w zadaniach wymagających bardziej zaawansowanego rozumowania, choć odbywa się to kosztem interpretowalności dla użytkownika, która jest wyraźnie niższa niż w tradycyjnym CoT.

https://benjamincongdon.me/blog/2024/12/14/Chain-of-Continuous-Thoughts

Finansowa definicja AGI?

Microsoft i OpenAI zawarły porozumienie, w którym definicja sztucznej ogólnej inteligencji (AGI) opiera się na finansowym progu—osiągnięciu przez OpenAI 100 miliardów dolarów zysków. W praktyce oznacza to, że OpenAI, obecnie generujące straty i prognozujące rentowność dopiero na 2029 rok, jest dalekie od osiągnięcia AGI według tej specyfikacji. Umowa zapewnia Microsoftowi dalszy dostęp do technologii OpenAI do momentu spełnienia tego warunku, co sugeruje, że partnerstwo obu firm może potrwać wiele lat, pomimo niejasności otaczających same kryteria AGI.

https://techcrunch.com/2024/12/26/microsoft-and-openai-have-a-financial-definition-of-agi-report/

DeepSeek-V3 – nowy lider w otwartym AI?

DeepSeek-V3 to nowy model open-source, będący największym modelem tego typu dostępnym na rynku. Z aż 671 miliardami parametrów, wykorzystuje architekturę Mixture of Experts do dynamicznej aktywacji wybranych komponentów, optymalizując wydajność zadań przy jednoczesnej minimalizacji kosztów obliczeniowych. Przewyższa otwarte modele, takie jak Llama-3.1 i Qwen, i rywalizuje z niektórymi zamkniętymi modelami, szczególnie wyróżniając się w zadaniach z języka chińskiego i matematyki. Wyszkolony za ułamek typowych kosztów, podkreśla postęp projektów open-source.

https://venturebeat.com/ai/deepseek-v3-ultra-large-open-source-ai-outperforms-llama-and-qwen-on-launch/

Eco-friendly AI w 2025?

Rok 2025 zapowiada wzrost zastosowań AI w technologiach ekologicznych, napędzany rosnącymi wymaganiami energetycznymi centrów danych. Startupy rozwijające mniejsze reaktory jądrowe oraz technologie fuzji jądrowej zyskują na znaczeniu, by sprostać wysokiemu zapotrzebowaniu na stabilne, czyste źródła energii, również konkurencja z odnawialnymi źródłami pozostaje silna.

https://techcrunch.com/2025/01/02/2025-will-be-the-year-climate-tech-learns-to-love-ai/

Jak łatwo obejść zaawansowane modele językowe?

Nowe badania Anthropic pokazują, że za pomocą prostej techniki zwanej Best-of-N (BoN) Jailbreaking można łatwo „oszukiwać” zaawansowane modele językowe, takie jak GPT-4o, Claude 3.5 czy Google Gemini. Metoda opiera się na modyfikacjach wejściowych, takich jak losowe zmiany wielkości liter, literówki czy zniekształcenia gramatyczne, które pozwalają obejść wbudowane zabezpieczenia AI. Skuteczność tej techniki dochodzi do 89% w przypadku tekstu, a w modalnościach audio i obrazu wynosi nawet 88%, co podkreśla trudność w utrzymaniu spójności i bezpieczeństwa modeli w różnych formach interakcji.

https://futurism.com/the-byte/easy-hack-jailbreak-ai-chatbot

Rozwój AI jest niesamowicie szybki

Jeszcze niedawno modele typu GPT-3 ledwo radziły sobie ze składnym formułowaniem tekstów, a obecnie najlepsze modele potrafią znajdywać błędy w pracach badawczych. Ciężko nie wspomnieć też o ogromnym postępie w jakości wideo generowanego przez AI. Ciekawy wpis analizujący postępy w dziedzinie AI w ostatnim czasie.

https://www.oneusefulthing.org/p/what-just-happened

Jak rozumieć działanie dużych modeli językowych?

Według autora artykułu nie ma sensu myśleć o chatbotach AI jak o istotach, które coś knują albo mają własne plany. To po prostu programy, które analizują wzorce w danych i na tej podstawie tworzą odpowiedzi. Potrafią logicznie myśleć i wyciągać wnioski, ale robią to na zasadzie matematycznych prawdopodobieństw, a nie dlatego, że tego chcą. Traktowanie ich jak ludzi wprowadza zamieszanie i sprawia, że albo przeceniamy, albo nie doceniamy ich możliwości.

https://www.strangeloopcanon.com/p/no-llms-are-not-scheming

Jak AI zmienia marketing?

Josh Payne, założyciel Coframe, przedstawia, jak AI napędza nową erę marketingu i rozwoju biznesu, inspirowaną podejściem ilościowym. Dzięki generatywnej AI firmy mogą przyspieszać testowanie hipotez, iterować eksperymenty z treściami na stronach internetowych oraz automatycznie personalizować doświadczenia użytkowników na dużą skalę. Payne wskazuje, że AI nie tylko zwiększa efektywność, lecz także umożliwia optymalizację na niespotykaną dotąd skalę, przyspieszając rozwój firm dzięki systematycznemu wykorzystaniu danych i algorytmów w podejmowaniu decyzji biznesowych.

https://every.to/thesis/the-new-science-of-growth-marketing

Czy Meta narusza prawa autorskie w szkoleniu AI?

Meta, pod kierownictwem Marka Zuckerberga, jest oskarżana w sprawie sądowej o trening modeli Llama na treściach chronionych prawem autorskim, korzystając z bazy danych LibGen zawierającej pirackie e-booki i artykuły. Nowe dokumenty sugerują, że Meta nie tylko ukrywała naruszenia, m.in. poprzez usuwanie metadanych o prawach autorskich, ale także rzekomo ułatwiała dystrybucję tych materiałów poprzez sieć torrent.

https://techcrunch.com/2025/01/09/mark-zuckerberg-gave-metas-llama-team-the-ok-to-train-on-copyrighted-works-filing-claims/

Roboty AI robiące samodzielne eksperymenty

Tetsuwan Scientific opracowuje roboty wspierane sztuczną inteligencją, które samodzielnie przeprowadzają eksperymenty, łącząc zdolności analityczne dużych modeli językowych (LLM) z fizyczną interakcją w laboratorium. Rozwiązanie obejmuje niedrogie, modyfikowane roboty laboratoryjne i zaawansowane oprogramowanie umożliwiające przełożenie naukowych intencji na praktyczne wykonanie eksperymentów. Firma współpracuje m.in. z La Jolla Labs w zakresie terapii RNA, a projekt ma potencjał do automatyzacji całej metody naukowej, co może znacząco wpłynąć na sektor biotechnologiczny i badania podstawowe.

https://techcrunch.com/2024/12/22/tetsuwan-scientific-is-making-robotic-ai-scientists-that-can-run-experiments-on-their-own/

Jak koszty i opóźnienia wpływają na rozwój AI?

Koszty i opóźnienia zaczynają kształtować kierunek rozwoju zaawansowanego AI, szczególnie w kontekście prac nad modelami nowej generacji. Skalowanie infrastruktury obliczeniowej i pozyskiwanie wystarczających zasobów staje się wyzwaniem, które spowalnia wdrażanie tych technologii. To podkreśla rosnącą presję na branżę, aby znaleźć efektywniejsze sposoby rozwijania najbardziej wymagających projektów AI.

https://www.msn.com/en-us/money/other/the-next-great-leap-in-ai-is-behind-schedule-and-crazy-expensive/ar-AA1wfMCB

Grok bez cenzury?

xAI, firma Elona Muska, planuje wprowadzić w swoim chatbocie Grok nową funkcję o nazwie „Unhinged Mode” (tryb nieokiełznany/szalony). W tym trybie bot będzie celowo generował „kontrowersyjne” i prowokacyjne odpowiedzi, które można porównać do występów początkujących stand-uperów.

https://techcrunch.com/2025/01/08/grok-may-soon-get-an-unhinged-mode/

Czy 2025 przyniesie zmiany w AI?

W 2025 roku rynek technologii, w tym sztucznej inteligencji, przejdzie przez prawdziwy proces weryfikacji wartości. Spodziewane jest wzmocnienie liderów i firm rzeczywiście zwiększających efektywność biznesu, podczas gdy wiele nadmiernie finansowanych przedsięwzięć z okresu 2020–2021 może stanąć przed wyzwaniami związanymi z pozyskiwaniem kapitału na realnych warunkach rynkowych. Długoterminowo inwestorzy kierują się w kierunku mniejszych, skoncentrowanych funduszy, podczas gdy „hype” może osłabnąć na rzecz bardziej zrównoważonych projektów.

https://news.crunchbase.com/ai/prediction-innovation-rational-investment-2025-biederman-asymmetric

Microsoft inwestuje w AI i chmurę w Indiach

Microsoft ogłosił inwestycję o wartości 3 miliardów dolarów w rozwój swoich usług chmurowych i sztucznej inteligencji w Indiach. Plany obejmują budowę czwartego lokalnego hubu danych, rozwój ekosystemu AI i szkolenie 10 milionów osób z zakresu tej technologii. Firma zacieśniła współpracę z indyjskimi startupami i SaaSami, by wspierać innowacje w mniejszych miastach oraz przyciągnąć dodatkowe 1,5 miliarda dolarów na finansowanie AI i SaaS w regionie.

https://techcrunch.com/2025/01/07/microsoft-to-pump-3-billion-into-cloud-and-ai-push-in-india/

YouTube chroni celebrytów przed deepfake’ami – nowa technologia

YouTube, we współpracy z agencją CAA, wprowadza technologię pozwalającą rozpoznawać i usuwać deepfake’i wykorzystujące wizerunek celebrytów bez ich zgody. Nowa funkcja, testowana od 2025 r. z udziałem aktorów i sportowców, umożliwia identyfikację treści generowanych przez AI oraz zarządzanie nimi na szeroką skalę.

https://variety.com/2024/digital/news/caa-youtube-talent-ai-deepfakes-remove-1236251470

Nvidia udostępnia oprogramowanie Run:ai

Nvidia przejęła izraelską firmę Run:ai za około 700 mln USD i zapowiedziała udostępnienie jej oprogramowania w formie open-source. Run:ai specjalizuje się w efektywnym zarządzaniu infrastrukturą GPU dla AI, umożliwiając lepsze wykorzystanie zasobów w chmurze oraz lokalnie. Decyzja o udostępnieniu kodu źródłowego ma otworzyć platformę na szerszy ekosystem AI, co może zwiększyć uniwersalność i elastyczność zastosowania GPU, a także złagodzić potencjalne obawy regulacyjne wobec dominacji rynkowej Nvidii.

https://venturebeat.com/ai/nvidia-acquires-software-maker-runai-to-orchestrate-gpu-clouds-for-ai/

Dzięki za przeczytanie! 💪

Chcesz dowiedzieć się czegoś o AI albo automatyzacjach lub szukasz z nimi pomocy? Śmiało napisz na [email protected], postaram się pomóc 👌

[ODNews] #48 – jak oszukać AI, SORA bez API?, finansowa definicja AGI?