[ODNews] #43 - analiza chrumknięć?, AI oszczędza setki godzin w IT, Apple za konkurencją, stan AI na 2024

Hej, tu Patryk!
W tym tygodniu przygotowałem dla was masę newsów! W branży AI jak zwykle dzieje się dużo, więc przechodzimy od razu do rzeczy 👇

OpenAI planuje własne chipy dla AI

OpenAI we współpracy z Broadcom opracowuje niestandardowy chip AI, planując produkcję na 2026 rok, oraz zwiększa moc obliczeniową, dodając chipy AMD poprzez Microsoft Azure. Firma utworzyła 20-osobowy zespół zajmujący się rozwojem chipów, w tym byłych inżynierów Google Tensor.

https://www.theverge.com/2024/10/29/24282843/openai-custom-hardware-amd-nvidia-ai-chips

Jak programiści oszczędzają kilkaset godzin na pisaniu testów

Zespół inżynierów Assembled użył LLM do automatyzacji generowania testów, oszczędzając setki godzin pracy. Wykorzystując modele o1-preview OpenAI i Claude 3.5 Sonnet, mogą tworzyć zestawy testów w 5–10 minut zamiast godzin, co znacząco zwiększa prędkość programowania przy zachowaniu jakości kodu.

https://www.assembled.com/blog/how-we-saved-hundreds-of-engineering-hours-by-writing-tests-with-llms

Narzędzie Whisper do transkrypcji i częste halucynacje?

Badacze odkryli, że narzędzie transkrypcyjne Whisper firmy OpenAI często generuje fałszywe treści, w tym rasistowskie komentarze i nieprawdziwe informacje medyczne. Halucynacje występują w 50–80% transkrypcji, co rodzi wątpliwości co do jego zastosowania w krytycznych zadaniach. OpenAI jest świadome problemu i pracuje nad poprawą. Osobiście korzystałem z Whispera kilkakrotnie i nie zauważyłem takich halucynacji.

https://techcrunch.com/2024/10/26/openais-whisper-transcription-tool-has-hallucination-issues-researchers-say/

Jarvis – asystent AI wbudowany w Chrome

Google rozwija „Project Jarvis”, asystenta AI działającego w przeglądarce Chrome przy użyciu Gemini 2.0. System przechwytuje ekran i wykonuje zadania, takie jak wyszukiwanie informacji czy zakupy. Premiera planowana jest na grudzień, po czym rozpoczną się ograniczone testy.

https://9to5google.com/2024/10/26/google-jarvis-agent-chrome/

ChatGPT search – wyszukiwarka od OpenAI

OpenAI zintegrowało zaawansowane funkcje wyszukiwania z ChatGPT, umożliwiając użytkownikom Plus i Team dostęp do informacji w czasie rzeczywistym z podaniem źródła. Współpracowano z kluczowymi wydawcami, takimi jak Associated Press i Reuters. Użytkownicy korporacyjni i edukacyjni będą mieli dostęp w ciągu kilku tygodni, a szersze wdrożenie dla użytkowników bezpłatnych planowane jest na najbliższe miesiące. OpenAI dąży do zwiększenia konkurencyjności wobec tradycyjnych wyszukiwarek, takich jak Google, oraz wyszukiwarek AI, jak Perplexity.

https://openai.com/index/introducing-chatgpt-search

GitHub Spark – platforma do tworzenia mikroaplikacji

GitHub przedstawia Spark – platformę do tworzenia niestandardowych aplikacji w języku naturalnym, bez potrzeby pisania kodu. Łączy edycję opartą na AI z zarządzanymi środowiskami, umożliwiając użytkownikom błyskawiczne tworzenie, wdrażanie i udostępnianie mikroaplikacji na komputerach i urządzeniach mobilnych.

https://githubnext.com/projects/github-spark

Zakład TSMC w Arizonie osiąga wyższą wydajność niż zakłady na Tajwanie

TSMC informuje, że wydajność produkcji w zakładzie w Phoenix jest o 4% wyższa niż w Tajwanie, co stanowi kamień milowy w amerykańskiej produkcji półprzewodników. Osiągnięcie to ma miejsce w kontekście spodziewanego wsparcia rządowego w wysokości 11,6 miliarda dolarów oraz planowanej masowej produkcji w pierwszym zakładzie w Arizonie na początku 2025 roku.

https://www.bloomberg.com/news/articles/2024-10-24/tsmc-s-arizona-chip-production-yields-surpass-taiwan-s-a-win-for-us-push&cmpid=socialflow-twitter-business

MidJourney uruchamia nową funkcję edycji obrazów

Midjourney wprowadziło nową funkcję edycji obrazów AI, umożliwiającą użytkownikom modyfikację istniejących obrazów, zmianę tekstur i przekształcanie szkiców w szczegółowe dzieła. Narzędzie jest dostępne jedynie dla użytkowników, którzy wygenerowali ponad 10 000 obrazów lub mają długoterminowe subskrypcje. Edytor można używać przez interfejs internetowy Midjourney.

https://venturebeat.com/ai/midjourney-launches-ai-image-editor-how-to-use-it/

Apple dwa lata za konkurencją

Wewnętrzne badania Apple ujawniają, że ChatGPT działa o 25% dokładniej niż Siri i obsługuje o 30% więcej zapytań. Aby wypełnić tę lukę, Apple nawiązał współpracę z OpenAI, integrując GPT-4 w ekosystemie i rozwijając własną sztuczną inteligencję z Apple Intelligence.

https://9to5mac.com/2024/10/20/gurman-apple-intelligence-ai-two-years/

Boom inwestycyjny w AI w USA

Budowa centrów danych w USA osiągnęła rekordową kwotę 28,6 miliarda dolarów rocznie, co oznacza 114% wzrost w ciągu dwóch lat. Firmy technologiczne szybko rozbudowują infrastrukturę obliczeniową AI. Plan Microsoftu dotyczący ponownego otwarcia reaktora na Three Mile Island podkreśla skalę inwestycji; w zeszłym roku firmy zwiększyły swoje zasoby infrastrukturalne o 95 miliardów dolarów, aby wspierać rozwój sztucznej inteligencji.

https://www.apricitas.io/p/the-ai-investment-boom

Anthropic uruchamia narzędzie do analizy danych

Anthropic wprowadził nowe narzędzie analityczne w Claude.ai, które pozwala sztucznej inteligencji na pisanie i wykonywanie kodu JavaScript do przetwarzania i analizy danych. Ta funkcja, dostępna w wersji zapoznawczej dla wszystkich użytkowników, umożliwia analizę danych w czasie rzeczywistym, wizualizację oraz generowanie spostrzeżeń w obszarach takich jak marketing, sprzedaż i finanse.

https://www.anthropic.com/news/analysis-tool

Scrapping danych z wideo za $0,0008?

Programista zademonstrował, jak wyodrębnić uporządkowane dane z Gmaila, nagrywając 35-minutowy film z ekranu i przetwarzając go za pomocą Google Gemini 1.5 Flash. Technika ta konwertuje treści wideo na formaty JSON i CSV za mniej niż 1/10 centa, stanowiąc prostą alternatywę dla złożonych integracji API i ręcznego wprowadzania danych.

https://simonwillison.net/2024/Oct/17/video-scraping

OpenAI rozwiązuje zespół gotowości AGI z powodu rezygnacji starszego doradcy ds. bezpieczeństwa

OpenAI rozwiązało zespół AGI Readiness po rozwiązaniu zespołu Superalignment, co wprowadza zmiany w nadzorze nad bezpieczeństwem. Starszy doradca Miles Brundage zrezygnował, twierdząc, że jego badania będą miały większy wpływ na zewnątrz i wyrażając obawy co do gotowości branży na zaawansowaną sztuczną inteligencję.

https://www.cnbc.com/2024/10/24/openai-miles-brundage-agi-readiness.html

ElevenLabs – zaprojektuj głos promptem

ElevenLabs wprowadziło nową funkcję Voice Design, umożliwiającą projektowanie głosów na podstawie promptów, np. strasznego ogra lub małej słodkiej myszy. Ta funkcja może być przydatna w produkcji filmowej i animacji.

https://twitter.com/elevenlabsio/status/1849083718838657186

Sztuczna inteligencja do dekodowania emocji świń poprzez analizę „chrumkania”

Zespół badawczy z wielu uniwersytetów stworzył algorytm AI, który interpretuje wokalizacje świń, oceniając ich stan emocjonalny i dobrostan. System, oparty na analizie tysięcy zarejestrowanych dźwięków, różnicuje pozytywne i negatywne emocje na podstawie pomruków, okrzyków i pisków.

https://www.reuters.com/technology/artificial-intelligence/ai-decodes-oinks-grunts-keep-pigs-happy-2024-10-24

Jak „myśli” AI?

Krótki artykuł opisujący w ciekawy sposób w jaki sposób „myśli” generatywna sztuczna inteligencja.

https://www.oneusefulthing.org/p/thinking-like-an-ai

GitHub Copilot z dostępem do Claude i Gemini

GitHub ogłosił, że jego asystent kodowania Copilot zintegruje modele Claude 3.5 Sonnet firmy Anthropic oraz Gemini 1.5 Pro firmy Google. Dotychczas dostępne były jedynie modele OpenAI. W nadchodzących tygodniach wdrożone zostanie podejście oparte na wielu modelach, umożliwiające programistom przełączanie się między nimi w trakcie rozmowy, aby optymalizować konkretne zadania kodowania.

https://arstechnica.com/ai/2024/10/github-copilot-moves-beyond-openai-models-to-support-claude-3-5-gemini

ToonCrafter – krótka animacja w kreskówkowym stylu

Narzędzie na Hugging Face umożliwia stworzenie krótkiego animowanego filmiku w kreskówkowym stylu na podstawie dwóch klatek podanych przez użytkownika.

https://huggingface.co/spaces/Doubiiu/tooncrafter

Jak AI może pomóc lekarzom w papierkowej pracy

Nowe badania przeprowadzone przez Google Cloud i The Harris Poll pokazują, że amerykańscy lekarze spędzają prawie 28 godzin tygodniowo na dokumentacji, a pracownicy ubezpieczycieli – średnio 36 godzin. 82% klinicystów zgłasza wypalenie zawodowe, a ponad 90% dostawców opieki zdrowotnej jest optymistycznie nastawionych do potencjału generatywnej sztucznej inteligencji w zmniejszaniu obciążenia administracyjnego.

https://blog.google/products/google-cloud/generative-ai-healthcare-administration

Anthropic Quickstarts

Anthropic Quickstarts to zestaw projektów, które ułatwiają programistom szybkie rozpoczęcie pracy z Anthropic API. Każdy Quickstart stanowi bazę, na której można łatwo budować i dostosowywać aplikacje.

https://github.com/anthropics/anthropic-quickstarts

xAI uruchamia API dla modelu Grok

xAI Elona Muska udostępniło API „grok-beta” w cenie 5 dolarów za milion tokenów wejściowych i 15 dolarów za milion tokenów wyjściowych. Premiera obejmuje klasyczne zapytania do modelu oraz function-calling. Niektórzy użytkownicy zgłaszają problemy z płatnościami.

https://techcrunch.com/2024/10/21/xai-elon-musks-ai-startup-launches-an-api/

Raport o stanie sztucznej inteligencji 2024

Raport o stanie sztucznej inteligencji na rok 2024. Wskazuje on, że AI koncentruje się na praktycznych zastosowaniach. Choć OpenAI i inne firmy generują miliardy przychodów, sektor zmaga się z ograniczeniami infrastrukturalnymi i wyzwaniami regulacyjnymi na świecie. Zawiera także szereg dodatkowych wniosków i danych.

https://www.stateof.ai/2024-report-launch

Narzędzie Adobe obraca grafikę 2D w przestrzeni 3D

Projekt Turntable, zaprezentowany na Adobe MAX 2024, pozwala projektantom obracać płaskie ilustracje wektorowe pod dowolnym kątem, zachowując ich artystyczną jakość. Narzędzie AI uzupełnia brakujące elementy wizualne podczas rotacji.

https://www.creativebloq.com/design/adobes-new-image-rotation-tool-is-one-of-the-most-impressive-ai-concepts-weve-seen

Claude potrafi obsługiwać komputer

Nowa wersja API Anthropic Claude umożliwia sztucznej inteligencji bezpośrednie sterowanie zadaniami na komputerze.

https://www.anthropic.com/news/3-5-models-and-computer-use

Grok wytłumaczy wam mema

Elon Musk zaprezentował nową funkcję Groka na X, która potrafi analizować obrazy, np. wyjaśniać memy.

https://twitter.com/elonmusk/status/1850724646414606406

Dzięki za przeczytanie 🔥

[ODNews] #43 – analiza chrumknięć?, AI oszczędza setki godzin w IT, Apple za konkurencją, stan AI na 2024