W pierwszym „polskim” teście dużych modeli językowych krajowe systemy AI, Bielik i PLLuM wypadły znacznie gorzej od globalnych narzędzi – pisze wtorkowa „Rzeczpospolita”.
„Test obejmował 20 zadań z 10 kategorii, od tworzenia maila, przez porady dla firm, sprawdzanie poprawności językowej, po znajomość polskiej historii i kultury (np. przytoczenie pierwszych 12 wersów „Pana Tadeusza”). Wyniki testu przeprowadzonego przez firmę Oxido, okazały się zaskakujące” – relacjonuje gazeta.
Spośród 12 modeli wygrało narzędzie Google’a. Na podium znalazł się także chiński model Qwen oraz model Llama od Mety (właściciela m. in. Facebooka – PAP). „Polskie modele uplasowały się natomiast na szarym końcu” – podkreśla dziennik.
„Wynik jest tym bardziej zaskakujący, że dotychczas eksperci przekonywali, iż polskie modele lepiej znają niuanse naszego języka i historii. „Polskie modele zawiodły tymczasem w kategoriach, które teoretycznie powinny być ich przewagą. Na przykład przy inwokacji «Pana Tadeusza» Bielik był ósmy, a PLLuM – trzeci od końca” – pisze „Rz”.
Zdaniem Marka Jeleśniańskiego, autora badania, pozycja Bielika przy ograniczonych zasobach twórców to jednak „niezły wynik”, a polskie modele mogą stać się alternatywą przy dalszych inwestycjach. „Gdyby stworzyć sensowne ramy dla dotacji i innowacji, gdyby zainteresować inwestorów i instytucje aktywniejszym finansowaniem rozwoju Mistrala czy polskich modeli, to moglibyśmy zmniejszyć dystans, jaki nas dzieli do konkurentów” – przekonuje Jeleśniański. (PAP)
bal/ sp/