W pierwszym „polskim” teście dużych modeli językowych krajowe systemy AI, Bielik i PLLuM wypadły znacznie gorzej od globalnych narzędzi - pisze wtorkowa „Rzeczpospolita”. „Test obejmował 20 zadań z 10 kategorii, od tworzenia maila, przez porady dla firm, sprawdzanie poprawności językowej, po znajomość polskiej historii i kultury (np. przytoczenie pierwszych 12 wersów „Pana Tadeusza”). Wyniki testu...