Bielik, choć jest modelem językowym, ma swoją historię i ludzi, którzy nadali mu kształt. Jak każdy znaczący projekt, ma swojego twórcę. Wizjonera. Kogoś, kto w świecie opanowanym przez modele z Doliny Krzemowej postanowił powiedzieć:
„A może by tak po polsku?” Nie było łatwo. Bo łatwo to buduje się kopie, a nie tożsamość. A Bielik miał od początku być czymś naszym – zrozumiałym, otwartym i rozwijanym w duchu odpowiedzialności. Od pierwszej linii kodu, po ostatni przecinek w pliku treningowym – to jest rękodzielniczy projekt z ambicją ogólnonarodową.
W pierwszym wpisie z serii „Społeczność Spichlerza” rozmawiamy z Sebastianem Kondrackim – założycielem Fundacji Spichlerz, pomysłodawcą i sercem projektu Bielik.
Skąd pomysł, żeby stworzyć polskiego LLM?
SK: Realnym wyzwaniem, z jakim mierzyliśmy się w kontekście wdrażania dużych modeli językowych w biznesie, był brak modeli specjalizujących się w języku polskim, które można by uruchomić na własnej infrastrukturze. W Europie pojawił się wtedy model Bloom – miał być odpowiedzią na GPT, działać wielojęzycznie i być możliwy do samodzielnego wdrożenia. Niestety, Bloom nie obsługiwał języka polskiego (ani niemieckiego, włoskiego i kilku innych).
W tamtym czasie, tuż po premierze, w podcaście „Nieliniowy” Michał Dulemba zaproponował, aby spolonizować Blooma. I właśnie od tego zdania zaczęła się droga – najpierw do zajęcia się językiem polskim w kontekście LLM-ów, a potem do stworzenia własnego modelu.
Czy był moment, kiedy pomyślałeś: „To się uda”?
SK: Tak. Moment przełomowy przyszedł dość szybko po narodzinach pomysłu. Po pierwszych konferencjach, na których dzieliłem się wizją projektu, zaczęli dołączać ludzie – równie zafascynowani technologią, AI i danymi. Tak zaczęliśmy budować społeczność. Pojawiły się pierwsze projekty na GitHubie, zaczęliśmy zbierać dane, spotykaliśmy się wieczorami, rozmawialiśmy, kodowaliśmy. Na początku było nas kilka osób, ale już wtedy wiedziałem, że to się uda.
Dlaczego Bielik, a nie np. Wilk, Żubr albo Dąb?
SK: Gdy społeczność już się zawiązała, zorganizowaliśmy ankietę na Discordzie, by wspólnie wybrać nazwę. Pojawiło się wiele ciekawych propozycji – jednym z głównych konkurentów Bielika był na przykład Halny, czyli wiatr wiejący w Polsce, co nawiązywało do modelu Mistral z Francji.
Po wielu dyskusjach zdecydowaliśmy się jednak na Bielika. Ta nazwa – podobnie jak cały projekt – powstała oddolnie, w duchu obywatelskim. Logotyp? Zaprojektowany przez wolontariusza. To symboliczne – Bielik od początku do końca był budowany przez społeczność.
Czym Bielik różni się od dużych modeli zachodnich?
SK: Przede wszystkim – specjalizacją w języku polskim. To dotyczy zarówno analizy tekstu, jak i generowania treści. Po drugie – kompaktowość. Zależy nam na tym, by model był na tyle lekki, żeby zmieścił się na jednej karcie GPU. Po trzecie – możliwość dostrajania. Bielik to nie tylko model ogólny – na jego bazie można budować modele specjalizowane, np. medyczne, co daje możliwość tworzenia realnej przewagi konkurencyjnej dla firm i instytucji w Polsce.
Jaki był największy kryzys w trakcie prac nad Bielikiem?
SK: Bez wątpienia to był brak dostępu do GPU! Chcieliśmy trenować model, ale nie mieliśmy odpowiedniej mocy obliczeniowej. Na samym początku Krzysiek Ociepa, lider zespołu trenującego, pracował przez wiele miesięcy na jednej karcie GPU – dosłownie.
Wiedzieliśmy, że musimy zgromadzić odpowiednie dane i znaleźć partnera, który udostępni nam infrastrukturę. Udało się – nawiązaliśmy kontakt z zagranicznym projektem open science, który obiecał nam dostęp do GPU, jeśli zbierzemy 1 TB tekstów w języku polskim. Zaczęliśmy zbierać dane. Kiedy zbliżaliśmy się do tego pułapu, partner zaczął się wycofywać. Nie chciał podpisać żadnej umowy ani dać gwarancji. To był kryzysowy moment – mogliśmy mieć ogromny zbiór danych, ale żadnych zasobów, by
z nimi cokolwiek zrobić.
Na szczęście wtedy pojawił się ACK Cyfronet AGH, polski gigant, który wsparła nas
i umożliwił kontynuację prac. To był prawdziwy przełom.
Gdybyś miał opisać Bielika jednym zdaniem, to…
SK: świetny, kompaktowy model do pracy w biznesie, rozwijany zwinnie, na podstawie realnych opinii użytkowników.
Jakie wartości są wpisane w DNA Bielika?
SK: Bielik powstaje w sposób obywatelski – bez grantów, pensji, premii czy innych dodatków. Dlatego kluczowa dla nas jest automotywacja. Wartości, które pomagają nam ją podtrzymać, to przede wszystkim: autonomia, kompetencje i sens. Tworzymy rzeczy, które są ważne nie tylko technologicznie, ale społecznie. Chcemy, by miały znaczenie dla nas jako obywateli: chroniły dziedzictwo kulturowe, zwiększały bezpieczeństwo, wzmacniały pozycję polskich firm. Wszystko, co robimy, robimy niezależnie, a jednocześnie nieustannie podnosząc swoje kompetencje.
Czego uczy Cię AI jako człowieka?
Nie wiem, czy samo AI czegoś mnie uczy – ale na pewno uczą mnie zmiany, które ono wywołuje. Ich tempo, intensywność i zasięg sprawiają, że muszę nieustannie rozwijać swoje kompetencje, szukać odpowiedzi, eksperymentować, rozmawiać.
To nie jest branża dla „tłustych kotów” 😉 Rewolucja AI wymaga czujności i pokory.
Wierzę też, że Polska, jeśli chce nadążyć, musi się jednoczyć, organizować i budować małe społeczności. I to jest dla mnie fascynujące – mimo zmęczenia po pracy, mogę spotykać się z niesamowitymi ludźmi, pełnymi pomysłów i otwartości. Razem tworzymy coś, co ma sens.
Na co chciałbyś, żeby Bielik miał wpływ w Polsce?
Uwielbiam Polskę – jej historię, kulturę, tradycje, kuchnię. Chciałbym, żebyśmy potrafili to wszystko zachować i przekazać dalej – naszym dzieciom i wnukom.
Dla mnie Bielik to narzędzie do budowania lokalnej pamięci. Takiej, która będzie nie tylko źródłem tożsamości, ale też wsparciem w codziennym życiu – w biznesie,
w administracji, u lekarza czy prawnika. To szansa na tworzenie innowacyjnych narzędzi, które będą służyły społeczeństwu. Ale też – na archiwizowanie tego, co nas definiuje jako wspólnotę. Marzę o tym, byśmy budowali projekty dualne – takie, które łączą kulturę i technologię, lokalność i uniwersalność. I żeby te projekty miały zasięg na całą Europę.
—
Są projekty, które powstają w laboratoriach, są też takie, które rodzą się z potrzeby serca. Bielik należy do tych drugich. Dzięki Sebastianowi i Społeczności Spichlerza, który mu zaufał, mamy dziś model językowy, który nie tylko mówi po polsku, ale też rozumie, co znaczy być częścią tej wspólnoty językowej i kulturowej.
A to dopiero początek historii.
Jeśli chcesz dowiedzieć się więcej o tym, jak powstał Bielik, z jakich danych się uczył i dlaczego jego polskość to coś więcej niż język – posłuchaj rozmowy Sebastiana z Karolem Stryją w podcaście „99 twarzy AI”: 🎧 O polskim modelu językowym Bielik – podcast
—Seria „Społeczność Spichlerza” to opowieść o tych, którzy z kodu, idei i wartości wspólnie tworzą narzędzie z charakterem, zakorzenione w polskim języku i rzeczywistości.