FinOps dla AI · od zespołu CodeSOTA

Audyt i optymalizacja kosztów AI. Płacisz wyłącznie od tego, co realnie zaoszczędzimy.

Audyt zużycia tokenów, wdrożenie z kontrolą jakości i ciągłe utrzymanie na froncie capability-per-dollar. Decyzje oparte na danych z benchmarków, nie na slajdach.

Użytkownicy / 12 mc
54 652 na CodeSOTA
Odsłony / 12 mc
109 577
Modele · benchmarki
163 · 371
Szczyt ruchu
~21 tys. / mc, maj '26
Doświadczenie założyciela · ex-PwC · ex-P&G

Jako inżynier w PwC budowałem produkcyjne systemy RAG dla klientów enterprise — retrieval, eval i wdrożenia LLM w skali korporacyjnej.

W Procter & Gamble zbudowałem wewnętrzny ChatGPT dla 40 000 pracowników — architektura, koszty i jakość przy masowym ruchu.

Kompetencja

Prowadzimy rejestr, w którym rynek wybiera modele.

CodeSOTA to niezależny rejestr benchmarków — 163 modele, 371 testów — z którego w ostatnim roku skorzystało ponad 54 000 inżynierów, żeby odpowiedzieć na jedno pytanie: „którego modelu użyć?" Ruch rośnie z miesiąca na miesiąc.

To nie jest dodatkowa wiedza marketingowa. To dokładnie ta sama umiejętność, która stoi za routingiem modeli i arbitrażem dostawców — dwiema dźwigniami o największym wpływie na rachunek.

Wiemy, który model daje wymaganą jakość przy najniższym koszcie, bo mierzymy to codziennie — na żywo, z uwzględnieniem cen z katalogu OpenRouter (capability-per-dollar).

Dlatego nasz audyt to nie zgadywanie. To decyzje oparte na danych z benchmarków, z twardym SLO jakości przy każdej zmianie.

Dlaczego deep-tech

Inżynieria, nie prezentacja.

Większość doradców AI dostarcza slajdy. My utrzymujemy działający aparat pomiarowy: 9 obszarów zdolności, 371 benchmarków i 163 ocenione modele — a pod kątem cen i zużycia monitorujemy pełny katalog 750 modeli OpenRoutera. Od języka i wizji po agentów, robotykę i przemysł. Rekomendacje wynikają z pomiaru, nie z opinii.

ROUTE

Language & Knowledge

Rozumowanie, egzaminy, retrieval, zadania wiedzowe.

MMLU-Pro · GPQA · MTEB
ROUTE

Vision & Documents

Obraz, detekcja, OCR, layout, tabele, parsing dokumentów.

COCO · OCRBench · OmniDocBench
ROUTE

Audio & Speech

ASR, tagowanie audio, asystenci głosowi, jakość mowy, TTS.

WildASR · VoiceBench · ESC-50
ROUTE

Multimodal Media

VQA, wykresy, wideo, rozumowanie obraz-tekst.

VQA-v2 · TextVQA · MMMU
ROUTE

Code & Software Engineering

Generacja kodu, naprawa, zadania repo, weryfikowalna praca.

HumanEval · LiveCodeBench · SWE-bench
ROUTE

Agents & Tool Use

Długohoryzontowe użycie narzędzi, przeglądarka, OS, workflow.

GAIA · WebArena · OSWorld
ROUTE

Structured Data & Forecasting

Embeddingi, retrieval, reranking, dane tabelaryczne, grafy, prognozy.

MTEB · tabular · graph suites
ROUTE

Robotics, Control & RL

Symulacja, sterowanie, gry, agenci wcieleni, manipulacja.

Atari · Habitat · LIBERO
ROUTE

Science, Medicine & Industry

QA naukowe, obrazowanie medyczne, inspekcja przemysłowa.

CheXpert · MVTec-AD · MedQA
Ten sam aparat — pipeline scraperów, silnik rankingu Elo i harness eval/SLO — stoi za doborem modeli i kontrolą jakości w audycie. To nie jest wiedza z prezentacji. To codzienna praktyka inżynierska.
Cytowani przez · codesota.com/cited-by
University of Surrey · CVSSP, AAAI 2026 Theory Ventures · Tomasz Tunguz Hacker News r/MachineLearning UseAIAPI AlternativeTo
Trakcja

Rosnąca, weryfikowalna skala.

Ruch na CodeSOTA wzrósł od zera (lis. '25) do ok. 21 tys. użytkowników miesięcznie (maj '26), z prognozą ok. 29 tys. w czerwcu przy utrzymaniu trendu. To audytorium o wysokiej intencji — użytkownicy weryfikujący dobór modelu przed wdrożeniem.

54 652
użytkownicy · 12 mc
109 577
odsłony · 12 mc
~7×
wzrost mar→maj '26
30K 20K 10K 0 21 tys. ≈29 tys. · prognoza Cze '25 Paź '25 Sty '26 Kwi '26 Cze '26

Źródło: analytics CodeSOTA · ostatnie 12 mc · czerwiec '26 = prognoza liniowa z trendu mar–maj

Podstawa dowodowa · autorski indeks na danych publicznych

Rekomendacje oparte na dowodach, nie na założeniach.

Codziennie przetwarzamy i indeksujemy publiczne statystyki OpenRoutera — wolumen i ceny 750 modeli. Poniższe serie to nasza obróbka tych danych i empiryczna podstawa rekomendacji w zakresie doboru modeli oraz alokacji dostawców.

OpenRouter to nasz teleskop na rynek modeli — nie zakładamy, że tam płacisz. Te same dźwignie działają na Twoich bezpośrednich kontraktach: OpenAI, Anthropic, Azure OpenAI, AWS Bedrock, Vertex. Audyt czyta Twoje faktury i logi gatewaya, nie cudzy ruch.

Anthropic odpowiada za ok. 17% wolumenu tokenów, lecz ok. 66% wydatków rynkowych. Struktura kosztów rozmija się ze strukturą zużycia — i to właśnie ta rozbieżność wyznacza mierzalny potencjał optymalizacji w Państwa rachunku.

Struktura wolumenu a struktura wydatków

Udział % · OpenRouter · 31 dni
Wolumen koncentruje się w modelach o niskim koszcie jednostkowym, podczas gdy wydatki — w kilku modelach premium. Audyt identyfikuje obszary substytucji bez uszczerbku dla jakości.

Udział dostawców w wolumenie tokenów

% · 7-dniowa średnia · od sty '26
Udziały rynkowe zmieniają się w cyklu tygodniowym. Skuteczny routing wymaga bieżącego monitoringu, który prowadzimy w sposób ciągły.

Dostawcy chińscy a zachodni — udział w wolumenie

% wolumenu · 7-dniowa średnia
Punkt przecięcia: 10 maja 2026. Obecnie modele chińskie stanowią ok. 67% wolumenu — co czyni arbitraż dostawców istotną i rosnącą dźwignią kosztową.

Jakość modelu a koszt jednostkowy

AA Intelligence Index · $/mln tokenów (skala log.)
Dla danego poziomu jakości dostępne są modele o koszcie niższym o rząd wielkości (5–50×). Relacja jakość/koszt stanowi podstawę rekomendacji doboru modelu.

Metodyka: dane pochodzą z publicznych statystyk OpenRouter (wolumen) oraz katalogu cen; koszt blended liczony jako 72% ceny wejścia + 28% ceny wyjścia. Indeks jakości: Artificial Analysis. Stan na 8 czerwca 2026. Wartości poglądowe, nie stanowią porady inwestycyjnej.

Model Picker · ort.fabryka.ai/pm.html

Dobór modelu według wartości, nie ceny katalogowej.

Połączenie trzech wymiarów: jakości, ceny i realnego popytu produkcyjnego. Lewy-górny obszar to „sweet spot" — wysoka jakość przy niskiej cenie. Adopcja rynku podąża dokładnie za tą relacją.

Wartość: jakość a cena

AA Intelligence · $/M (log) · bąbel = wolumen tyg.
Im wyżej i bardziej w lewo, tym lepsza relacja jakości do ceny. Wielkość bąbla = realny tygodniowy wolumen — popyt koncentruje się na modelach o najlepszej wartości.

Cena a popyt produkcyjny

$/M (log) · wolumen tyg. · bąbel = liczba aplikacji
Popyt jako ujawniony dowód „wystarczająco dobry do produkcji". Wielkość bąbla = liczba różnych aplikacji routujących do modelu (szerokość zaufania rynku).

Źródło: ort.fabryka.ai/pm.html · wolumen z ostatnich 7 pełnych dni · cena = blended $/M przy realnym miksie prompt:completion · jakość: Artificial Analysis. Stan na 8 czerwca 2026.

Problem

Narzędzia obserwowalności pokazują koszt. Nie redukują go.

LLM-y wdrażane pod presją czasu: zbyt mocny model do prostych zadań, brak cache, nadmiarowe prompty, brak przetwarzania wsadowego i niedostateczna kontrola jakości przy cięciu kosztów. Zwykle 30–60% budżetu na AI stanowi koszt możliwy do wyeliminowania — bez wpływu na jakość.

Nasze podejście

Nie kolejny proof-of-concept. Wymierny zwrot.

Nie realizujemy demonstracji „czy AI działa" ani pilotaży bez konsekwencji. Współpracujemy z organizacjami nad osiągnięciem konkretnego zwrotu z inwestycji i celów biznesowych — rozliczani z efektów, nie z aktywności. Jeśli nie ma oszczędności, nie ma wynagrodzenia.

Optymalny wybór modelu to ruchomy cel. Udziały dostawców zmieniają się tygodniowo, a modele chińskie przekroczyły 67% wolumenu 10 maja 2026 (nasze dane powyżej). Jednorazowe cięcie to dopiero wejście — realną wartość daje utrzymanie Cię na froncie capability-per-dollar, z ciągłym evalem jakości w miarę jak rynek się przesuwa. To rola retainera „Token CFO".
Proces

Od faktury do oszczędności w 5 tygodni.

01

Triage

Bezpłatna rozmowa + przegląd faktur i logów. Wstępny szacunek oszczędności.

30–45 min
02

Audyt

Mapujemy wydatki per feature, zamrażamy baseline sprzed współpracy, ustalamy SLO jakości. Raport z dźwigniami rankowanymi wg wpływu w zł.

tydz. 1–2
03

Wdrożenie

Zmiany za feature-flagami, A/B test min. 7 dni, automatyczny rollback przy regresji jakości.

tydz. 3–5
04

Token CFO

Miesięczne rozliczenie względem faktur dostawców + ciągły monitoring kosztu vs. korzyści i jakości.

ciągle
Metoda · 9 dźwigni

Koszt i jakość — dźwignie się kompoundują.

DźwigniaOszczędnośćCo robimy
Routing modeli30–50%Najtańszy model spełniający SLO dla danego typu zapytania — oparte na danych CodeSOTA.
Cache semantyczny20–40%Łączymy near-duplikaty zapytań przez embeddingi.
Prompt cachingdo 90%*Cache stałego kontekstu i system promptu po stronie dostawcy.
Kompresja kontekstu15–30%Usuwamy redundancję z system promptów i RAG.
Batch & async10–50%Zadania w tle przenosimy na tańsze API wsadowe.
Arbitraż dostawców20–35%Routing wg capability-per-dollar między dostawcami.
Fallback / retry5–15%Tiered retry zamiast przepłacania za najmocniejszy model.
Destylacja / fine-tunezależnieDrogi model zastępujemy małym, dotrenowanym pod zadanie klienta.
Eval & quality harnessjakośćInstrumentalizacja jakości — gwarant, że cięcie kosztów nie psuje produktu.

Efekty nakładają się multiplikatywnie na malejącej bazie, nie dodają. Przykład złożenia: routing −50% → na pozostałym koszcie cache −25% → efektywnie ~62% redukcji. Realny wynik zależy od profilu ruchu.
* na powtarzalnym kontekście

Kalkulator

Szacowany zwrot z optymalizacji.

60 000 zł
8 tys.500 tys.
50%
30%60%
Wynagrodzenie Stałe 20% od zweryfikowanych oszczędności — no savings, no fee
Wynik · miesięcznie
Oszczędność brutto30 000 zł
Success fee (20%)6 000 zł
Oszczędność netto klienta / mc 24 000 zł
Oszczędność netto rocznie288 000 zł
Model rozliczenia

Elastyczny model współpracy.

Jednorazowe cięcie (success fee) to klin. Realnym produktem jest ciągłe utrzymanie na froncie capability-per-dollar z evalem jakości — retainer „Token CFO". Bierzesz tyle, ile potrzebujesz.

Audyt

0 zł / triage
Najpierw pokazujemy, ile da się zaoszczędzić.
  • Bezpłatny triage i wstępny szacunek
  • Audyt głęboki w stałej cenie
  • Cena audytu kredytowana w 100% w pierwszych oszczędnościach
No savings, no fee

Success fee

20% oszczędności
Wynagrodzenie wyłącznie od zweryfikowanych oszczędności.
  • Stałe 20% — bez negocjacji od skali
  • Liczone z faktur dostawców, względem zamrożonego baseline
  • Brak oszczędności = brak opłaty
  • Okno 12 mc od wdrożenia
Nasz model docelowy

Token CFO retainer

od 2 500 zł / mc
Fractional AI CFO — zarządza P&L Państwa AI.
  • Ciągły monitoring kosztu vs. korzyści
  • Eval jakości i alerty przy regresji
  • Nowe optymalizacje przy zmianie ruchu/cennika
  • Miesięczny raport zarządczy
Przykład: rachunek 60 000 zł/mc → redukcja 50% → oszczędność 30 000 zł/mc. Wynagrodzenie (20%) wynosi 6 000 zł, a oszczędność netto po stronie klienta — 24 000 zł/mc, tj. 288 000 zł rocznie, przy zachowanej kontroli jakości.
FAQ

Najczęstsze pytania.

Jak liczycie oszczędności?

Zamrażamy baseline sprzed współpracy (faktury i logi klienta). Co miesiąc porównujemy realny rachunek dostawców z baseline, korygując o zmiany w ruchu. Rozliczamy wyłącznie zweryfikowaną różnicę.

Co jeśli cięcie kosztów obniży jakość?

Każda zmiana ma kontraktowe SLO jakości, idzie za feature-flagą i przechodzi A/B test min. 7 dni. 7-dniowy test nie złapie regresji w długim ogonie — dlatego eval działa w trybie ciągłym także po wdrożeniu (alerty przy dryfie jakości, próbkowanie produkcyjne), a rollback jest możliwy w każdej chwili. Twoje własne ewaluacje są bramką akceptacji. Eval to u nas dźwignia pierwszego rzędu, nie dodatek — to fundament CodeSOTA.

Działacie na OpenRouterze czy na moim stacku?

Na Twoim stacku. OpenRouter to nasze źródło inteligencji rynkowej, nie miejsce, gdzie zakładamy Twoje wydatki. Dźwignie (routing, cache, kompresja, batch, arbitraż, fallback) są niezależne od dostawcy i działają na bezpośrednich kontraktach OpenAI, Anthropic, Azure OpenAI, AWS Bedrock i Vertex. Audyt opiera się na Twoich fakturach i logach gatewaya.

Jak weryfikujecie atrybucję przy zmiennym ruchu?

Zamrażamy baseline (koszt na jednostkę ruchu sprzed współpracy), a nie samą kwotę faktury. Co miesiąc normalizujemy względem realnego wolumenu i miksu, więc rozliczamy wyłącznie różnicę przypisaną wdrożonym zmianom — nie wzrost/spadek wynikający z Twojego ruchu. Pełne uzgodnienie wprost z faktur dostawców.

Na jakiej podstawie dobieracie model?

Prowadzimy CodeSOTA — rejestr benchmarków z bieżącymi, uwzględniającymi cenę rankingami 163 modeli na 371 testach. Codzienny pomiar relacji jakość/koszt stanowi podstawę doboru modeli i alokacji dostawców.

Czy konieczny jest dostęp do kodu?

Do audytu wystarczą faktury i logi gatewaya. Wdrożenie realizujemy na feature-flagach — w repozytorium klienta lub jako warstwa gateway, zależnie od preferencji.

Jaki minimalny rachunek ma sens?

Od ~8 000 zł/mc model success-fee się zwraca. Przy mniejszych wydatkach na AI możemy zamiast tego wejść w retainer nastawiony na jakość i wzrost — eval, dopracowanie produktu AI, GTM i dojście do PMF. Prosimy o kontakt — dobierzemy odpowiedni format.

Dlaczego 12 miesięcy? Nie płacę roku za jednorazową zmianę?

Brak umów wieloletnich. Okno 12 mc dotyczy success fee i odzwierciedla okres, w którym dana zmiana realnie generuje oszczędności — płacisz tylko póki i tylko o ile faktycznie tniemy rachunek (no savings, no fee). To nie „czynsz": zatrzymujesz wszystkie zmiany, dokumentację i konfiguracje także po zakończeniu. Optymalizacja nie jest jednak jednorazowa — rynek modeli zmienia się tygodniowo, dlatego realną wartość daje retainer (miesięcznie, z wypowiedzeniem), który utrzymuje Cię na froncie.

Program partnerski

Współpraca poleceniowa — podział wynagrodzenia 50/50.

Program adresowany do sprzedawców, konsultantów, agencji i partnerów z relacjami w organizacjach ponoszących istotne koszty AI. Polecenie zakończone podpisaniem umowy uprawnia do 50% naszego success fee przez pełne 12-miesięczne okno rozliczeniowe — bez ryzyka i kosztów po stronie partnera.

50%
udział partnera w success fee
12 mc
okres wypłat z polecenia
0 zł
ryzyka i kosztów po stronie partnera
Ilustracja: polecona organizacja redukuje koszty o 30 000 zł/mc → success fee 6 000 zł → 3 000 zł/mc dla partnera, tj. 36 000 zł w skali roku z pojedynczego polecenia.
Następny krok

Rozpocznijmy od bezpłatnej konsultacji.

30-minutowa rozmowa: wstępny, skwantyfikowany szacunek oszczędności na podstawie Państwa faktur i logów. Bez zobowiązań.

Wolą Państwo zacząć samodzielnie?

Zostaw adres e-mail — prześlemy self-serve guide: checklistę audytu zużycia tokenów i 9 dźwigni optymalizacji do wdrożenia we własnym zakresie.