TokenCFO — audyt i optymalizacja kosztów AI

Kompetencja

Prowadzimy rejestr, w którym rynek wybiera modele.

CodeSOTA to niezależny rejestr benchmarków — 163 modele, 371 testów — z którego w ostatnim roku skorzystało ponad 54 000 inżynierów, żeby odpowiedzieć na jedno pytanie: „którego modelu użyć?" Ruch rośnie z miesiąca na miesiąc.

To nie jest dodatkowa wiedza marketingowa. To dokładnie ta sama umiejętność, która stoi za routingiem modeli i arbitrażem dostawców — dwiema dźwigniami o największym wpływie na rachunek.

Wiemy, który model daje wymaganą jakość przy najniższym koszcie, bo mierzymy to codziennie — na żywo, z uwzględnieniem cen z katalogu OpenRouter (capability-per-dollar).

Dlatego nasz audyt to nie zgadywanie. To decyzje oparte na danych z benchmarków, z twardym SLO jakości przy każdej zmianie.

Dlaczego deep-tech

Inżynieria, nie prezentacja.

Większość doradców AI dostarcza slajdy. My utrzymujemy działający aparat pomiarowy: 9 obszarów zdolności, 371 benchmarków i 163 ocenione modele — a pod kątem cen i zużycia monitorujemy pełny katalog 750 modeli OpenRoutera. Od języka i wizji po agentów, robotykę i przemysł. Rekomendacje wynikają z pomiaru, nie z opinii.

ROUTE

Language & Knowledge

Rozumowanie, egzaminy, retrieval, zadania wiedzowe.

MMLU-Pro · GPQA · MTEB

ROUTE

Vision & Documents

Obraz, detekcja, OCR, layout, tabele, parsing dokumentów.

COCO · OCRBench · OmniDocBench

ROUTE

Audio & Speech

ASR, tagowanie audio, asystenci głosowi, jakość mowy, TTS.

WildASR · VoiceBench · ESC-50

ROUTE

Multimodal Media

VQA, wykresy, wideo, rozumowanie obraz-tekst.

VQA-v2 · TextVQA · MMMU

ROUTE

Code & Software Engineering

Generacja kodu, naprawa, zadania repo, weryfikowalna praca.

HumanEval · LiveCodeBench · SWE-bench

ROUTE

Agents & Tool Use

Długohoryzontowe użycie narzędzi, przeglądarka, OS, workflow.

GAIA · WebArena · OSWorld

ROUTE

Structured Data & Forecasting

Embeddingi, retrieval, reranking, dane tabelaryczne, grafy, prognozy.

MTEB · tabular · graph suites

ROUTE

Robotics, Control & RL

Symulacja, sterowanie, gry, agenci wcieleni, manipulacja.

Atari · Habitat · LIBERO

ROUTE

Science, Medicine & Industry

QA naukowe, obrazowanie medyczne, inspekcja przemysłowa.

CheXpert · MVTec-AD · MedQA

Ten sam aparat — pipeline scraperów, silnik rankingu Elo i harness eval/SLO — stoi za doborem modeli i kontrolą jakości w audycie. To nie jest wiedza z prezentacji. To codzienna praktyka inżynierska.

Cytowani przez · codesota.com/cited-by

University of Surrey · CVSSP, AAAI 2026 Theory Ventures · Tomasz Tunguz Hacker News r/MachineLearning UseAIAPI AlternativeTo

Podstawa dowodowa · autorski indeks na danych publicznych

Rekomendacje oparte na dowodach, nie na założeniach.

Codziennie przetwarzamy i indeksujemy publiczne statystyki OpenRoutera — wolumen i ceny 750 modeli. Poniższe serie to nasza obróbka tych danych i empiryczna podstawa rekomendacji w zakresie doboru modeli oraz alokacji dostawców.

OpenRouter to nasz teleskop na rynek modeli — nie zakładamy, że tam płacisz. Te same dźwignie działają na Twoich bezpośrednich kontraktach: OpenAI, Anthropic, Azure OpenAI, AWS Bedrock, Vertex. Audyt czyta Twoje faktury i logi gatewaya, nie cudzy ruch.

Anthropic odpowiada za ok. 17% wolumenu tokenów, lecz ok. 66% wydatków rynkowych. Struktura kosztów rozmija się ze strukturą zużycia — i to właśnie ta rozbieżność wyznacza mierzalny potencjał optymalizacji w Państwa rachunku.

Struktura wolumenu a struktura wydatków

Udział % · OpenRouter · 31 dni

Wolumen koncentruje się w modelach o niskim koszcie jednostkowym, podczas gdy wydatki — w kilku modelach premium. Audyt identyfikuje obszary substytucji bez uszczerbku dla jakości.

Udział dostawców w wolumenie tokenów

% · 7-dniowa średnia · od sty '26

Udziały rynkowe zmieniają się w cyklu tygodniowym. Skuteczny routing wymaga bieżącego monitoringu, który prowadzimy w sposób ciągły.

Dostawcy chińscy a zachodni — udział w wolumenie

% wolumenu · 7-dniowa średnia

Punkt przecięcia: 10 maja 2026. Obecnie modele chińskie stanowią ok. 67% wolumenu — co czyni arbitraż dostawców istotną i rosnącą dźwignią kosztową.

Jakość modelu a koszt jednostkowy

AA Intelligence Index · $/mln tokenów (skala log.)

Dla danego poziomu jakości dostępne są modele o koszcie niższym o rząd wielkości (5–50×). Relacja jakość/koszt stanowi podstawę rekomendacji doboru modelu.

Metodyka: dane pochodzą z publicznych statystyk OpenRouter (wolumen) oraz katalogu cen; koszt blended liczony jako 72% ceny wejścia + 28% ceny wyjścia. Indeks jakości: Artificial Analysis. Stan na 8 czerwca 2026. Wartości poglądowe, nie stanowią porady inwestycyjnej.

Model Picker · ort.fabryka.ai/pm.html

Dobór modelu według wartości, nie ceny katalogowej.

Połączenie trzech wymiarów: jakości, ceny i realnego popytu produkcyjnego. Lewy-górny obszar to „sweet spot" — wysoka jakość przy niskiej cenie. Adopcja rynku podąża dokładnie za tą relacją.

Wartość: jakość a cena

AA Intelligence · $/M (log) · bąbel = wolumen tyg.

Im wyżej i bardziej w lewo, tym lepsza relacja jakości do ceny. Wielkość bąbla = realny tygodniowy wolumen — popyt koncentruje się na modelach o najlepszej wartości.

Cena a popyt produkcyjny

$/M (log) · wolumen tyg. · bąbel = liczba aplikacji

Popyt jako ujawniony dowód „wystarczająco dobry do produkcji". Wielkość bąbla = liczba różnych aplikacji routujących do modelu (szerokość zaufania rynku).

Źródło: ort.fabryka.ai/pm.html · wolumen z ostatnich 7 pełnych dni · cena = blended $/M przy realnym miksie prompt:completion · jakość: Artificial Analysis. Stan na 8 czerwca 2026.

Nasze podejście

Nie kolejny proof-of-concept. Wymierny zwrot.

Nie realizujemy demonstracji „czy AI działa" ani pilotaży bez konsekwencji. Współpracujemy z organizacjami nad osiągnięciem konkretnego zwrotu z inwestycji i celów biznesowych — rozliczani z efektów, nie z aktywności. Jeśli nie ma oszczędności, nie ma wynagrodzenia.

Optymalny wybór modelu to ruchomy cel. Udziały dostawców zmieniają się tygodniowo, a modele chińskie przekroczyły 67% wolumenu 10 maja 2026 (nasze dane powyżej). Jednorazowe cięcie to dopiero wejście — realną wartość daje utrzymanie Cię na froncie capability-per-dollar, z ciągłym evalem jakości w miarę jak rynek się przesuwa. To rola retainera „Token CFO".

Proces

Od faktury do oszczędności w 5 tygodni.

Triage

Bezpłatna rozmowa + przegląd faktur i logów. Wstępny szacunek oszczędności.

30–45 min

Audyt

Mapujemy wydatki per feature, zamrażamy baseline sprzed współpracy, ustalamy SLO jakości. Raport z dźwigniami rankowanymi wg wpływu w zł.

tydz. 1–2

Wdrożenie

Zmiany za feature-flagami, A/B test min. 7 dni, automatyczny rollback przy regresji jakości.

tydz. 3–5

Token CFO

Miesięczne rozliczenie względem faktur dostawców + ciągły monitoring kosztu vs. korzyści i jakości.

ciągle

Metoda · 9 dźwigni

Koszt i jakość — dźwignie się kompoundują.

Dźwignia	Oszczędność	Co robimy
Routing modeli	30–50%	Najtańszy model spełniający SLO dla danego typu zapytania — oparte na danych CodeSOTA.
Cache semantyczny	20–40%	Łączymy near-duplikaty zapytań przez embeddingi.
Prompt caching	do 90%*	Cache stałego kontekstu i system promptu po stronie dostawcy.
Kompresja kontekstu	15–30%	Usuwamy redundancję z system promptów i RAG.
Batch & async	10–50%	Zadania w tle przenosimy na tańsze API wsadowe.
Arbitraż dostawców	20–35%	Routing wg capability-per-dollar między dostawcami.
Fallback / retry	5–15%	Tiered retry zamiast przepłacania za najmocniejszy model.
Destylacja / fine-tune	zależnie	Drogi model zastępujemy małym, dotrenowanym pod zadanie klienta.
Eval & quality harness	jakość	Instrumentalizacja jakości — gwarant, że cięcie kosztów nie psuje produktu.

Efekty nakładają się multiplikatywnie na malejącej bazie, nie dodają. Przykład złożenia: routing −50% → na pozostałym koszcie cache −25% → efektywnie ~62% redukcji. Realny wynik zależy od profilu ruchu.
* na powtarzalnym kontekście

Model rozliczenia

Elastyczny model współpracy.

Jednorazowe cięcie (success fee) to klin. Realnym produktem jest ciągłe utrzymanie na froncie capability-per-dollar z evalem jakości — retainer „Token CFO". Bierzesz tyle, ile potrzebujesz.

Audyt

0 zł / triage

Najpierw pokazujemy, ile da się zaoszczędzić.

Bezpłatny triage i wstępny szacunek
Audyt głęboki w stałej cenie
Cena audytu kredytowana w 100% w pierwszych oszczędnościach

No savings, no fee

Success fee

20% oszczędności

Wynagrodzenie wyłącznie od zweryfikowanych oszczędności.

Stałe 20% — bez negocjacji od skali
Liczone z faktur dostawców, względem zamrożonego baseline
Brak oszczędności = brak opłaty
Okno 12 mc od wdrożenia

Nasz model docelowy

Token CFO retainer

od 2 500 zł / mc

Fractional AI CFO — zarządza P&L Państwa AI.

Ciągły monitoring kosztu vs. korzyści
Eval jakości i alerty przy regresji
Nowe optymalizacje przy zmianie ruchu/cennika
Miesięczny raport zarządczy

Przykład: rachunek 60 000 zł/mc → redukcja 50% → oszczędność 30 000 zł/mc. Wynagrodzenie (20%) wynosi 6 000 zł, a oszczędność netto po stronie klienta — 24 000 zł/mc, tj. 288 000 zł rocznie, przy zachowanej kontroli jakości.

FAQ

Najczęstsze pytania.

Jak liczycie oszczędności?

Zamrażamy baseline sprzed współpracy (faktury i logi klienta). Co miesiąc porównujemy realny rachunek dostawców z baseline, korygując o zmiany w ruchu. Rozliczamy wyłącznie zweryfikowaną różnicę.

Co jeśli cięcie kosztów obniży jakość?

Każda zmiana ma kontraktowe SLO jakości, idzie za feature-flagą i przechodzi A/B test min. 7 dni. 7-dniowy test nie złapie regresji w długim ogonie — dlatego eval działa w trybie ciągłym także po wdrożeniu (alerty przy dryfie jakości, próbkowanie produkcyjne), a rollback jest możliwy w każdej chwili. Twoje własne ewaluacje są bramką akceptacji. Eval to u nas dźwignia pierwszego rzędu, nie dodatek — to fundament CodeSOTA.

Działacie na OpenRouterze czy na moim stacku?

Na Twoim stacku. OpenRouter to nasze źródło inteligencji rynkowej, nie miejsce, gdzie zakładamy Twoje wydatki. Dźwignie (routing, cache, kompresja, batch, arbitraż, fallback) są niezależne od dostawcy i działają na bezpośrednich kontraktach OpenAI, Anthropic, Azure OpenAI, AWS Bedrock i Vertex. Audyt opiera się na Twoich fakturach i logach gatewaya.

Jak weryfikujecie atrybucję przy zmiennym ruchu?

Zamrażamy baseline (koszt na jednostkę ruchu sprzed współpracy), a nie samą kwotę faktury. Co miesiąc normalizujemy względem realnego wolumenu i miksu, więc rozliczamy wyłącznie różnicę przypisaną wdrożonym zmianom — nie wzrost/spadek wynikający z Twojego ruchu. Pełne uzgodnienie wprost z faktur dostawców.

Na jakiej podstawie dobieracie model?

Prowadzimy CodeSOTA — rejestr benchmarków z bieżącymi, uwzględniającymi cenę rankingami 163 modeli na 371 testach. Codzienny pomiar relacji jakość/koszt stanowi podstawę doboru modeli i alokacji dostawców.

Czy konieczny jest dostęp do kodu?

Do audytu wystarczą faktury i logi gatewaya. Wdrożenie realizujemy na feature-flagach — w repozytorium klienta lub jako warstwa gateway, zależnie od preferencji.

Jaki minimalny rachunek ma sens?

Od ~8 000 zł/mc model success-fee się zwraca. Przy mniejszych wydatkach na AI możemy zamiast tego wejść w retainer nastawiony na jakość i wzrost — eval, dopracowanie produktu AI, GTM i dojście do PMF. Prosimy o kontakt — dobierzemy odpowiedni format.

Dlaczego 12 miesięcy? Nie płacę roku za jednorazową zmianę?

Brak umów wieloletnich. Okno 12 mc dotyczy success fee i odzwierciedla okres, w którym dana zmiana realnie generuje oszczędności — płacisz tylko póki i tylko o ile faktycznie tniemy rachunek (no savings, no fee). To nie „czynsz": zatrzymujesz wszystkie zmiany, dokumentację i konfiguracje także po zakończeniu. Optymalizacja nie jest jednak jednorazowa — rynek modeli zmienia się tygodniowo, dlatego realną wartość daje retainer (miesięcznie, z wypowiedzeniem), który utrzymuje Cię na froncie.

Program partnerski

Współpraca poleceniowa — podział wynagrodzenia 50/50.

Program adresowany do sprzedawców, konsultantów, agencji i partnerów z relacjami w organizacjach ponoszących istotne koszty AI. Polecenie zakończone podpisaniem umowy uprawnia do 50% naszego success fee przez pełne 12-miesięczne okno rozliczeniowe — bez ryzyka i kosztów po stronie partnera.

50%

udział partnera w success fee

12 mc

okres wypłat z polecenia

0 zł

ryzyka i kosztów po stronie partnera

Ilustracja: polecona organizacja redukuje koszty o 30 000 zł/mc → success fee 6 000 zł → 3 000 zł/mc dla partnera, tj. 36 000 zł w skali roku z pojedynczego polecenia.

Zostań partnerem

Audyt i optymalizacja kosztów AI. Płacisz wyłącznie od tego, co realnie zaoszczędzimy.

Prowadzimy rejestr, w którym rynek wybiera modele.

Inżynieria, nie prezentacja.

Language & Knowledge

Vision & Documents

Audio & Speech

Multimodal Media

Code & Software Engineering

Agents & Tool Use

Structured Data & Forecasting

Robotics, Control & RL

Science, Medicine & Industry

Rosnąca, weryfikowalna skala.

Rekomendacje oparte na dowodach, nie na założeniach.

Struktura wolumenu a struktura wydatków

Udział dostawców w wolumenie tokenów

Dostawcy chińscy a zachodni — udział w wolumenie

Jakość modelu a koszt jednostkowy

Dobór modelu według wartości, nie ceny katalogowej.

Wartość: jakość a cena

Cena a popyt produkcyjny

Narzędzia obserwowalności pokazują koszt. Nie redukują go.

Nie kolejny proof-of-concept. Wymierny zwrot.

Od faktury do oszczędności w 5 tygodni.

Triage

Audyt

Wdrożenie

Token CFO

Koszt i jakość — dźwignie się kompoundują.

Szacowany zwrot z optymalizacji.

Elastyczny model współpracy.

Audyt

Success fee

Token CFO retainer

Najczęstsze pytania.

Współpraca poleceniowa — podział wynagrodzenia 50/50.

Rozpocznijmy od bezpłatnej konsultacji.