Audyt zużycia tokenów, wdrożenie z kontrolą jakości i ciągłe utrzymanie na froncie capability-per-dollar. Decyzje oparte na danych z benchmarków, nie na slajdach.
Jako inżynier w PwC budowałem produkcyjne systemy RAG dla klientów enterprise — retrieval, eval i wdrożenia LLM w skali korporacyjnej.
W Procter & Gamble zbudowałem wewnętrzny ChatGPT dla 40 000 pracowników — architektura, koszty i jakość przy masowym ruchu.
CodeSOTA to niezależny rejestr benchmarków — 163 modele, 371 testów — z którego w ostatnim roku skorzystało ponad 54 000 inżynierów, żeby odpowiedzieć na jedno pytanie: „którego modelu użyć?" Ruch rośnie z miesiąca na miesiąc.
To nie jest dodatkowa wiedza marketingowa. To dokładnie ta sama umiejętność, która stoi za routingiem modeli i arbitrażem dostawców — dwiema dźwigniami o największym wpływie na rachunek.
Wiemy, który model daje wymaganą jakość przy najniższym koszcie, bo mierzymy to codziennie — na żywo, z uwzględnieniem cen z katalogu OpenRouter (capability-per-dollar).
Dlatego nasz audyt to nie zgadywanie. To decyzje oparte na danych z benchmarków, z twardym SLO jakości przy każdej zmianie.
Większość doradców AI dostarcza slajdy. My utrzymujemy działający aparat pomiarowy: 9 obszarów zdolności, 371 benchmarków i 163 ocenione modele — a pod kątem cen i zużycia monitorujemy pełny katalog 750 modeli OpenRoutera. Od języka i wizji po agentów, robotykę i przemysł. Rekomendacje wynikają z pomiaru, nie z opinii.
Rozumowanie, egzaminy, retrieval, zadania wiedzowe.
Obraz, detekcja, OCR, layout, tabele, parsing dokumentów.
ASR, tagowanie audio, asystenci głosowi, jakość mowy, TTS.
VQA, wykresy, wideo, rozumowanie obraz-tekst.
Generacja kodu, naprawa, zadania repo, weryfikowalna praca.
Długohoryzontowe użycie narzędzi, przeglądarka, OS, workflow.
Embeddingi, retrieval, reranking, dane tabelaryczne, grafy, prognozy.
Symulacja, sterowanie, gry, agenci wcieleni, manipulacja.
QA naukowe, obrazowanie medyczne, inspekcja przemysłowa.
Ruch na CodeSOTA wzrósł od zera (lis. '25) do ok. 21 tys. użytkowników miesięcznie (maj '26), z prognozą ok. 29 tys. w czerwcu przy utrzymaniu trendu. To audytorium o wysokiej intencji — użytkownicy weryfikujący dobór modelu przed wdrożeniem.
Źródło: analytics CodeSOTA · ostatnie 12 mc · czerwiec '26 = prognoza liniowa z trendu mar–maj
Codziennie przetwarzamy i indeksujemy publiczne statystyki OpenRoutera — wolumen i ceny 750 modeli. Poniższe serie to nasza obróbka tych danych i empiryczna podstawa rekomendacji w zakresie doboru modeli oraz alokacji dostawców.
OpenRouter to nasz teleskop na rynek modeli — nie zakładamy, że tam płacisz. Te same dźwignie działają na Twoich bezpośrednich kontraktach: OpenAI, Anthropic, Azure OpenAI, AWS Bedrock, Vertex. Audyt czyta Twoje faktury i logi gatewaya, nie cudzy ruch.
Metodyka: dane pochodzą z publicznych statystyk OpenRouter (wolumen) oraz katalogu cen; koszt blended liczony jako 72% ceny wejścia + 28% ceny wyjścia. Indeks jakości: Artificial Analysis. Stan na 8 czerwca 2026. Wartości poglądowe, nie stanowią porady inwestycyjnej.
Połączenie trzech wymiarów: jakości, ceny i realnego popytu produkcyjnego. Lewy-górny obszar to „sweet spot" — wysoka jakość przy niskiej cenie. Adopcja rynku podąża dokładnie za tą relacją.
Źródło: ort.fabryka.ai/pm.html · wolumen z ostatnich 7 pełnych dni · cena = blended $/M przy realnym miksie prompt:completion · jakość: Artificial Analysis. Stan na 8 czerwca 2026.
LLM-y wdrażane pod presją czasu: zbyt mocny model do prostych zadań, brak cache, nadmiarowe prompty, brak przetwarzania wsadowego i niedostateczna kontrola jakości przy cięciu kosztów. Zwykle 30–60% budżetu na AI stanowi koszt możliwy do wyeliminowania — bez wpływu na jakość.
Nie realizujemy demonstracji „czy AI działa" ani pilotaży bez konsekwencji. Współpracujemy z organizacjami nad osiągnięciem konkretnego zwrotu z inwestycji i celów biznesowych — rozliczani z efektów, nie z aktywności. Jeśli nie ma oszczędności, nie ma wynagrodzenia.
Bezpłatna rozmowa + przegląd faktur i logów. Wstępny szacunek oszczędności.
Mapujemy wydatki per feature, zamrażamy baseline sprzed współpracy, ustalamy SLO jakości. Raport z dźwigniami rankowanymi wg wpływu w zł.
Zmiany za feature-flagami, A/B test min. 7 dni, automatyczny rollback przy regresji jakości.
Miesięczne rozliczenie względem faktur dostawców + ciągły monitoring kosztu vs. korzyści i jakości.
| Dźwignia | Oszczędność | Co robimy |
|---|---|---|
| Routing modeli | 30–50% | Najtańszy model spełniający SLO dla danego typu zapytania — oparte na danych CodeSOTA. |
| Cache semantyczny | 20–40% | Łączymy near-duplikaty zapytań przez embeddingi. |
| Prompt caching | do 90%* | Cache stałego kontekstu i system promptu po stronie dostawcy. |
| Kompresja kontekstu | 15–30% | Usuwamy redundancję z system promptów i RAG. |
| Batch & async | 10–50% | Zadania w tle przenosimy na tańsze API wsadowe. |
| Arbitraż dostawców | 20–35% | Routing wg capability-per-dollar między dostawcami. |
| Fallback / retry | 5–15% | Tiered retry zamiast przepłacania za najmocniejszy model. |
| Destylacja / fine-tune | zależnie | Drogi model zastępujemy małym, dotrenowanym pod zadanie klienta. |
| Eval & quality harness | jakość | Instrumentalizacja jakości — gwarant, że cięcie kosztów nie psuje produktu. |
Efekty nakładają się multiplikatywnie na malejącej bazie, nie dodają. Przykład złożenia: routing −50% → na pozostałym koszcie cache −25% → efektywnie ~62% redukcji. Realny wynik zależy od profilu ruchu.
* na powtarzalnym kontekście
Jednorazowe cięcie (success fee) to klin. Realnym produktem jest ciągłe utrzymanie na froncie capability-per-dollar z evalem jakości — retainer „Token CFO". Bierzesz tyle, ile potrzebujesz.
Zamrażamy baseline sprzed współpracy (faktury i logi klienta). Co miesiąc porównujemy realny rachunek dostawców z baseline, korygując o zmiany w ruchu. Rozliczamy wyłącznie zweryfikowaną różnicę.
Każda zmiana ma kontraktowe SLO jakości, idzie za feature-flagą i przechodzi A/B test min. 7 dni. 7-dniowy test nie złapie regresji w długim ogonie — dlatego eval działa w trybie ciągłym także po wdrożeniu (alerty przy dryfie jakości, próbkowanie produkcyjne), a rollback jest możliwy w każdej chwili. Twoje własne ewaluacje są bramką akceptacji. Eval to u nas dźwignia pierwszego rzędu, nie dodatek — to fundament CodeSOTA.
Na Twoim stacku. OpenRouter to nasze źródło inteligencji rynkowej, nie miejsce, gdzie zakładamy Twoje wydatki. Dźwignie (routing, cache, kompresja, batch, arbitraż, fallback) są niezależne od dostawcy i działają na bezpośrednich kontraktach OpenAI, Anthropic, Azure OpenAI, AWS Bedrock i Vertex. Audyt opiera się na Twoich fakturach i logach gatewaya.
Zamrażamy baseline (koszt na jednostkę ruchu sprzed współpracy), a nie samą kwotę faktury. Co miesiąc normalizujemy względem realnego wolumenu i miksu, więc rozliczamy wyłącznie różnicę przypisaną wdrożonym zmianom — nie wzrost/spadek wynikający z Twojego ruchu. Pełne uzgodnienie wprost z faktur dostawców.
Prowadzimy CodeSOTA — rejestr benchmarków z bieżącymi, uwzględniającymi cenę rankingami 163 modeli na 371 testach. Codzienny pomiar relacji jakość/koszt stanowi podstawę doboru modeli i alokacji dostawców.
Do audytu wystarczą faktury i logi gatewaya. Wdrożenie realizujemy na feature-flagach — w repozytorium klienta lub jako warstwa gateway, zależnie od preferencji.
Od ~8 000 zł/mc model success-fee się zwraca. Przy mniejszych wydatkach na AI możemy zamiast tego wejść w retainer nastawiony na jakość i wzrost — eval, dopracowanie produktu AI, GTM i dojście do PMF. Prosimy o kontakt — dobierzemy odpowiedni format.
Brak umów wieloletnich. Okno 12 mc dotyczy success fee i odzwierciedla okres, w którym dana zmiana realnie generuje oszczędności — płacisz tylko póki i tylko o ile faktycznie tniemy rachunek (no savings, no fee). To nie „czynsz": zatrzymujesz wszystkie zmiany, dokumentację i konfiguracje także po zakończeniu. Optymalizacja nie jest jednak jednorazowa — rynek modeli zmienia się tygodniowo, dlatego realną wartość daje retainer (miesięcznie, z wypowiedzeniem), który utrzymuje Cię na froncie.
Program adresowany do sprzedawców, konsultantów, agencji i partnerów z relacjami w organizacjach ponoszących istotne koszty AI. Polecenie zakończone podpisaniem umowy uprawnia do 50% naszego success fee przez pełne 12-miesięczne okno rozliczeniowe — bez ryzyka i kosztów po stronie partnera.
30-minutowa rozmowa: wstępny, skwantyfikowany szacunek oszczędności na podstawie Państwa faktur i logów. Bez zobowiązań.
Zostaw adres e-mail — prześlemy self-serve guide: checklistę audytu zużycia tokenów i 9 dźwigni optymalizacji do wdrożenia we własnym zakresie.