Hlavním hrdinou je čínský LLM (large language model) DeepSeek R1 vyvíjený společností DeepSeek AI. Podle sdělení je tento model téměř stejně efektivní jako ChatGPT od OpenAI. Tohle by ještě nebylo tak neobvyklé, přece jenom můžeme říci, že obecný princip trénování LLM je známý a záleží „jenom“ na tréninku, datech a výpočetní kapacitě.
Co tedy bylo na tomto oznámení jiné? DeepSeek AI totiž zároveň uvedla, že její model je levnější, byl vytrénován za velmi nízkých nákladů (v porovnání s OpenAI) a na slabším hardware, který nepodléhá omezením USA. A strhla se bouře.
Akciová smršť
V reakci na toto oznámení klesly během dne akcie velkých technologických firem dolů o více než 10 %, například Nvidia odepsala za jediný den 583 miliard USD (rekord v rámci burzy na Wall street) (1).
Podobně dopadly akcie dalších firem včetně OpenAI. Ale proč vlastně? Na první pohled totiž vše vypadá, že DeepSeek AI dokázala vytvořit výkonný model s velmi nízkými náklady.
Cenová analýza
Zjednodušíme si situaci a podíváme se jenom na ChatGPT a DeepSeek. Pro nasazení AI jako služby potřebujeme tokeny, tedy mince na jednotlivé akce. Ty oba modely nabízejí za určitý objem USD za milion tokenů (rozdílná je cena za vstup a výstup).
Cena je pro zájemce významným rozhodovacím prvkem, který hraje roli pří výběru modelu. Obě společnosti mají více modelů, postavíme-li proti sobě srovnatelné, pak nám vyjde následující tabulka:
Model | Vstup | Výstup |
ChatGPT 4 | $2,5 | $10 |
DeepSeek V3 | $0,14 | $0,25 |
Rozdíl | 94% | 98% |
|
|
|
ChatGPT o1 | $15 | $60 |
DeepSeek R1 | $0,55 | $2,19 |
Rozdíl | 96% | 96% |
Tabulka 1 - Srovnání cen (2)
Zároveň je možné DeepSeek R1 stáhnout na GitHubu v rámci licence MIT a rozběhnout jej na vlastních serverech. Je možné jej tak využívat na vlastním hardwaru a vyvíjet na něm vlastní služby.
Kvalita
Cena je samozřejmě jen jedním parametrem, tím druhým významným je efektivita (úspěšnost, správnost odpovědí). Jak jsou na tom oba produkty? Na začátek si řekněme, že srovnání modelů AI je náročné a vydalo by na mnoho vědeckých prací, záleží na zaměření LLM a na sestavě otázek a jejich vyhodnocení.
Pokud se podíváme na výzkumy, tak lze říci, že oba modely jsou si výsledky velmi podobné.
Obrázek 1 - Srovnání kvality (3)
Obrázek 2 - Srovnání rychlosti (3)
Z výsledků vidíme, že kvalita výstupů podle analýzy je srovnatelná, pouze v rychlosti DeepSeek R1 zaostává. Nicméně při faktoru mnohem nižší ceny jde o akceptovatelnou vlastnost.
Omezení a problémy
DeepSeek AI má také svá omezení – spadá pod čínskou legislativu se vším, co k tomu náleží. Z pohledu výsledků se jedná o cenzuru, vše co není v souladu s čínským pohledem na svět, je v modelu nepřístupné – zkuste se ho například zeptat na Taiwan. Otázkou tedy je, jak v budoucnu bude model „odladěn“ a jak moc budeme moci věřit jeho výstupům.
Zároveň je model trénován na čínských serverech, což je další argument, se kterým se budeme muset vyrovnat. Ochrana soukromí a dat bude zcela jistě předmětem spekulací a dohadů.
Skutečný převrat?
Máme tedy k dispozici model s velmi výhodnou cenou, velmi dobrou kvalitou, byť prozatím s nižší rychlostí. Trhy na něj reagovaly velmi silně a pohyb akcií některých firem byl masivní. Nervozita investorů byla dána panikou, že jejich velké investice do současných LLM jsou znehodnoceny, neboť DeepSeek AI dokázala vytvořit podobný LLM na slabším hardware za zlomek financí.
Destilace
Nebudeme vyrábět domácí alkohol. Destilací se v oboru LLM rozumí využití existujícího modelu k tréninku nového. Výhodou tohoto postupu je rychlost a nízké náklady na nový model. Během destilace se využije velký vytrénovaný model (teacher) k vytvoření nového modelu (student). Ten pak sdílí většinu schopností a kvalit původního modelu a umožňuje například jeho specializaci.
Jak to vše dopadne?
Uvidíme, jaké bude další pokračování této zajímavé situace. Máme ChatGPT jako etablovaný model a novinku, která nasadila agresivní cenovou politiku a u které existuje podezření na využití již existujícího modelu k vytvoření konkurence za nízkých nákladů (4), (5), (6).
Reference
1. Sinéad Carew, Amanda Cooper and Ankur Banerjee. DeepSeek sparks AI stock selloff; Nvidia posts record market-cap loss. Reuters. [Online] 28. 01 2025. https://www.reuters.com/technology/chinas-deepseek-sets-off-ai-market-rout-2025-01-27/.
2. Barr, Alistair. Chinese AI lab DeepSeek massively undercuts OpenAI on pricing — and that's spooking tech stocks. Business Insider. [Online] 27. 01 2025. https://www.businessinsider.com/chinese-ai-lab-deepseek-massively-undercuts-openai-on-pricing-2025-1.
3. DeepSeek R1: Quality, Performance & Price Analysis. Artificial Analysis. [Online] 20. 01 2025. https://artificialanalysis.ai/models/deepseek-r1.
4. Werner, John. Did DeepSeek Copy Off Of OpenAI? And What Is Distillation? Forbes. [Online] 30. 01 2025. https://www.forbes.com/sites/johnwerner/2025/01/30/did-deepseek-copy-off-of-openai-and-what-is-distillation/.
5. Cristina Criddle, Eleanor Olcott. OpenAI says it has evidence China’s DeepSeek used its model to train competitor. Financial Times. [Online] 29. 01 2025. https://www.ft.com/content/a0dfedd1-5255-4fa9-8ccc-1fe01de87ea6.
6. Stephen Nellis, Krystal Hu, Jeffrey Dastin, Anna Tong and Katie Paul. Why blocking China's DeepSeek from using US AI may be difficult. Reuters. [Online] 29. 01 2025. https://www.reuters.com/technology/artificial-intelligence/why-blocking-chinas-deepseek-using-us-ai-may-be-difficult-2025-01-29/.