Kurs
Kimi K2.5, Moonshot AI tarafından yalnızca sohbet için değil, özne-odaklı (agentic) iş akışları için geliştirilmiş, açık kaynaklı, çok kipli bir modeldir. İzole istemlere yanıt vermek yerine, karmaşık görevleri parçalara ayırabilir, araç kullanımını koordine edebilir ve çok adımlı iş akışları boyunca tablolar, raporlar, planlar ve kod gibi yapılandırılmış çıktılar üretebilir.
Kimi K2.5’i özellikle ilginç kılan şey Agent Swarm’dır. Modelin, araştırma, doğrulama ve yürütmeyi hızlandırmak için eşzamanlı olarak birden fazla alt ajanı dinamik biçimde başlatıp orkestre edebildiği, kendi kendine yöneten bir mod.
Bu eğitimde, Kimi K2.5’in ne olduğunu ve nerelerde iyi performans gösterdiğini ele alacak, ardından Agent Swarm’ın pratikte nasıl davrandığını gösteren dört uygulamalı deneye odaklanacağım; etkileyici yaptığı şeyler, yetersiz kaldığı noktalar ve tek ajanlı kurulumu ne zaman geride bıraktığı dahil.
Kimi K2.5 Nedir?
Kimi K2.5, Moonshot AI’ın metin, görsel, video ve belgeleri tek bir sistemde işlemek üzere tasarlanmış, açık kaynaklı, yerel olarak çok kipli modelidir. Yaklaşık 15T karışık metin ve görsel belirteç üzerinde sürdürülen ön eğitimle Kimi K2’yi genişletir ve yalnızca bir sohbet botu olarak değil, plan yapabilen, araçlar kullanabilen ve (sürü modunda) görevleri paralel yürütebilen özne-odaklı bir sistem olarak çalışmak üzere tasarlanmıştır.
Pratikte, Kimi K2.5 üç özellikle öne çıkıyor:
- Çok kipli akıl yürütme: Yoğun görselleri okuyabilir, ekran görüntüleri üzerinde akıl yürütebilir ve video bağlamını izleyerek yapılandırılmış çıktılar üretebilir.
- Güçlü kodlama performansı: Kimi K2.5 bir görsel referansı çalışan koda dönüştürebilir ve görsel hata ayıklamayla yineleyebilir.
- Ajan-öncelikli yürütme: Bunu tek ajan, araçlarla güçlendirilmiş bir ajan veya Agent Swarm (beta) olarak çalıştırabilirsiniz; burada araştırma, çıkarım, karşılaştırmalar ve uzun iş akışları gibi geniş görevler için dinamik olarak birçok alt ajan oluşturabilir.

Kaynak: Kimi K2.5
Yukarıdaki grafikler, Kimi K2.5’in Ajanlar, Kodlama, Görsel ve Video olmak üzere dört kategorideki performansını özetler; Kimi maviyle, diğer önde gelen sınır modelleri ise gri çubuklarla gösterilmiştir.
- Ajanlar: Kimi, özellikle ajan tarzı kıyaslamalarda güçlüdür; HLE-Full (50,2) ve BrowseComp (74,9) lideridir ve DeepSearchQA (77,1) üzerinde rekabetçidir. Bu da ajan-odaklı konumlandırmayı destekler.
- Kodlama: SWE-Bench Verified ve Çok Dilli kıyaslarda üst düzey kapalı modellerle rekabetçidir ve özellikle pratik mühendislik görevleri için açık seçenekler arasında bariz biçimde güçlüdür.
- Görsel: Kimi, çok kipli akıl yürütme ve belge ağırlıklı anlama alanlarında da iyi performans gösterir; MMMU/MathVision puanları sağlamdır.
- Video: Bu model LongVideoBench kıyaslamasında güçlü performans sergiler; bu da tek kare VQA yerine uzun ufuklu video anlama için iyi bir göstergedir.
Kimi K2.5’i birkaç yolla deneyebilirsiniz:
- Web tabanlı sohbet
- API:
https://platform.moonshot.ai - Açık kaynak ağırlıklar: Hugging Face
- Kimi Code: Ajan-odaklı kodlama için terminal ve IDE entegrasyonu üzerinden
Tekrarlanabilir kıyaslamalar için Moonshot, resmi API’yi veya Kimi Vendor Verifier üzerinden doğrulanmış sağlayıcıları kullanmanızı öneriyor.
Kimi K2.5’te Agent Swarm nedir?
Bugün çoğu çok ajanlı kurulum hâlâ elle inşa ediliyor; roller tanımlanıyor, bir iş akışı bağlanıyor ve görevler büyüdükçe orkestrasyonun ayakta kalması umuluyor. Kimi K2.5 Agent Swarm bu modeli tersine çeviriyor.
Ajanları ve hatları önceden tanımlamak yerine, K2.5 görevin doğasına göre ne zaman paralelleştirileceğine, kaç ajan oluşturulacağına, hangi araçların kullanılacağına ve sonuçların nasıl birleştirileceğine kendi kendine karar vererek bir sürüyü yönlendirebilir.
Önceden tanımlı roller olmadan, 100’e kadar alt ajandan oluşan bir ajan sürüsünü otonom olarak oluşturup koordine edebilir; 1.500’e kadar araç çağrısı boyunca paralel iş akışları yürütebilir.
Kimi K2.5 Agent Swarm nasıl çalışır?
Arka planda, Agent Swarm işi paralel alt görevlere ayırmayı ve bunları verimli biçimde zamanlamayı öğrenen eğitilebilir bir orkestratör sunar:
- Orkestratör, görevi kaynak bulma, veri çıkarma, iddia doğrulama ve çıktı biçimlendirme gibi paralelleştirilebilir parçalara ayırır.
- Ardından genellikle belirli alt görevleri talep üzerine yürütmek için başlatılan, dondurulmuş çalışanlar olan alt ajanları oluşturur.
- Alt ajanlar arama, gezinme, kod yorumlayıcı ve dosya oluşturma gibi araçları bağımsız biçimde kullanarak eşzamanlı çalışır.
- Son olarak çıktıları bir rapor, e-tablo, doküman veya kod tabanı planı gibi nihai, yapılandırılmış bir teslimata birleştirir ve uzlaştırır.
PARL (Parallel-Agent Reinforcement Learning) neden önemlidir
Kimi K2.5’in sürü davranışı, paralelliğin kendisini öğrenilebilir bir beceri haline getiren Paralel-Ajan Pekiştirmeli Öğrenme (PARL) ile eğitilir. Bu önemlidir çünkü naif çok ajanlı sistemler genellikle iki şekilde başarısız olur:
- Seri çöküş: Çok sayıda ajan mevcut olsa bile sistem yavaş, tek iş parçacıklı bir desene geri döner.
- Sahte paralellik: Ajanlar başlatılır ama iş gerçekten paralel değildir ya da gecikmeyi azaltmaz.
PARL bunu, eğitim boyunca ödülleri şekillendirerek ele alır. Başta paralelliği teşvik eder ve giderek optimizasyonu uçtan uca görev kalitesine kaydırır; böylece sahte paralelliği önler. Optimizasyonu gecikme-farkında kılmak için K2.5, performansı Kritik Adımlar üzerinden değerlendirir; çünkü daha fazla ajan oluşturmak ancak yürütmenin en yavaş yolunu gerçekten kısaltıyorsa işe yarar, aksi halde koordinasyon yükünü şişirir.
Görev geniş ve araç yoğun olduğunda, Agent Swarm çıktıya ulaşma süresini kayda değer biçimde azaltabilir. Moonshot, tek ajanlı kurulumla karşılaştırıldığında K2.5 Swarm’ın yürütme süresini yaklaşık 3x ila 4,5x kısaltabildiğini bildiriyor; dahili değerlendirmeler, gerçek paralelleştirme ile karmaşık iş yüklerinde uçtan uca çalışma süresinde ~%80’e varan azaltım gösteriyor.
Kimi K2.5 Örnekleri ve Gözlemler
Bu bölümde, Kimi K2.5 Agent Swarm’ı farklı senaryolarda test ederken edindiğim birinci elden deneyimi paylaşacağım. Her örnek, sürünün görevleri nasıl ayrıştırdığını, ajanları nasıl tahsis ettiğini ve bu yaklaşımın pratikte nerelerde gerçekten yardımcı olup nerelerde yetersiz kaldığını vurguluyor.
Araştırma sürüsü
İlk deneyimde, Kimi K2.5 Agent Swarm’ın, açık kaynaklı LLM’ler için bir dağıtım planı taslağı gibi yüksek önem taşıyan, gerçek dünya bir görevi üstlenip üstlenemeyeceğini test ettim.
İstem:
I want you to research best practices for deploying open-source LLMs in production. Focus on real deployment patterns rather than theory. If possible, have different agents look into, Inference stacks like vLLM, TGI, llama.cpp, Quantization strategies and hardware trade-offs, and cost control techniques. I want a short, structured guide with common architectures, trade-offs, and concrete recommendations for small teams vs large-scale deployments.

Bu demoda, Kimi K2.5 Agent Swarm, istemi derhal paralel araştırma hatlarına ayrıştırdı ve InferenceStackResearcher, QuantizationHardwareResearcher ve CostControlResearcher adlı üç özel alt ajan başlattı. Her alt ajan adı kendilerine tahsis edilen işe atıf yapsa da, ardından işi birden çok çalışan kişiliğe yaydı.
En çok hoşuma giden, son çıktının çıkarım yığınları için temiz bir karşılaştırma tablosu ile nicemleme için özlü öneriler ve notlar içermesiydi. Ayrıca görev ilerleme çubuğunu kullanarak işi baştan nasıl ayrıştırdığını ve her alt görevi tamamlanana kadar nasıl izlediğini görebilirsiniz.
Bununla birlikte, olumsuz yanı, nihai yazımdaki bazı iddiaların yeterince kaynaklandırılmamış ya da fazla kesin hissettirmesi ve rehberin, bağlantılar, kaynaklar ve daha net varsayımlar (donanım, model boyutu, yığın boyutu, bağlam uzunluğu) ile güçlendirilebilecek olması; zira üretim önerileri büyük ölçüde bağlama bağlıdır. Genel olarak, karmaşık, çok parçalı bir istemi ele aldı ve üretime hazır görünen, net ve hemen kullanılabilir bir oyun planı sundu.
Veri kümesi oluşturma ve açıklama
Sonraki aşamada, Kimi K2.5’ten çözümler ve zorluk etiketleri içeren 100 maddelik bir matematik sözel problem kıyaslaması üretmesini isteyerek Agent Swarm’ı bir veri kümesi oluşturma görevinde test ettim. Ayrıca kaliteyi korurken sürü boyutu kısıtına ne kadar uyduğunu görmek için açıkça 20 ajan kullanmasını talep ettim.
İstem:
Build a small benchmark dataset of 100 math word problems with step-by-step solutions and difficulty labels. Use at least 20 agents to generate problems in parallel, verify solutions independently, and calibrate difficulty.
Kimi K2.5 Agent Swarm, veri kümesi oluşturmayı üretim, doğrulama ve kalibrasyon dahil olmak üzere üç aşamalı bir hat olarak ele aldı. İstem en az 20 ajan istese de, sistem doğruluğu sayıya sıkı sıkıya uymaya tercih ederek otonom biçimde 25 alt ajan başlattı. Dikkat çekici olan, aynı anda yaklaşık beş ajanın etkin çalışması, diğerlerinin ise önceki alt görevler tamamlandıkça kuyruğa girip devam etmesiydi; bu da dahili bir zamanlama mekanizmasına işaret ediyor.
Her üretim ajanı ayrı bir matematik alanını ele aldı ve adım adım çözümlerle beş problem üretti; ardından 10 ajan doğrulamaya, daha küçük bir beşli ise zorluk kalibrasyonuna odaklandı.
Buradaki belirgin güç, kaygıların net biçimde ayrılması ve doğrulamadaki yedeklilik; bu da veri kümesi kalitesini maddi olarak iyileştiriyor. Başlıca dezavantaj ise gecikme ve sıralı bir darboğazdır.
Tüm çalışma yaklaşık 20–25 dakika sürdü; bu yaklaşımı hızlı yinelemeden ziyade yüksek kaliteli kıyas oluşturma için daha uygun kılıyor. 25 ajanla bile bazı ajanların diğerlerini beklemesi gerekti; bu da sürünün hâlâ adımların mantığıyla sınırlı olduğunu gösteriyor.
Yine de, her alt görev için ajan sayısını dinamik olarak ayarlayabilmesi, boşta olan ajanları yeniden kullanabilmesi ve etiketli bir veri kümesinde yakınsaması, Agent Swarm’ın nasıl davrandığının güçlü bir gösterimidir.
Ölçekte çok kipli Soru-Cevap
Ardından, birden fazla besin etiketi görseli sağlayıp yapılandırılmış bir karşılaştırma isteyerek Kimi K2.5’i çok kipli bir iş akışına yönlendirdim. Amaç, görsel verileri ne kadar iyi çıkarabildiğini, normalize edebildiğini ve doğrulayabildiğini görmekti.
İstem:
I’m sharing images of nutrition labels from 7 packaged food items. Analyze them and produce a clear comparison specifically:
Extract fields like: calories, protein, total fat, sugar, sodium, from each label.Normalize all values to a per-100g basis so items are comparableDouble-check numeric consistency (e.g. serving size vs totals)Rank the products from healthiest to least healthy, explaining the reasoningReturn a comparison table with normalized values for all items. Also include a summary highlighting, best high-protein option, the lowest sugar option, and items to avoid and why.
Assume the labels may vary in format and serving size. Resolve ambiguities where possible and note any missing or unclear values.

Bu çok kipli Soru-Cevap deneyinde, Kimi K2.5 Agent Swarm, görevi her etikete bir alt ajan düşecek şekilde ayrıştırdı; her görselden besin alanlarını çıkarmak için yedi paralel alt ajan başlatırken, bir koordine eden ajan normalleştirme, çapraz kontrol ve sıralamayı üstlendi.
Kimi ile ilgili ilginç bir nokta, istemde belirttiğiniz kısıtların (çıkarma, normalleştirme, doğrulama, sıralama) Kimi’nin alt ajanları nasıl başlatıp atadığına fiilen bir plan haline gelmesidir.
Benim için öne çıkan, sürünün doğrulamayı önemli bir adım olarak ele almasıydı; yani çıkarımdan sonra orkestratör porsiyon boyutlarını açıkça uzlaştırdı, değerleri normalize etti ve belirsizlikleri işaretledi; sessizce tahmin yürütmedi. Ürünleri sıralayan ve en iyi yüksek proteinli ve düşük şekerli seçenekleri belirten nihai sentez adımı, görsel girdiler arasında güçlü bir toplama mantığı sergiledi.
Olumsuz yanı, 7 yüksek çözünürlüklü görseli bir sürüyle analiz etmek hesaplama açısından ağırdır; bu da onu hızlı sohbet aracından ziyade üst düzey bir özellik yapar.
Bu örnek mevcut bir sınırlamayı da ortaya koydu; görsel tabanlı çok kipli analiz iyi çalışırken, doğrudan video girişi desteklenmiyordu; bu nedenle bir yemek videosundan tarif oluşturma girişimi gerçekleştirilemedi.
Genel olarak, bu demo Agent Swarm’ın paralel görsel çıkarım ve yapılandırılmış uzlaştırmadaki gücünü vurguluyor.
Bir oyun kodlamak
Son olarak, sıfırdan tamamen etkileşimli bir Bubble Shooter oyunu inşa etmesini isteyerek Kimi K2.5’in kodlama yeteneklerini test ettim. Bu deney, tutarlılığın paralellikten daha önemli olduğu uçtan uca, durumlu kod üretimini modelin nasıl ele aldığını öne çıkarıyor.
İstem:
```markdown
Yerel olarak bir web tarayıcısında çalışan, tamamen oynanabilir bir Bubble Shooter oyunu oluşturun. Oyun, fare ve dokunmatik hedeflemeyi desteklemeli, canlı bir nişan alma kılavuzu göstermeli, alt ortadan renkli baloncuklar fırlatmalı, atışları yan duvarlardan sektirmeli ve çarpışmada baloncukları üstteki bir ızgaraya oturtmalıdır.
Aynı renkten üç veya daha fazla bağlı baloncuğu patlatma, bağlantısız kümeleri düşürme, skoru izleme ve görüntüleme, sonraki baloncuk önizlemesini gösterme ve baloncuklar alttaki tehlike çizgisini geçtiğinde oyunu bitirme gibi temel oynanış mantığını uygulayın.
Görselleri basit ama duyarlı tutun, bir yeniden başlat düğmesi ekleyin ve oyunu yerelde nasıl çalıştırıp test edeceğinize dair kısa talimatlarla tamamlayın.
```
Bu oyun geliştirme deneyinde, Kimi K2.5 Agent Swarm, tüm görevi tek başına ele almak üzere yalnızca bir alt ajan tahsis ederek dikkate değer ölçüde ihtiyatlı bir seçim yaptı.
Bu kararın kendisi de ilginç bir gözlem; zira sistem bunun, yoğun paralelliğin fayda sağlamadan koordinasyon yükü getireceği, sıkı bağlı ve durumlu bir kodlama problemi olduğunu doğru şekilde fark etti.
Ajan, nişan alma, duvar sekmeleri, ızgaraya oturtma, üçlü eşleşme patlatma, skor takibi ve yeniden başlatma mantığıyla, hem oynanış mekaniğini hem de arayüz akışını gösteren, yerelde çalıştırılabilir eksiksiz bir Bubble Shooter uygulaması üretti.
Özellikle hoşuma giden, çıktının tutarlı ve entegre hissettirmesiydi; ancak ödün, her şey tek bir ajan üzerinden yürüdüğü için inceltme ve cilalamanın muhtemelen yinelemeli istemler gerektirecek olmasıdır.
Genel olarak bu örnek, Kimi K2.5’teki Agent Swarm’ın her zaman daha fazla ajan başlatmakla ilgili olmadığını; paralelliğin gerçekten sonuçları iyileştirdiğinde kullanılmasına yönelik olduğunu güzel biçimde gösteriyor.
Sonuç
Bu eğitimde Kimi K2.5, karmaşık görevleri ayrıştırma, ajanları dinamik olarak tahsis etme ve geleneksel olarak tek bir modelden ziyade küçük bir ekip gerektirecek yapılandırılmış, karar-odaklı çıktılar üretme becerisi sergiledi.
Aynı zamanda örnekler sınırlarını da netleştiriyor.
Agent Swarm, araştırma, veri kümesi inşası ve çok kipli çıkarım gibi geniş, araç yoğun iş akışlarında parlıyor; ancak etkileşimli oyun geliştirme gibi sıkı bağlı, durumlu görevlerde çok az avantaj sunuyor.
Ayrıca, özellikle doğrulama ve uzlaştırmanın ham çıktıya önceliklendirildiği durumlarda gecikme, maliyet ve yineleme hızı etrafında gerçek ödünler getiriyor.
Genel olarak, Kimi K2.5, özne-odaklı sistemlerin nereye gittiğine dair etkileyici bir yol haritası sunuyor. Ajan tabanlı iş akışlarıyla denemeler yapmaya istekli geliştirici ve araştırmacılar için bugün keşfedilebilecek en ilginç modellerden biri.
Özne-odaklı yapay zekânın nasıl çalıştığı hakkında daha fazla bilgi edinmek istiyorsanız, AI Agent Fundamentals beceri yolunu incelemenizi öneririm.
Kimi K2.5 ve Agent Swarm SSS
Kimi K2.5 gerçekten açık kaynaklı ve ücretsiz mi?
Evet, Moonshot AI Kimi K2.5’i ağırlıkları Hugging Face’te mevcut olacak şekilde Değiştirilmiş MIT Lisansı altında yayımladı. Ancak bu, yerel çalıştırmak için kurumsal düzeyde donanım (ör. birden çok H100 GPU) gerektiren devasa bir 1,04 Trilyon parametreli modeldir (Uzman Karışımı). Çoğu kullanıcı için en pratik erişim noktası resmi API veya Web arayüzüdür.
Kimi K2.5 API fiyatlandırması nedir?
Kimi K2.5 rekabetçi API fiyatlandırması sunar: 1M girdi belirteci başına 0,60 $ (önbelleğe alınmış girdiler için 0,10 $’a düşer) ve 1M çıktı belirteci başına 3,00 $.
Standart Sohbet ile Agent Swarm arasındaki fark nedir?
Standart sohbet doğrusaldır ve tek iş parçacıklıdır. Agent Swarm ise paralel bir orkestratördür: bir istemi otonom biçimde alt görevlere ayırabilir ve bunları eşzamanlı yürütmek üzere 100 uzman alt ajana kadar başlatabilir. Sürü, derin araştırma veya toplu veri çıkarımı gibi "geniş" görevler için en iyisidir; Sohbet ise bir oyunu kodlamak gibi durumlu, sıralı görevler için daha uygundur.
Kimi K2.5 video girişini destekliyor mu?
Evet, model yerel olarak çok kipli olup 2K çözünürlüğe kadar video girişini destekler. LongVideoBench gibi uzun bağlamlı video kıyaslarında başarılı olsa da, özellik şu anda deneyseldir; bu da statik görsellere kıyasla video tabanlı ajan iş akışlarında karmaşık talimat izleme konusunda zaman zaman zorlanabileceği anlamına gelir.
Kimi K2.5’in bağlam penceresi boyutu nedir?
Kimi K2.5 256.000 belirteçlik bağlam penceresini destekler (yaklaşık 200.000 kelime). Bu ultra uzun bağlam, modelin tüm kitapları, devasa kod tabanlarını veya uzun hukuk belgelerini veriyi parçalara ayırmadan tek geçişte işlemesine olanak tanır; bu da büyük sürülerde doğruluğun korunması için kritiktir.

ML (Üretken Yapay Zekâ) alanında Google Developers Uzmanıyım, Kaggle 3x Expert unvanına sahibim ve 3+ yıllık teknoloji deneyimiyle Women Techmakers Elçisiyim. 2020'de bir sağlık teknolojileri girişiminin kurucu ortağı oldum ve Georgia Tech'te makine öğrenmesi alanında uzmanlaşarak bilgisayar bilimleri yüksek lisansı yapıyorum.

