GTX 750Ti - Detayları merak ediyorum

Psydia · 2014-02-23T16:27:55.0000000+03:00

Nvidia maxwell mimarisi ile çok iyi iş yapmışa benziyor, geforce ulv gpu'larına da bu yansıyacaktır. Yeni çıkacak tegra'lı tablet ve telefonların performansı olumlu etkilenecek, tegra ile ilgili önyargılar değişecek gibi görünüyor. Ama şunları merak ediyorum (mümkünse teknik detayları da öğrenmek istiyorum) 1- Nvidia 3 nesildir (kepler 1 gtx600 - kepler 2 gtx700 - maxwell) aynı 28 nm die shrink ile üretim yaptırdığı halde nasıl performans/watt oranı bu kadar yükselebiliyor? Yani, tamam gtx480 40 nm ile üretiliyordu fakat nasıl oluyor da 750ti gtx480 ile kafa kafaya olabiliyor? Hem de 60 watt tüketerek? 2- Kepler > maxwell geçişinde transistör boyutunda küçülme olmadı. Fakat detayda kapalı kapılar ardında tam olarak neler değişti? Hangi değişmeler performans/watt oranına etki ediyor? @Rubisco

Sıcak Fırsatlarda Tıklananlar

Editörün Seçtiği Fırsatlar

Kuashidai Mini Kamera Dedektörü Mikro Kamera Bulucu Otel Anti Açık Çekim Casus Kamera Kızılötesi Dedektörü : Amazon.com.tr: Elektronik https://www.amazon.com.tr/dp/B09BYYNZF3 18 sa. önce paylaşıldı

MARISOL Marka MRS Milano C07 FÜME KEMİK Cerceve PEMBE Cam Güneş Unisex Gözlügü : Amazon.com.tr: Moda https://www.amazon.com.tr/dp/B0CGMFNFJ5 14 sa. önce paylaşıldı

Wera 05051011001 Kraftform XXL 2, 12 parça : Amazon.com.tr: Yapı Market https://www.amazon.com.tr/dp/B003B7VQMK 13 sa. önce paylaşıldı

Daha Fazla

Bu Konudaki Kullanıcılar: Daha Az

1 Misafir - 1 Masaüstü

5 sn

12
Cevap

0
Favori

371
Tıklama

Daha Fazla
İstatistik

Konu İstatistikleri Yükleniyor

Konuya Özel

0 oy

Öne Çıkar

Cevapla

Sayfa: 1

Giriş

Mesaj

Psydia

Binbaşı

1670 Mesaj

Tüm Başarılarını Gör

fatihburak95

Yarbay

5871 Mesaj

Tüm Başarılarını Gör

Psydia

kullanıcısına yanıt

yasin.25

Binbaşı

1928 Mesaj

Tüm Başarılarını Gör

Psydia

Binbaşı

1670 Mesaj

Tüm Başarılarını Gör

brsaltnc

Yarbay

2206 Mesaj

Tüm Başarılarını Gör

yasin.25

kullanıcısına yanıt

yasin.25

Binbaşı

1928 Mesaj

Tüm Başarılarını Gör

Rubisco

Kurmay Yarbay

4915 Mesaj

Tüm Başarılarını Gör

Psydia

kullanıcısına yanıt

Şimdilik copy paste yapim başka yerde daha incelemeler çıkmadan yazdığımın aynısı sayılır, düzeltilecek yerleri de vardır bilmeden yazdığım için. Müsait olnca düzeltirim ama kaba olarak herşeyi doğru.

Gırgır bi yana, Fermi + GCN karışımı bi yapı gibi bişey bu. GCN'de CU'ların kendilerinin dışında, 4 CU başına ortak bi L1 cache yapısı var. Bu 4 CU'lu bloklar aynı zamamda ana L2 ile de bağlantılı. Ama L2'nin tamamını değil, 128kb'lık bölünmüş kısımlarını kullanabiliyor. Bişeyleri karıştırmıyorsam 128 KB L2 yine bu 4 CU'luk bloğu da destekliyor.

Bu SS'deki SMM yapısı ile L2 büyüklüğü tam biribiyle uyuşmuyor. Ya L2 2 MB değil, yada AMD'deki gibi her bi grup L2 üstünde kendi kısmını kullanır diye bişey yok(6 x 128 KB lık kısımlar halinde mesela 7970 için).

Eğer L2'nin tamamı bütün, yani bölünmemiş bi yapı ise , esnek / dinamik bi L2 kullanım mekanizması olmalı. 1.SMM mesela 512 KB kullanırken diğerlerinin 1536 KB'ı paylaşması gibi. Eğer bu tarz bi konfigüre edileblir yapısı varsa çok ilginçlik olur (L1 / Local memory paylaşım ayarının Cuda'da yapılabilmesi gibi). Ama bu tarz bi esnek L2 yapısı için de devasa iç bantgenişliği gerektirir. L2 eğer SMM'lere göre bölünmşl olursa AMD'deki gibi, bu hem tasarım üretim kolaylığı, daha düşük maliyet, hem de güç tasarrufu demek olur. Yoksa her bi SMM <<-->> L2 bağlantısı baya bi yoğun olmalı. Özellikle ayarlanabilir olursa performansa büyük katkısı olur (oyun / GPGPU farketmeksizin), ama güç tüketimi ve karmaşıklığı sabit parçalara ayrılmış L2'ye göre arttırabilir de. NVidia için güç tüketimi daha öncelikli olduğundan, SMM <<--->> L2 arasında full kapasite bw erişimi pahalıya patlar ve böyle bişey olmayabilir. Diğer taraftan da Nvidia'da Bill Dally yıllardır hep performans = locality der/diyor/diyecek de. SMM ve L2 arasında full kapasite BW erişimi ve L2 nin dinamik olarak kullanılabilmesi konfigüre edilebilmesi diğer taraftan locality / verinin daha çabuk erişilebilir olma ihtimalini de arttırır(1. SMM 1536KB kullanırken 2. SMM 512KB kullanır mesela). Böylece sabit L2 bölümlenmesine göre performans artar. Artan güç ihtiyacı ile artan performans arasında belli bi oran tutturabilirler gibime geliyor olumlu anlamda. Uzun bi varsayım zinciri ama başta dediğim gibi SMM sayısı vs. L2 tahsisi bölünebilir sayılar değil.

SMM iç yapısı Fermi'nin hemen aynısı gibi zaten, en azından gf114'deki gibi. gf110 32 CC için 2 scheduler : 2 dispatch iken gf114 2:4 şeklinde bi yapıdaydı ama 48 CC için. Burda yine gf114 benzeri 1 scheduler : 2 dispatcher şeklinde duruyor, ama 32 CC var. gf110 / gf114 karışımı gibi bu haliyle.

1 SMM >> 128 CC şeklinde bakmamak lazım bence, burası önemli. Bunların kontrol yapılarının, kaynaklarının birbirinden bağımsız olması daha önemli. Eski Fermi'ye benzer yapıda olmaları Kepler'deki sorunlarla karşılaşmalarını engelleyecektir ve ilave sorunları da engelleyecektir gibi duruyor bu kaba haliyle (register pressure , thread başına register, register + local memory bw sorunları vs. açısından Kepler gibi engeller ile karşıılaşmayacaktır).

4 x 32CC 'lik blokların yapılanması ve L2 ile desteklenmesi GCN'i anımsatıyor. Esas iş yapacak olan 1x 32 CC'lik kısımlara acil bi isim verilse iyi olur. AMD'deki CU'ya karşılık gelen kısımlar o 1x 32 CC'lik kısımlar (büyük ihtimal TMU/ROP organizasyonu Kepler ile aynı / benzer tarzda, GCN'e benzemiyo doğal olarak onlar).

Keplerdeki 1 SMX içinde 4 scheduler : 8 dispatcher @ 192 CC yerine, Fermi'ye benzer şekilde 1 scheduler : 2 dispatcher @ 32 CC 'lik bloklardan oluşan 4'lü Grup / SMM bence çok daha iyi kontrol / görev dağılımı / stall kontrolü / kaynak kontrolü / register baskısına karşı koyma / yerel bw limiti vs. gibi imkanlar verecek. Bu haliyle çok iyi GPGPU performansı olabilir gibi duruyor. Keplerin falso yediği alanlarda tepesine binecek ve Fermi'yi sorunsuz geçebilecek kadar.

Oyun performansına tam olarak nasıl yansır bilemiyorum ama elde olmayan bilgiler yüzünden sanki güç tüketimine göre verdiği performans çok çok iyi olmayabilir diye bi düşünce de gıdıklıyor(kaynaklar Keplerdekinin aksine biraz daha dağıtık duruyor diye). Ama dedikleri gibi bu haliyle gtx480 ayarında bi yapısı var ve 60w ile gtx480 performansı kabul edilebilir sanırım(128 bit bellek erişimini yok sayarsak tabi, belli çözünürlük / AA sonrasında zorlanabilir).

Bu hali Kepler / Fermi / GCN'nin güzel bi harmanı gibi duruyor bana göre. Keplerin kusurları giderilmiş gibi, bi miktar verimden fedakarlık edilmiş, ama getirisine göre kabul görmüş olmalı. 4'lü tam bağımsız işlem yapıları / bloklarından oluşup L2'ye bağlanma organizasyonu GCN'e çok benziyor. Dediğim gibi GPGPU performansının da çok iyi olmasını beklerim kendi adıma.

quote:

Keplerin kusurları giderilmiş gibi, bi miktar verimden fedakarlık edilmiş,

Basit anlamda kullanılan verimlilik anlamında demek istemedim.

Keplerde çok sayıda birim tek bi bölgesel yerden yönetiliyor kaynaklar SMX içnde. Bunda ise 32 CC başına ayrı bi kontrol bloğu var. 4:8 ile 192 CC yönetmek, bunların thread + register + context switch altyapısı ile 1:2 @ 32 CC li yapılar için gerek thread/register/context switch altyapısı arasında fark olmalı. blok şemasına bakıyoruz sadece ama, Bunda parça parça ayrılmış o yüzden mesela 192 CC'yi tek bi SMX içinde daha yerel bi yerden yönetmek için mesela 100 joule enerji gerekiyorsa (komutları schedule etmek için, register/context switch aktarımı için, blok dışı cache varsa ona ulaşım için faln) , sanki 1x32'lik bloklar için daha fazla mesela 150 joule enerji gerekirmiş gibi geliyor. Çok amprik sallama yaklaşım ama locality / yerellikten bi miktar fedakarlık edilmiş oluyor sadece bu komut kısımı için. Birimler ve kaynaklar ne kadar birbirine yakın / yerel olursa locality ne kadar fazla olursa enerji verimliliği o kadar fazla olur.

Ama direk blok şemasına bakmak ile çipin fiziksel yapısını silikon üstündeki yapılanmasını organizasyonunu elbette bilemeyiz, o yüzden amprik dedim. Bu tarz eski Fermi'ye benzer yapılandırma, az sayıda birim için kaynaklara ulaşma zorunluluğu doğurur, bunun da çip içinde verinin hareket ettirilmesi farklı birimlere erişme ihtiyacı doğurmasından dolayı enerji tüketimini arttırması lazım. Bill Daly'nin yıllar önceki dersindeki en çok önem verdiği konuydu zaten bu locality / yerellik mevzuu.

Diğer taraftan, eğer Keplerde ile uyum anlamında 48 KB L1 olursa, 1 x 32 CC için 48 KB L1 baya baya fazla. Bu da o locality / yerelliği arttırma anlamında baya bi katkıda bulunuyor olabilir. GPU'da her bi birimde yapılan hesap için gereken enerji miktarı bu işlem sonucunda oluşan veriyi çip içinde bi yere taşımaya göre çok çok daha az. Dally'nin eski prezantasyonunda mesela 1 DP işlem için gereken enerji ile bu veriyi VRAM'a taşımak için gereken enerji arasında 800 kat fark var. Veri ne kadar yerel olursa enerji tüketimi o kadar az oluyor . Yani az sayıda birimden oluşan bloklar bi miktar enerji verimini azaltıyor olmalı. 256 cc'den oluşan SMX organizasyonu olsaydı daha da büyütselerdi sanırım Kepler daha da verimli olurdu schedule vs. anlamında. Ama götürü olarak da GPGPU performansı daha da düşebilirdi gibime geliyor, bazı durumlardan sonra da oyun performansı düşerdi sanırm (ALU'lar için oluşabilecek SMX içindeki BW sınırlaması yüzünden ).

Fermi'ye göre ise donanımdan bağımlılık çözme vs. gibi bi yapısı yok (Kepler de o şekilde). compiler / driver arabirimi üstünden GPU'ya bağımlılık ve sonraki komutun ne kadar gecikeceği, bağımlılık detayı faln veriliyor. Bu sayede Fermi eşit şartlar altında mesela 1000 joule ile komut düzenleme işlemi yapıyorsa Kepler'de bu tarz donanım üstünden analiz yapısı olmadığıdan aynı işi 100 joule ile yapıyordu(GCN de Fermi gibi donanım üstünden analiz yapıyor).

Bu yüzden Fermi'ye benzer daha granüler yapısı varken, eşit şartlarda Fermi'den daha az enerji kullanmalı (eşit şart = mesela 28nm fermi, 2 Fermi SM vs. 2 Maxwell SMM şeklinde karşılaştırılsa).

SMM içinde locality fazla olsa da, L2'ye erişim eğer önceki mesajdaki gibi bi yapıda olursa yani L2 sabit parçalardan değil de ihtiyaca göre ölçeklenebilir ihtiyacı olan birime istediği kadar L2 kullanma imkanı verirlerse, SMM ve 1 x 32CC'lik ile L2 arasında çok çok yoğun bi bağlantı olması lazım. Bu üretim karmaşıklığı demek, ayrıca SMM ile L2 arasında çok yoğun transfer demek. Sonuçta karşılaştırdığımız şey SMM başına atıyorum 512KB'lık bi L2 parçası değil, ulaşabildiği kullanabildiği 2048 KB 'lik L2'nin tamamı. Az yukarda veri transferi için, çip içindeki cachelere erişim için de gereken enerji yüksek dedim ya. L2 eğer sabit parçalardan değil de SMM'lerin kullanabildiği dinamik değişken bi yapısı varsa, o SMM başına sabit L2 parçalarından oluşan duruma göre çok çok fazla enerji kullanması gerekir.

Ama bu seferde ellerinde SMM'nin yaptığı işe göre(bütün GPU'nun değil), dinamik SMM <<<<----->>> L2 kullanımına karşın 4 kat enerji artışı varken 2-3 kat fazla performans artışı olabilir(direk W cinsinden ölçülebilir değer olarak değil ufak çapta GPUinun yerel tüketimi olarak). Yani L2'yi sabit parçalar halinde kullansalar daha az karmaşık ve daha az enerji tüketirken, dinamik olarak kullanılabildiğinden enerji kullanımı baya artsa da Performans baya baya bi artıyor olabilir. Buda başka türlü bi verimlilik demek elbette, ama ben o L2 bölümlendirmesi ve buna erişmek için Keplere göre daha fazla enerji gerekebilir demek istedim. Bütün çipin tamamı Kepler'den daha verimli çalıyor olabilir elbette (bazı iş yükleri için çok daha performanslı çalışacağı kesin gibi).

brsaltnc

Yarbay

2206 Mesaj

Tüm Başarılarını Gör

yasin.25

kullanıcısına yanıt

Psydia

Binbaşı

1670 Mesaj

Tüm Başarılarını Gör

Rubisco

kullanıcısına yanıt

Rubisco

Kurmay Yarbay

4915 Mesaj

Tüm Başarılarını Gör

NDA kalkmadan yazdığımdan bilmediğim şeyler vardı. Nvidia'nın dediği SMM'ye atanmış bi L2 kısmı (slice) yok, ondan bağımsız diyor. Aynı Intel CPU'larda L3 değişebiliyor ya onun gibi. Diğer taraftan ROP'lar kendi aralarında gruplanıp, gm107 için 2x 8 ROP şeklinde, L2'de kendi kısımlarını kullanıyo paylaşıyorlar tıpkı AMD'de olduğu gibi. 8 ROP L2'nin 1024MB lık kısmınaa erişiyor, diğer 8 ROP L2'nin diğer 1024MB'lık kısmına.

Ama Dediğim gibi Nvidia mimarinının dediği SMM başına sabit ayrılmış bi L2 yok. O yüzden full Maxwell çipde mesela 20MB L2 olması beklenmemeli şimdilik. Sonuçta çipe cache eklemek de çok yer isteyen bişey. Merak eden Intel / AMD işlemcilerinde L3 cachelerin kapladığı yere bakabilir.

SMM'ler de SMX lerde SM'lerde normalde birbirlerine asla erişmezlerler. Bu, bu erişim süresinin GPU'da devasa uzun olmasından dolayı yapılmayan bişey. Yani CPU'daki gibi 1. çekirdek 4. çekirdeğin verisine erişsin ortak çalışsınlar diyemezsin. GPU'da bu ana gruplar arasındaki latency çok fazla o tarz işlem istersen. O yüzden görev en başta parçalanıp bi daha yüzüne bakılmamak üzere dağıtılır. 1. Grubun komutlarına 2. grup erişemez, yani feci uzun zaman ister o. Anca 1. Grubun verileri bütün gruplar için ortak olan bi cache üstünde ise, 2. grup bu cache'e ulaşıp ordan faydalanabilir. CPU'dakine benzer bi komut dağıtımı olarak mı sormak istedin bilemiyorum ama GPU'nun işleme mantığına uymuyor görev dağıtıldıktan sonra 1. gruptaki komut ile 2. gruptaki komutun ne var ne yok diye birbirlerine bişey sorması. Anca cache seviyesinde veriye ulaşmak isterlerse olabiliyor.

Cache miktarını büyük tutarsan, o büyüklük daha fazla sayıda birimi çipe koymanı engeller. O tarz engeller olmalı diye düşünüyorum. Kepler'de, bu forumda defalarca yazdım belli tarz durumlarda çok çok fazla sorun yaşıyordu. Grafik işlemede daha az olsa da en alt fiziksel komut işletiminde yine sorunlar var. Bütün SMX bloğunu sorunsuz olarak meşgul tutup, onu sorunsuz olarak işletmek mümkün olmuyor, occupancy sorunları oluyor veya stal'lar bişeyleri karıştırıyor.

Bunda, SMX gibi büyük bişey yapmak yerine onu parçalamışlar. Bol yerel kaynak ile beslemişler. Gerisini komut işleme / shader / tex/rop / iç bus yapısı / L1 cache / shared cache / L2 cache arasındaki en iyi oranlar ile güç kullanım değerlerine göre optimize ederek karar vermişler. Mesela bu hali ile 1 SMM 4 warp işleyebiliyor diyelim bunun için 100 joule enerji istesin. Aynı latency için 6 warp işleyecek şekilde 6 blok içerseydi ve 200 joule enerji isteseydi bunu tercih etmezlerdi gibi geliyor bana. Belki maliyet vs. de işin içindedir, marjinal getirisi en optimum konumdan uzaklaşıyordur belki(AMD'nin eski Vliw4 vs. Vliw5 farkı gibi).

Fermiyi 28nm ye uyarlasalar bana göre 32nm Bulldozer vs. 32nm Phenom durumu gibi olabilirdi. Gayet de güzel giderdi bi yere kadar. Fermiye benzer yapısı var, ama Fermi'deki donanım-üstünde-bağımlılık kontrolü / öncelik-gecikme ayarlama gibi şeyler Keplerde yok. Güç tasarrufu Kepler'de ordan da geldi. Maxwell'de Fermi'ye çok benziyor ama Keplerdeki gibi o donanımdan-bağımlılık kontrolü vs. de yapılmyor. O yüzden tasarrufu da işlem şeklini de artık neresinden tutarsan "Fermi-done-right" gibi bişeye de getirebilirsin "Kepler-refined" da diyebilirsin , "Kepler done right" da diyebilirsin.

Şirket içinde nelere tam nasıl karar veriliyor dışardan bilemeyiz. Ama Kepler'i tasarlaması bazı açılardan Maxwell'den daha kolay olması lazım, o yüzden tercih etmiş olabilirler. Maxwell de Keplerin o occupancy probleminden başka yerlere kadar olabilen problemlerini gidermişler en kaba haliyle. Gerisi sanki optimizasyon ile ilgiliymiş gibi geliyor (bi sürü şey öyle zaten). Optimizasyon dediğim şey de aşina olan varsa değişken optimizasyonu, 4 tane girdi birimi var, bunu kaç bitlik iç bus ile ne kadarlık cache'e bağlarsak en uygun güç/performans eğrisi elde ederiz gibisinden.

Edit: Bi de inceleme sitelerinde karşılaştırma için küçük gk107'ye dem vuruluyor hep. Oysa gk208 ile karşılaştırılsa gk208'in konumu iyi. Biraz elma-armut karşılaştırması gibi duruyor gk208 vs. gm107 diye ama, o zamanda %25 değil %87 kadar bi çip alanında büyüme var. Biraz zorlama yaklaşırsan 2x gk208 diye, yer yer gm107 ile örtüşen yerleri var : 768 shader vs. 640 shader, 80 küsür w vs. 60w. , 158 mm2 vs. 148mm2 vs. gibisinden. Böyle bakınca da hmm sanki süper mimari değil mi de dedirtir.

Yine diğer taraftan gk106 ile çok fazla karşılaştırılmıyor. Kendisinden %50-%100 civarında daha fazla yeteneği/kaynağı olan bi GPU anca %20 civarında daha performanslı. Bu gelecekteki oyunların hesaplama / ALU / computational limitlerden çok fillrate limitlerine takılacağını gösteriyor bana göre, tıpkı bugün de olduğu gibi. Nvidia da bugün varolan bi trendi devam ettirip üzümünü yeme derdinde gibi bi sonuç çıkıyor bana göre.

< Bu mesaj bu kişi tarafından değiştirildi Rubisco -- 23 Şubat 2014; 23:55:38 >

Sayfa: 1

Benzer içerikler

Ip işlemleri

Bu mesaj IP'si ile atılan mesajları ara Bu kullanıcının son IP'si ile atılan mesajları ara Bu mesaj IP'si ile kullanıcı ara Bu kullanıcının son IP'si ile kullanıcı ara

KAPAT X

%40
Kazan

%2,8
Kazan

%5
Kazan

%6,8
Kazan

%1,6
Kazan

%3,2
Kazan

%5,5
Kazan

%1,2
Kazan

%5
Kazan

%3,2
Kazan

%6,4
Kazan

%2
Kazan

Alışveriş Yaptıkça Para Kazan Harekete Geç »