Der Speicherdurchsatz liegt leider nur bei 273 GB/s. Siehe
https://www.nvidia.com/en-us/products/workstations/dgx-spark/
Man bekommt also eine 5070 mit 128 GB RAM, das aber nur 40,625% des Durchsatzes der 5070 hat. Für LLM ist das aber der entscheidende Wert, da für jedes Token das komplette Modell ganz eingelesen werden muss, d.h. ein 100 GB großes Modell würde zwar laufen, aber maximal mit 2,73 Token/s, realistisch wahrscheinlich mit ca. 2 Token/s.
Bei dem Preis könnte man auch über einen Mac Studio nachdenken mit 128 GB (oder auch mehr) unified RAM, der dann aber mit 819 GB/s angebunden ist, also exakt 3 mal so schnell.