NVIDIA |

NVIDIA NVLM: ELIZA on Steroids NVIDIA steigt mit NVLM in den Ring – ein mächtiges, multimodales Sprachmodell, das Bilder versteht, Code schreibt und GPT-4o Konkurrenz machen soll. Doch unter der Haube bleibt es beim Alten: ein vorhersagendes Statistikmodell, das vorgibt zu verstehen. Willkommen zurück, ELIZA – diesmal mit 72 Milliarden Parametern. Was ist NVLM? Architektur: Decoder-only LLM mit Qwen2-72B als Text-Backbone Multimodalität: Text und Bild über InternViT-6B als Vision-Encoder Benchmarks: OCRBench, MathVista, ChartQA – teils besser als GPT-4o Open Source: Modellgewichte und Trainingscode frei zugänglich (Hugging Face) ELIZA-Effekt reloaded Der ursprüngliche ELIZA-Effekt beschreibt die Illusion von Verstehen – ausgelöst durch einfache, aber überzeugende Gesprächsmuster. NVLM perfektioniert diesen Effekt: durch größere Modelle, mehr Daten, Bilderkennung und flüssige Antworten. Aber wie bei ELIZA bleibt auch hier das Verstehen nur vorgespielt. ...