Die besten KI-Modelle der Welt versagen bei jeder dritten Aufgabe. Was die Benchmarks wirklich über GPT-5, Claude Opus 4 und Gemini 2.5 Flash zeigen.