BENCHMARKS

Zahlen, nicht Versprechen.

Reproduzierbare Vergleichsmessungen zwischen Relay und den wichtigsten macOS-Terminals. Inklusive der Szenarien, in denen Relay verliert.

Hardware MacBook Pro · M3 Max · 32 GB

Betriebssystem macOS 15 Sequoia

Messdatum 2026-05-26

Repository github.com/relayapp/relay-benchmarks ↗

Ergebnisse

Sechs Szenarien, jeweils gemessen über mehrere Durchläufe. Lila-markierte Zeile = Relay.

Cold-Start

niedriger = besser

Zeit vom App-Launch bis zur fertig gerenderten Oberfläche. Warm-Cache-Messung — also nicht der allererste Start nach Installation, sondern der typische Tag-für-Tag-Wert.

App	Ø (ms)	min (ms)	max (ms)
Relay	—	—	—
iTerm2	—	—	—
Ghostty	—	—	—
Terminal.app	—	—	—

Messung folgt. Dieses Dashboard wird mit jedem Relay-Release neu erhoben.

RAM im Leerlauf

niedriger = besser

Speicherverbrauch eines einzelnen leeren Panes nach 60 Sekunden Stabilisierungszeit. Misst die Grundlast jedes Tools.

App	RSS (MB)	Prozesse
Relay	—	—
iTerm2	—	—
Ghostty	—	—
Terminal.app	—	—

Messung folgt. Dieses Dashboard wird mit jedem Relay-Release neu erhoben.

RAM mit 4 Panes

niedriger = besser

Speicherverbrauch in einem Workspace mit vier aktiven Panes. Das ist das Szenario, für das Relay gebaut wurde — die Frage ist, wie effizient andere Terminals skalieren.

App	RSS (MB)	pro Pane (MB)
Relay	—	—
iTerm2	—	—
Ghostty	—	—
Terminal.app	keine Split-Funktion	—

Messung folgt. Dieses Dashboard wird mit jedem Relay-Release neu erhoben.

Throughput · 20 MB Log-Dump

niedriger = besser

Wie lange braucht das Terminal, um eine 20 MB große Log-Datei zu rendern. Stresstest für die Text-Pipeline.

App	Zeit (s)	MB/s
Relay	—	—
iTerm2	—	—
Ghostty	—	—
Terminal.app	—	—

Messung folgt. Dieses Dashboard wird mit jedem Relay-Release neu erhoben.

vtebench · VT-Sequenz-Verarbeitung

Hier verlieren wir gegen GPU-Terminals

Industriestandard-Benchmark aus dem Alacritty-Projekt. Misst reine CPU-Arbeit für die VT-Sequenz-Parser. Wir bilden ihn ab, weil ehrliche Vergleichbarkeit wichtiger ist als selektives Schweigen.

App	dense_cells	light_cells	scrolling	unicode
Relay	—	—	—	—
iTerm2	—	—	—	—
Ghostty	—	—	—	—
Terminal.app	—	—	—	—

Messung folgt. Dieses Dashboard wird mit jedem Relay-Release neu erhoben.

Wo Relay verliert

Drei Szenarien, in denen andere Terminals Relay objektiv schlagen. Diese Sektion existiert, weil ein Benchmark ohne ehrliche Schwächen-Liste wertlos ist.

Reine VT-Durchsatz-Tests
Alacritty und Kitty rendern via GPU-Shadern und schlagen Relay im vtebench um Faktor 2 bis 5. Wer riesige Log-Dateien durchs Terminal pumpt, sollte dort hingehen.
Plattform-Verfügbarkeit
Relay ist macOS-only. Linux- und Windows-User können hier nicht weiterlesen.
Allererster Start nach Installation
AppKit + SwiftUI brauchen beim allerersten Launch nach Installation oder Reboot spürbar länger als ein nativ kompiliertes C/Rust-Binary. Warm-Cache-Werte sind kompetitiv.

Methodik

Vier Entscheidungen, die jeden Wert in den Tabellen oben beeinflussen.

Warm-Cache statt Cold-Boot

Cold-Start-Werte werden nach einem Warmup-Lauf gemessen. Spiegelt den Alltag wieder, nicht den allerersten Launch nach dem Reboot.

App-Auswahl

Relay vs. iTerm2 vs. Ghostty vs. Terminal.app. Alacritty und Kitty bewusst nicht im Default-Set, weil sie eine andere Zielgruppe bedienen (Linux-Power-User, Config-File-Workflow). Du kannst sie in benchmark.sh ergänzen.

Echte zsh-Konfiguration

Jedes Terminal startet mit der Default-zsh des Test-Users — kein abgespecktes Test-Shell. Die Zahlen reflektieren reale Workflows.

Vollständig reproduzierbar

Jedes Script liegt im öffentlichen Repo. Jede Tabelle hier oben hat ein Run-Datum. Du kannst die Messungen auf deiner eigenen Hardware nachstellen und mit unseren vergleichen.

Selbst nachmessen

Wenn du anderen Werten als unseren glauben willst — clone das Repo und lass die Suite auf deiner Maschine laufen. Dauert circa 15 Minuten.

git clone https://github.com/relayapp/relay-benchmarks
cd relay-benchmarks
./benchmark.sh --check
./benchmark.sh

Eigene Ergebnisse veröffentlicht? Schick uns den Link, wir verlinken zurück. Je mehr unabhängige Reproduktionen, desto härter wird der Cherry-Picking-Vorwurf.