Die besten Open-Source-KIs auf Abruf in einer unabhängigen Cloud
Entdecken Sie die besten Open-Source-Alternativen zu ChatGPT, Gemini, Midjourney oder Claude, um sensible Daten in vollständigem Einklang mit europäischem und schweizerischem Recht zu verarbeiten.
LLM↓
Audio↓
Image↓
Grosse Sprachmodelle (LLM)
Die besten Open-Source-Alternativen zu ChatGPT, Gemini und Microsoft Copilot für die Interaktion, Analyse und Generierung von Inhalten mit KI.
LLama 3 70B
Der Leistungsfähigste
- ●
Optimiert für die Verarbeitung grosser Textmengen unter Wahrung der Einheitlichkeit über mehrere Quellen hinweg
- ●
Hervorragende Leistungen bei Aufgaben in den Bereichen Entwicklung, Programmierung und akademische Forschung
- ●
Hohe sprachliche Flexibilität mit mehr als 30 unterstützten Sprachen
- ●
Geeignet für Künstler*innen und Content Creation inkl. Storytelling
Max. Token-Input
100’000
Max. Token-Output
8’000
Sprachen
EN, ES, FR, DE, IT...
Training
2024/07
Funktionsaufruf
Nein
- ●
Optimiert für die Verarbeitung grosser Textmengen unter Wahrung der Einheitlichkeit über mehrere Quellen hinweg
- ●
Hervorragende Leistungen bei Aufgaben in den Bereichen Entwicklung, Programmierung und akademische Forschung
- ●
Hohe sprachliche Flexibilität mit mehr als 30 unterstützten Sprachen
- ●
Geeignet für Künstler*innen und Content Creation inkl. Storytelling
Max. Token-Input
100’000
Max. Token-Output
8’000
Sprachen
EN, ES, FR, DE, IT...
Training
2024/07
Funktionsaufruf
Nein
Mixtral 8x22B
Der Allrounder
- ●
Grösserer Trainingskorpus als Mixtral 8x7B für komplexere Tasks
- ●
Kann unstrukturierte Daten analysieren, um die Entscheidungsfindung zu unterstützen und Inhalte zu generieren
- ●
Verwaltung sprachlicher Feinheiten, um komplexe Diskussionen zu führen
- ●
Optimiert für logische Exploration (Kombination komplexer Informationen) und Ideengenerierung (Szenarien usw.)
Max. Token-Input
23’000
Max. Token-Output
23’000
Sprachen
FR, EN, DE, ES, IT
Training
2024/07
Funktionsaufruf
Ja
- ●
Grösserer Trainingskorpus als Mixtral 8x7B für komplexere Tasks
- ●
Kann unstrukturierte Daten analysieren, um die Entscheidungsfindung zu unterstützen und Inhalte zu generieren
- ●
Verwaltung sprachlicher Feinheiten, um komplexe Diskussionen zu führen
- ●
Optimiert für logische Exploration (Kombination komplexer Informationen) und Ideengenerierung (Szenarien usw.)
Max. Token-Input
23’000
Max. Token-Output
23’000
Sprachen
FR, EN, DE, ES, IT
Training
2024/07
Funktionsaufruf
Ja
Mixtral 8x7B
Der Schnellste und Sparsamste
- ●
Kostengünstig und sehr schnell für eine Vielzahl gängiger Tasks
- ●
Ideal zum Zusammenfassen, Moderieren von Inhalten, Berechnen, Kodieren und Extrahieren von Daten aus unstrukturierten Quellen
- ●
Geeignet für Echtzeit-Dateninterpretation und logisches Denken
- ●
Einfach anzupassen und in einen Kontext zu setzen, um unerwünschte Ergebnisse zu begrenzen
Max. Token-Input
30’000
Max. Token-Output
30’000
Sprachen
EN, ES, FR, DE, IT...
Training
2024/07
Funktionsaufruf
Nein
- ●
Kostengünstig und sehr schnell für eine Vielzahl gängiger Tasks
- ●
Ideal zum Zusammenfassen, Moderieren von Inhalten, Berechnen, Kodieren und Extrahieren von Daten aus unstrukturierten Quellen
- ●
Geeignet für Echtzeit-Dateninterpretation und logisches Denken
- ●
Einfach anzupassen und in einen Kontext zu setzen, um unerwünschte Ergebnisse zu begrenzen
Max. Token-Input
30’000
Max. Token-Output
30’000
Sprachen
EN, ES, FR, DE, IT...
Training
2024/07
Funktionsaufruf
Nein
Spracherkennung
Die besten Open-Source-KIs, um Audiodateien in Text umzuwandeln oder realistische menschliche Stimmen zu erzeugen.
Whisper V3
Für komplexe Transkriptionen
- ●
Auf über 1 Million Stunden an Daten basierendes Modell
- ●
Bis zu 20% weniger Transkriptionsfehler im Vergleich zu Whisper V2
- ●
Bessere Bewältigung von Akzenten, Hintergrundgeräuschen und komplexer Ausdrucksweise (z. B. bei Anrufen oder Videokonferenzen)
- ●
Verbesserte mehrsprachige Unterstützung und Übersetzung von Transkriptionen in andere Sprachen als Englisch
Maximale Dateigrösse
25 MB
Unterstützte Formate
mp3, mp4, aac, wav, flac, ogg, opus, wma, m4a
- ●
Auf über 1 Million Stunden an Daten basierendes Modell
- ●
Bis zu 20% weniger Transkriptionsfehler im Vergleich zu Whisper V2
- ●
Bessere Bewältigung von Akzenten, Hintergrundgeräuschen und komplexer Ausdrucksweise (z. B. bei Anrufen oder Videokonferenzen)
- ●
Verbesserte mehrsprachige Unterstützung und Übersetzung von Transkriptionen in andere Sprachen als Englisch
Maximale Dateigrösse
25 MB
Unterstützte Formate
mp3, mp4, aac, wav, flac, ogg, opus, wma, m4a
Whisper V2
Für die meisten Transkriptionen
- ●
Audiotranskription in über 57 Sprachen und Übersetzung des transkribierten Textes ins Englische
- ●
Modell basiert auf 680.000 Stunden an Daten in 98 Sprachen
- ●
Automatische Erkennung der Ausgangssprache
Maximale Dateigrösse
25 MB
Unterstützte Formate
mp3, mp4, aac, wav, flac, ogg, opus, wma, m4a
- ●
Audiotranskription in über 57 Sprachen und Übersetzung des transkribierten Textes ins Englische
- ●
Modell basiert auf 680.000 Stunden an Daten in 98 Sprachen
- ●
Automatische Erkennung der Ausgangssprache
Maximale Dateigrösse
25 MB
Unterstützte Formate
mp3, mp4, aac, wav, flac, ogg, opus, wma, m4a
Bildgenerierung und -bearbeitung
Die besten Open-Source-Alternativen zu Midjourney, Microsoft Copilot Designer oder Gemini, um Bilder zu generieren, zusammenzuführen oder zu interpretieren.
SDXL-Lightning
Ideal für Bildgenerierung
- ●
Die beste Kombination aus Qualität und Geschwindigkeit bei der Bildgenerierung durch eine generative KI
- ●
Schnelle Generierung fotorealistischer Bilder aus Prompts in 1, 2, 4 oder 8 Schritten
- ●
Funktioniert durch Destillation, was die Energieeffizienz erhöht und hervorragende Qualität garantiert
- ●
Optimiert für Englisch, mit begrenzten Kenntnissen in anderen Sprachen (FR, DE, ES, IT usw.)
Max. Token-Input
77
Max. Bild-Output
5
Sprachen
EN
Maximale Auflösung
1024x1024, 1792x1024, 1024x1792
- ●
Die beste Kombination aus Qualität und Geschwindigkeit bei der Bildgenerierung durch eine generative KI
- ●
Schnelle Generierung fotorealistischer Bilder aus Prompts in 1, 2, 4 oder 8 Schritten
- ●
Funktioniert durch Destillation, was die Energieeffizienz erhöht und hervorragende Qualität garantiert
- ●
Optimiert für Englisch, mit begrenzten Kenntnissen in anderen Sprachen (FR, DE, ES, IT usw.)
Max. Token-Input
77
Max. Bild-Output
5
Sprachen
EN
Maximale Auflösung
1024x1024, 1792x1024, 1024x1792
Photomaker V2
Ideal zum Bearbeiten und Zusammenführen von Personenporträts
- ●
Erstellen von Fotos in mehreren Stilen aus einem oder mehreren Profilfotos
- ●
Leistungsstark und flexibel: Rekontextualisierung, Kolorierung, Alters- und Geschlechtswechsel, Mischung von Identitäten usw.
Max. Token-Input
77
Max. Bild-Input
6
Max. Bild-Output
5
Sprachen
EN
Maximale Auflösung
1024x1024, 1792x1024, 1024x1792
- ●
Erstellen von Fotos in mehreren Stilen aus einem oder mehreren Profilfotos
- ●
Leistungsstark und flexibel: Rekontextualisierung, Kolorierung, Alters- und Geschlechtswechsel, Mischung von Identitäten usw.
Max. Token-Input
77
Max. Bild-Input
6
Max. Bild-Output
5
Sprachen
EN
Maximale Auflösung
1024x1024, 1792x1024, 1024x1792
Flux schnell
Um hochauflösende Bilder zu generieren
- ●
Aussergewöhnliche Bildqualität, die DALL-E 3 und MidJourney in einigen Bereichen übertreffen kann
- ●
Genaue Beachtung der Prompts und präzise Auslegung komplexer Szenarien
- ●
Grosse Vielfalt an Stilen
Max. Token-Input
76
Max. Bild-Output
5
Sprachen
EN
Maximale Auflösung
1024x1024, 1792x1024, 1024x1792
- ●
Aussergewöhnliche Bildqualität, die DALL-E 3 und MidJourney in einigen Bereichen übertreffen kann
- ●
Genaue Beachtung der Prompts und präzise Auslegung komplexer Szenarien
- ●
Grosse Vielfalt an Stilen
Max. Token-Input
76
Max. Bild-Output
5
Sprachen
EN
Maximale Auflösung
1024x1024, 1792x1024, 1024x1792