Im Juli haben EPFL, ETH Zürich und CSCS bekanntgegeben, dass sie gemeinsam ein grosses Sprachmodell (Large Language Model, LLM) entwickeln. Nun ist dieses Modell verfügbar. Es dient als Grundlage, auf der Entwickler:innen und Organisationen künftige Anwendungen – wie Chatbots, Übersetzungssysteme oder digitale Lernwerkzeuge – aufbauen können.
Ein vollständig offenes LLM
Als vollständig offenes Sprachmodell ermöglicht es Apertus Forschenden, Fachpersonen und erfahrenen Anwender:innen, dass sie auf dem Modell aufbauen, es an ihre individuellen Bedürfnisse anpassen sowie jeden Teil des Trainingsprozesses transparent nachvollziehen können. Damit unterscheidet sich Apertus deutlich von Modellen, bei denen nur ausgewählte Komponenten zugänglich sind.
«Mit dieser Veröffentlichung möchten wir ein Musterbeispiel dafür geben, wie sich ein vertrauenswürdiges, souveränes und inklusives KI-Modell bauen lässt», sagt Martin Jaggi, Professor für Maschinelles Lernen an der EPFL und Mitglied des Steering Committees der Swiss AI Initiative. Das Modell wird regelmässig vom Entwicklungsteam aktualisiert, dem spezialisierte Ingenieur:innen sowie zahlreiche Forschende von CSCS, ETH Zürich und EPFL angehören.
Impulsgeber für Innovationen
Mit ihrem offenen Ansatz betreten EPFL, ETH Zürich und CSCS Neuland. «Apertus ist kein klassischer Technologietransfer von der Forschung zum Produkt. Vielmehr verstehen wir das Modell als Impulsgeber für Innovationen und als Mittel zum Ausbau der KI-Expertise in Forschung, Gesellschaft und Wirtschaft», sagt Thomas Schulthess, Direktor des CSCS und Professor an der ETH Zürich. Ihrer Tradition folgend stellen EPFL, ETH Zürich und CSCS Basis-Technologie und Infrastruktur bereit, um Innovationen in der Wirtschaft zu ermöglichen.
Apertus wurde auf 15 Billionen Worteinheiten (engl. Tokens) aus über 1000 Sprachen trainiert – 40 Prozent der Daten sind nicht-englischsprachig . Damit umfasst Apertus zahlreiche Sprachen, die in bisherigen LLMs untervertreten sind, darunter Schweizerdeutsch, Rätoromanisch und viele andere.
«Apertus wurde als Beitrag zum Gemeinwohl entwickelt. Es gehört zu den wenigen vollständig offenen LLMs in dieser Grössenordnung und ist das erste seiner Art, das Mehrsprachigkeit, Transparenz und Compliance als grundlegende Designprinzipien vereint», sagt Imanol Schlag, technischer Leiter des LLM-Projekts und Research Scientist an der ETH Zürich.
«Swisscom ist stolz darauf, zu den ersten zu gehören, die dieses wegweisende Sprachmodell einsetzen – auf unserer souveränen Swiss AI Platform. Als strategische Partnerin der Swiss AI Initiative unterstützen wir den Zugang zu Apertus während der Swiss-AI-Weeks. Damit unterstreichen wir unser Engagement für ein sicheres und verantwortungsvolles KI-Ökosystem, das dem Gemeinwohl dient und die digitale Souveränität der Schweiz stärkt», sagt Daniel Dobos, Research Director bei Swisscom.
Zugänglichkeit von Apertus
Die Einrichtung von Apertus gestaltet sich für Fachpersonen und versierte Nutzer:innen unkompliziert. Für den praktischen Einsatz sind jedoch zusätzliche Komponenten wie Server, Cloud-Infrastruktur oder spezifische Benutzeroberflächen erforderlich. Die bevorstehenden Hackathons im Rahmen der Swiss-AI-Weeks bieten Entwickler:innen erstmals die Gelegenheit, Apertus praktisch auszuprobieren, seine Leistungsfähigkeit zu testen und Feedback für die Weiterentwicklung zukünftiger Versionen zu geben.
Swisscom stellt den Hackathon-Teilnehmenden eine speziell entwickelte Schnittstelle zur Verfügung, die das Arbeiten mit dem Modell erleichtert. Ab sofort haben Geschäftskunden von Swisscom Zugriff auf das Apertus-Modell über die souveräne Swiss AI Platform von Swisscom.
Für Personen ausserhalb der Schweiz wird Apertus ausserdem über die Public AI Inference Utility zugänglich sein – als Teil einer globalen Bewegung für öffentliche KI.
«Derzeit ist Apertus das führende öffentliche KI-Modell: ein Modell, entwickelt von öffentlichen Institutionen im Dienste des Gemeinwohls. Es ist der bislang stärkste Beweis dafür, dass Künstliche Intelligenz eine öffentliche Infrastruktur sein kann – wie Autobahnen, Wasserleitungen oder Stromnetze», sagt Joshua Tan, Hauptverantwortlicher der Public AI Inference Utility.
Transparenz und Compliance
Apertus setzt ganz auf Transparenz – um die Reproduzierbarkeit des Trainingsprozesses zu gewährleisten. Neben dem Modell selbst hat das Forschungsteam verschiedene Unterlagen veröffentlicht: eine umfassende Dokumentation, den Quellcode des Trainingsprozesses sowie der verwendeten Datensätze, die Modellgewichte inklusive der Zwischenstände des Trainingsprozesses (sogenannter «Intermediate Checkpoints») – und alles unter einer permissiven, nutzungsfreundlichen Open-Source-Lizenz, die auch kommerzielle Nutzung erlaubt. Die Nutzungsbedingungen sind auf Hugging Face abrufbar.
Die Entwicklung von Apertus erfolgte unter Berücksichtigung der Schweizer Datenschutzgesetze, des Schweizer Urheberrechts und der Transparenzanforderungen der EU KI-Verordnung (EU AI Act). Ein besonderes Augenmerk wurde auf Datenintegrität und ethische Standards gelegt: Das Trainingskorpus beruht ausschliesslich auf Daten, die öffentlich zugänglich sind. Diese wurden gefiltert, um maschinenlesbare Opt-out-Hinweise von Websites – auch rückwirkend – zu respektieren sowie personenbezogene Daten zu entfernen und andere unerwünschte Inhalte vor Beginn des Trainings auszuschliessen.
Am Anfang einer langen Reise
«Apertus zeigt, dass generative KI sowohl leistungsfähig als auch offen sein kann», sagt Antoine Bosselut, Professor und Leiter des Natural Language Processing Laboratory der EPFL und Co-Leiter der Swiss AI Initiative. «Die Veröffentlichung von Apertus ist kein Endpunkt, sondern der Beginn einer Reise – ein langfristiges Engagement für offene, vertrauenswürdige und souveräne KI-Grundlagen für das weltweite Gemeinwohl. Wir freuen uns darauf zu sehen, wie Entwickler:innen beim Hackathon der Swiss-AI-Weeks mit dem Modell arbeiten. Ihre Kreativität und ihr Feedback helfen uns dabei, zukünftige Versionen des Modells zu verbessern.»
Zukünftige Versionen sollen die Modellfamilie erweitern, die Effizienz steigern und spezifische Anpassungen für Fachbereiche wie Recht, Gesundheit oder Bildung ermöglichen. Sie sollen auch neue Funktionen integrieren und zugleich die hohen Anforderungen an die Transparenz wahren.