Blog Entry: Gedanken zur Internationalisierung (i18n)

Oregami möchte irgendwann mal der umfassende und freie Datenpool der weltweiten Videospielgemeinschaft werden. Da überrascht es wenig, dass wir uns früher oder später mit Problemen der Internationalisierung (engl. Abkürzung: i18n) beschäftigen müssen. Englisch mag eine sehr gute Wahl für die Hauptsprache eines internationalen Projekts sein, Deutsch als unsere Muttersprache eine sehr gute Wahl für die zweite, die komplette Dokumentation der weltweiten Videospiel-Historie erfordert jedoch Arbeit und Expertise in weiteren Sprachen. Außerdem sollen die Ergebnisse unserer Tätigkeit so zugänglich wie möglich sein, was natürlich die Notwendigkeit mit sich bringt, unsere Benutzeroberfläche und unsere Hilfetexte ebenfalls in weiteren Sprachen anzubieten. Und zu guter Letzt gibt es noch die textuellen Daten selbst, die ebenfalls in vielen Sprachen daherkommen.

Darum haben wir bereits vor einiger Zeit ein paar grundsätzliche Probleme der Internationalisierung diskutiert und wollen heute unsere Ergebnisse zusammenfassen.

Der Hauptpunkt unserer Diskussionen waren die Unterschiede zwischen regionalen Titeln, Textübersetzungen und Transliterationen, und wie wir all diese Dinge in unser Datenmodell integrieren können:

  1. Regionale Titel bedeuten, dass ein Spiel oder ein Spielsystem in verschiedenen Regionen unter verschiedenen Titeln veröffentlicht wird.
  2. Eine Übersetzung bedeutet, dass ein Text von einer Sprache in eine andere Sprache übertragen wird.
  3. Eine Transliteration bedeutet, dass ein Text von einer Schrift in eine andere Schrift übertragen wird, ohne die Sprache zu ändern.

Beginnen wir am besten mit einem Beispiel, um diese Unterschiede zu illustrieren. Gut geeignet hierfür ist das Spiel Secret of Mana, das die US-Veröffentlichung des japanischen Originals Seiken Densetsu 2 darstellt.

Wie wir im deutschen Wikipedia-Eintrag der Seiken-Densetsu-Reihe sehen können, ist "Secret of Mana" (Das Geheimnis des Mana) nicht die wortgetreue Übersetzung von "Seiken Densetsu 2" (Die Legende des Heiligen Schwerts 2). Hierbei handelt es sich um zwei verschiedene regionale Titel für ein und dasselbe Spiel, was uns zu dem folgenden Schema für die regionalen Bezeichnungen bringt:

Veröffentlichungstitel (Region)Englische ÜbersetzungJapanische ÜbersetzungLateinische TransliterationJapanische Transliteration
Secret of Mana (USA)Secret of Manaマナの秘密Secret of Manaシークリット・オブ・マーナー
聖剣伝説2 (Japan)Legend of the Sacred Sword 2聖剣伝説2Seiken Densetsu 2聖剣伝説2

Wir haben es also mit zwei verschiedenen regionalen Titeln des Spiels zu tun, die beide in jede vorstellbare Sprache übersetzt und ebenso in jede der acht Schriften übertragen werden können, die unserer Meinung nach für eine Videospieldatenbank wichtig sind:

  1. Lateinisch
  2. Arabisch
  3. Kyrillisch
  4. Japanisch
  5. Chinesisch
  6. Koreanisch
  7. Griechisch
  8. Hebräisch.

Der erste festhaltenswerte Gedanke ist demnach, dass jeder Text - sei es ein Personenname, ein Spieltitel, eine Spiel- oder Screenshot-Beschreibung oder was auch immer - grundsätzlich in einer bestimmten Sprache und in einer bestimmten Schrift geschrieben ist. Diese Unterscheidung zwischen Sprache und Schrift ist sehr wichtig, weshalb wir nachfolgend nochmals einen Blick auf unser Beispiel werfen wollen, um sie klarzustellen:

TextSchriftSprache
聖剣伝説2JapanischJapanisch
Legend of the Sacred Sword 2LateinischEnglisch
Seiken Densetsu 2LateinischJapanisch
Secret of ManaLateinischEnglisch
マナの秘密JapanischJapanisch
シークリット・オブ・マーナーJapanischEnglisch

Für "normale" Texte wie eine Spielbeschreibung wird wohl keine Transliteration nötig sein. Aber man könnte eventuell zu dem Gedanken kommen, dass für Personen- oder geografische Namen ausschließlich eine Transliteration (und damit nur das Schriftattribut) nötig wäre, was jedoch nicht stimmt. Die "Übersetzung" in andere Sprachen ist auch hier wichtig, das nachfolgende Beispiel soll zeigen, warum:

TextSchriftSprache
Михаил Сергеевич ГорбачёвKyrillischRussisch
Mikhail Sergeyevich GorbachevLateinischEnglisch
Michail Sergeevič GorbačёvLateinischRussisch
Michail Sergejewitsch GorbatschowLateinischDeutsch
東京JapanischJapanisch
TokyoLateinischEnglisch
TōkyōLateinischJapanisch
TokioLateinischDeutsch

Wenn wir hier von Übersetzung sprechen, meinen wir also nicht das Übertragen der Namensbedeutung in die andere Sprache - Tokio würde auf deutsch dann "Östliche Hauptstadt" heißen - sondern schlicht die Benutzung der offiziellen Schreibweise der anderen Sprache.

Rein technisch gesehen bestünde also jedes Textobjekt unserer Datenbank aus n Texten, denen jeweils die zwei Attribute (Schrift, Sprache) zugeordnet wären.

Das sich daraus ergebende nächste Problem wäre dann die Notwendigkeit, aus allen Texten, aus denen unser Textobjekt besteht,  denjenigen herauszupicken, der im gerade bestehenden Kontext angezeigt werden soll. Einige dieser Texte werden für die Videospieldokumentation benötigt, andere wiederum sind rein informell und wieder andere werden für eine bessere Zugänglichkeit des Spiels innerhalb der Datenbank benötigt. Also welcher Text soll nun ausgewählt werden - und wie? Werfen wir einen erneuten Blick auf Secret of Mana:

TextSchriftSprache
聖剣伝説2JapanischJapanisch
Secret of ManaLateinischEnglisch

Diese beiden obigen Texte sind offizielle Veröffentlichungstitel des Spiels in einer bestimmten Region und müssen somit allen Veröffentlichungen zugeordnet werden, die sie benutzen.

TextSchriftSprache
Legend of the Sacred Sword 2LateinischEnglisch
マナの秘密JapanischJapanisch

Diese Texte sind rein informelle Übersetzungen, die beispielsweise einem Benutzer angezeigt werden könnten, wenn er seinen Mauspfeil über den Titel der jeweils anderen Sprache bewegt.

TextSchriftSprache
Seiken Densetsu 2LateinischJapanisch
シークリット・オブ・マーナーJapanischEnglisch

Dies sind Transliterationen der oben genannten offiziellen Veröffentlichungstitel, und damit wichtiger als die informellen Übersetzungen. Seiken Densetsu 2 beispielsweise wird für lateinlesende Benutzer benötigt, die nach japanischen Spielen suchen oder sich komplette Spielelisten in lateinischer Schrift anschauen wollen.

Mit dieser Priorisierung im Hinterkopf stellt sich natürlich schnell die Frage, ob wir einige der Texte, aus denen ein Textobjekt besteht, von Beginn an als "führend" oder "wichtig" kennzeichnen sollten, um sie dann anzuzeigen, wenn kein anderer Kontext spezifiziert wird? Oder sollten wir das gerade nicht tun, unser Textobjekt also im Unklaren über die Wichtigkeit seiner Inhalte lassen, müssten aber dann für jeden Kontext, in dem das Textobjekt benutzt wird, immer den passenden Text hervorkramen?

Schwierige Entscheidung, aber das Bauchgefühl sagt deutlich, dass sich die Kennzeichnung eines Textes als "führend" für die Lösung zukünftiger Probleme als zu unflexibel erweisen dürfte. Gehen wir also zunächst davon aus, dass wir ein solches Textobjekt immer im Kontext benutzen werden und deshalb stets manuell den für diesen Kontext passenden Text heraussuchen müssen.

Wenn wir beispielsweise das oben benannte Textobjekt

聖剣伝説2 (Japanisch, Japanisch)
Legend of the Sacred Sword 2 (Lateinisch, Englisch)
Seiken Densetsu 2 (Lateinisch, Japanisch)

als japanischen Veröffentlichungstitel mit dem betreffenden Spieleintrag verbinden, müssen wir den Text "聖剣伝説2" als den für diese Verbindung relevanten Text kennzeichnen. Andererseits, wenn ein lateinlesender Benutzer eine Liste aller in Japan erschienenen SNES-Spiele benötigt, müssten wir den Text "Seiken Densetsu 2" als den Text auswählen, der auf dieser Liste angezeigt wird.

Das soll es mit einigen Grundlagen zu diesem komplexen Thema gewesen sein, allerdings haben wir eine wichtige Frage der Internationalisierung noch nicht angeschnitten: Wie gehen wir mit den verschiedenen Sprachversionen von Oregami um? Es wird im Vergleich relativ einfach sein, unsere (statischen) Texte der Benutzeroberfläche und Hilfeseiten in eine andere Sprache zu übersetzen. Aber was wird mit den textuellen Daten wie Spiel- oder Screenshot-Beschreibungen? Natürlich werden wir nur dann eine neue Datensprache zulassen, wenn die Oregamigemeinschaft dieser Sprache eine kritische Masse an Benutzern erreicht hat. Aber wie verfahren wir genau, wenn wenn wir weitere Sprachen neben Englisch gestartet haben? Es gibt zwei grundsätzliche Ansätze:

1) Den Wikipedia-Ansatz: Jede Sprache gedeiht für sich allein, mehr oder weniger basierend auf gemeinsamen Standards. Die Qualität der Texte wird sich wohl trotzdem sehr stark von einer Sprache zur anderen unterscheiden.

2) Englisch wird die zentrale Sprache, jeder fremdsprachliche Text wird aus dem und zum Englischen übersetzt. Gemeinsame Standards werden strikt eingehalten. Die Qualität der Texte ist in jeder Sprache vergleichbar.

Meine persönliche Präferenz wäre die zweite Variante, obwohl diese aller Voraussicht nach schwerer umzusetzen sein wird. Die Zeit wird zeigen, wo die Reise letztlich hingeht..