Jerome

Hintergrund

Das Hieronymus-Projekt ist transmachina'S mehrsprachigen Datenbank und ist eine Kernkomponente des sprawk Übersetzung Suite. Es stellt eine komplexe Sprache Netzwerk verbindet Wörter und Bedeutungen zusammen. Zum Beispiel hat das Wort "Fan" mehrere Bedeutungen verknüpft ("Kühlvorrichtung "," ein fanatischer Anhänger"). Und die Bedeutung "ein kleiner runder Süßwaren in einem Ofen gebacken" hat mehrere Worte auch in englischer Sprache ("Keks" und "Cookie") je nach Dialekt.

Worte haben auch Links zu anderen Worten, zum Beispiel "Hunde" auf "Hund" verbunden, weil es der Plural ist, und "at" wird im Zusammenhang mit "essen", weil es eine Vergangenheitsform ist. Derzeit enthält die Datenbank nur Grundformen (Singular für Substantive und Verben der Infinitiv für)

Zweck

Um zu berechnen, aufzeichnen und Link in allen Wortformen für alle Sprachen.

Für Substantive: Plural und Fälle müssen hinzugefügt werden. Die Regeln für die automatische Generierung diese Formen können sehr komplex sein, sind aber oft im Internet verfügbar. Transmachina hat bereits Java-Methoden entwickelt, um diese für unser Fokus Sprachen berechnen.

Für Verben: Tempora für jede Person und Zahl (z. B. je suis, tu es, il est, nous sommes, vous etes, ils sont). Für Latin Sprache erzeugen kann dies Hunderte von Formularen pro Infinitiv. Wieder einmal hat Transmachina Routinen für unsere Kern-Sprachen.

Für Adjektive: Geschlecht und Plural Vereinbarung muss für die meisten europäischen Sprachen generiert werden

Für Adverbien: comparativeness erzeugt werden muss (groß, größer, am größten)

Alle generierten Formulare müssen Link zurück auf die Basis-Form über eine Wort-für-Wort-Link. Wenn wir also zum Nachschlagen des Wortes waren " Hunde "die Bedeutung" ein vierbeiniges Säugetier "können über das Grundwort zu erreichen. Auch sollten alle Basis-Wörter haben Links zu allen gebeugte Form (die Art der Verbindung von der Richtung ab. Wenn es Basis-> Wendepunkt ist, ist die Art Wendepunkt, wenn es Flexion-> Basis ist es Grundform.)

Wort-zu-Word-Links haben Typen von mindestens folgende:

  • Flexion (die Ziel-Word ist ein Wendepunkt der Quelle Wort)
  • Grundform (das Ziel Wort ist eine Grundform der Quelle Wort)
  • alternative Schreibweise (zum Beispiel "Farbe" [en_US] und "Farbe" [de_DE])
  • entlehnt aus (das Wort "Cafe" [en] wird von "geliehencafé"[Fr])
  • entwickelte sich aus (das Wort "Jagdhund" [en] entwickelte sich aus dem germanischen "Hund")

Diese können über die Administrationsoberfläche der Datenbank konfiguriert werden.