Jerome

Bakgrund

Den Jerome Projektet är trans machina: s flerspråkiga databas och är en central del av sprawk översättningen sviten. Det utgör ett komplext språk nätverk mellan ord och betydelser samt. Till exempel har ordet "fan" flera sammankopplade betydelser ("kyla enhet "," en fanatisk supporter"). Och betyder "en liten rund konditori bakas i ugn" har flera ord även på engelska ("biscuit" och "cookie") beroende på dialekt.

Ord har också länkar till andra ord, till exempel "hund" är kopplad till "hund" eftersom det är pluralformen och "åt" är kopplad till "äta" eftersom det är en preteritum formulär. För närvarande innehåller databasen endast basformerna (singular för substantiv och infinitiv för verb)

Syftet

För att beräkna, registrera och länken i alla ordformer för alla språk.

För substantiv: pluralformer och fall kommer att behöva läggas. Reglerna för att automatiskt generera dessa former kan vara mycket komplexa, men ofta finns på nätet. Transmachina har redan utvecklat Java metoder för att beräkna dessa för våra fokusområden språk.

För verb: tempus för varje person och nummer (t.ex. je suis, tu es, il est, nous sommes, vous ETES, ILS sont). För latinska språk kan detta generera hundratals former per infinitiv. Återigen har Transmachina rutiner för våra viktigaste språken.

För adjektiv: måste kön och plural överenskommelse genereras för de flesta europeiska språk

För adverb: comparativeness behöver genereras (big, bigger, biggest)

Alla genererade blanketter måste länka tillbaka till basen form via ett Word-till-Word Link. Alltså, om vi skulle slå upp ordet " hund "betydelsen" en fyrbent däggdjur "kan nås via basen ordet. Dessutom bör alla bas ord har länkar till alla böjningsform (typen av länken beror på den riktning. Om det är bas-> böjning, är typen böjning, om den är böjningen-> bas är det basformen.)

Word-till-Word länkar har olika typer av åtminstone följande:

  • Böjningskategorin (destinationen Ordet är en böjning av källan Word)
  • basform (destinationen ordet är en bas form av källan Word)
  • alternativ stavning (till exempel "färg" en_US och "colour" [en_UK])
  • borrowed from (Ordet "cafe" [en] är lånat från "café"[Fr])
  • evolved from (Ordet "hund" [en] utvecklats från den germanska "hund")

Dessa kan konfigureras via administrationsgränssnittet av databasen.