Sprache Analysis

Jetzt, da wir ein grundlegendes der Einheiten der Sprache zu verstehen haben, können wir beginnen zu untersuchen, wie ein Computer sie verarbeiten kann. Luger und Stubblefield (1998) identifizieren mehrere wichtige Analysemethoden für Sprachverstehen:

Linguisten haben klassischerweise die Verwendung starrer strukturierte Analyse Techniken wie Grammatik bevorzugt und Wort, um Sprache zu lernen. Computer-Wissenschaftler haben herausgefunden, dass diese Technik nicht möglich genügend Flexibilität, um "ungrammatisch Sätze", Slang und verstümmelt Eingaben verarbeiten. So AI Forschungen haben andere Ansätze etabliert.

Sie sind flexibler Datenstrukturen und parallel Parsing-Techniken, die mehrere Analyse-Techniken gleichzeitig ausgeführt werden können eingeführt, während die Bündelung ihrer Ergebnisse.

Die Produktion Regeln (WENN-DANN-Regeln auf Logik basiert, die ein gewisses Verständnis für Texteingabe zu ermöglichen, abgeleitet werden kann) und semantische Netze wurden verwendet, um eine größere Verarbeitungs-Möglichkeiten erreichen.

Semantische Netze Netze sind eine allgemeine gegenständliche Technik und sie werden in NLP für verschiedene Zwecke verwendet (Beardon et al, 1991). Einer der mächtigsten ist die Darstellung von Typ Hierarchien (oder Wissen Hierarchien ), die uns, die Eigenschaften anderer Objekte durch einen Prozess der Vererbung erfassen lassen. Siehe ein graphische BEISPIELE.

All diese Techniken führen zu dem gleichen Fokus: die Notwendigkeit, der Lage sein, Eingabesprache und festzustellen, wie viele Fakten wie möglich bearbeiten. Einige gemeinsame Verarbeitung Ziele sind die Bestimmung:

  • Welche Objekte wurden beteiligt
  • Was aufgetreten
  • wenn es aufgetreten
  • was war das Ergebnis

Morphologie

Morphologie-Analyse hilft bei der Bestimmung die Verwendung eines Wortes in einem Satz durch die Analyse der Wirkung von Prä-und Suffixe, damit die Informationen über angespannt, Anzahl und Wortart.

Die morphologische Analyse

Eine morphologische Analyse bedeutet Verarbeitung Wortformen ohne Rücksicht auf Kontext. Word-Formular wird definiert durch Popov als "jener Teil eines Textes, der zwischen zwei Rohlinge (Satzzeichen werden ebenfalls als Wortformen) liegt".

Normale Schritte in MA

  1. Suche nach einer Wortform im Wörterbuch
  2. Unterscheiden der Schaft des Wortes
  3. die Suche nach dem Stamm im Wörterbuch der Stiele
  4. Wort-Kombination Verarbeitung
  5. Pre-Syntax

Bei den meisten europäischen Sprachen ist Satzanalyse traditionell in morphologischen, syntaktischen und semantischen Analysen geteilt. Die Analyse der asiatischen Sprache ist ein ganz anderes und schwieriges Verfahren aufgrund der Struktur der beiden Sprachen.

Der Prozessor basiert Ziele oder Ziele für die Analyse gegeben. Gemeinsame Ziele sind:

  1. Weise kenntlich gemacht
  2. Bestimmung solche, die auf Ereignisse entsprechen
  3. Unterscheiden und Verarbeiten von nominalen Gruppen

Grammatik und Syntax

Die Regeln der Grammatik kann uns Informationen über die stattfindenden Veranstaltungen. Wir können feststellen, wie viele Objekte betroffen waren und ob die Aktion stattgefunden hat in der Vergangenheit, findet in der Zukunft oder nur eine Chance hat, passiert. Denn Sprache ist unscharf, können die klassische Sprache Analyse-Techniken nicht die Tiefe des Verständnisses, dass die Menschen zu erreichen. Die Grammatik ist aber ein Weg, um für eine Maschine, um näher an diesem Verständnis zu bekommen.

Sofortige Bestandteil-Analyse (IC)

Diese Art der Analyse wurde von Bloomfield (Pionier Crystal, 1971 ), die, wie Sie einen Satz nehmen dargestellt und aufgeteilt in zwei unmittelbaren Konstituenten. Zum Beispiel verwendet er den Satz Poor John ran away. Er unterteilt diese ersten bis zu einem Subjekt und einem Prädikat:

Thema: Armer John
Prädikat: weggelaufen

Im Gegenzug gab es bis in arm und John gespalten, und rannte weg und. So war er einer der ersten, die den Satz nicht als eine Sequenz zu sehen, aber als eine Folge von Schichten auf Bestandteile. So Baumdiagramme begann für die visuelle Sprache Verweis auf Struktur verwendet werden.

Stärken: gibt einen Anfang Blick auf die Struktur der Sprache
Schwächen: es ist nicht der Ansicht grammatischen Beziehungen.

Kann nicht zwischen aktiven und passiven Sätzen sagen, zeigt nicht, dass "Dieser Mann Johns Mutter sah" und "Johns Mutter wurde durch einen Mann gesehen," sind fast die gleichen.

'Deep' Syntax

Tief Syntax ist ein viel besserer Weg, um einen Satz zu stellen. Tief Syntaxbäume (siehe unten) ermöglichen die Lagerung in einer systematischeren Weise und flexibel. Ihre Struktur macht es möglich, einfache Umwandlungen zwischen passiven und aktiven, zwischen verschiedenen Zeiten, und sie erleichtern auch Übersetzungen in andere Sprachen.

Eine tiefe Syntaxbaum

Eine tiefe Syntax-Baum für den Satz - "John scheint die Antwort wissen"

Semantik

Im Allgemeinen ist die Untersuchung der Semantik dh. Eine Maschine muss in allen Einzelheiten zu analysieren, alle eingegebenen Daten, um einen Sinn daraus abzuleiten. Es muss trennen Sie den Satz ins syntaktische Komponenten, Schicht für Schicht. Oft gibt es mehr als eine mögliche Bedeutung aus dem Satz und so eine Maschine müssen entweder durch Erfahrungen, Heuristiken oder durch die Bestimmung der am besten geeigneten Sinn nach den Sätzen davor und danach erraten. So, weil eine Maschine muss berücksichtigt nicht nur die Bedeutung des Satzes, sondern auch der breiten Diskurs mehr, würde es brauchen, um Multiple-Analyse unterstützen.

Pragmatik

Im weitesten Sinne ist die Pragmatik die Art und Weise, dass die Einstellung des Satzes in einem Diskurs verwendet wird, um die korrekte Auslegung zu ermitteln. Die wichtigsten Merkmale der Pragmatik sind Kontext und Referenz. Diese werden später diskutiert werden unter Inference.