Korpus / Textsammlung

Tübinger Baumbank des Englischen/Spontansprache

deu Tübinger Baumbank des Englischen/Spontansprache

eng Tübingen Treebank of Spoken English

deu Die TüBa-E/S-Baumbank wurde im Projekt Verbmobil erstellt. Verbmobil war ein langfristig angelegtes Projekt zur maschinellen Übersetzung von Spontansprache, das vom Bundesministerium für Bildung und Forschung (BMBF) gefördert wurde. Die Tübinger Baumbank des Englischen / Spontansprache (TüBa-E/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transliteriert wurden. Sie umfasst ca. 30.000 Sätze bzw. 310.000 Wörter. Die Annotation erfolgte von Hand. Die syntaktische Annotation basiert auf HPSG-Prinzipien. Das Annotationsschema unterscheidet drei Ebenen syntaktischer Konstituenz: die lexikalische Ebene, die phrasale Ebene und die Satzebene. Zusätzlich zur Konstituentenstruktur sind die Kanten zwischen den Knoten mit Labels annotiert. Diese Kantenlabels beschreiben grammatische Funktionen (als Relationen zwischen Phrasen) sowie die Unterscheidung zwischen Head und Non-Head (phrasenintern).

eng The TüBa-E/S treebank was annotated in the project Verbmobil. Verbmobil was a longterm Machine Translation project for spontaneous speech funded by the Federal Ministry of Education and Research (BMBF). The Tübingen Treebank of Spoken English, TüBa-E/S, is a syntactically annotated corpus based on spontaneous dialogues, which were manually transliterated. The treebank comprises approximately 30 000 sentences (ca. 310 000 words). The syntactic annotation was performed manually. The syntactic annotation is HPSG oriented. The annotation scheme distinguishes three levels of syntactic constituency: the lexical level, the phrasal level, and the clausal level. In addition to constituent structure, annotated trees contain edge labels between nodes. These edge labels encode grammatical functions (as relation between phrases) and the distinction between heads and non-heads (as phrase-internal relations).

3 Ressource(n)

free for academic with user license (license form online accessible); for non-academic use please contact Erhard Hinrichs

für akademische Zwecke kostenlos mit Benutzerlizenz (Formular online zum Download); für nicht akademischen Gebrauch auf Anfrage bei Erhard Hinrichs

c3fc36ff-1d54-4883-bb81-b01c70b6c1d2

65d11ea3-b1b4-451c-b04f-a7162a220608

Zugang via Browser, PID zeigt auf Landing Page der Resource

Textsammlung

data-steward@semsprach.uni-tuebingen.de

corpus

Bundesministerium für Bildung und Forschung (BMBF)

Treebank

Syntactically annotated Corpus

Bundesministerium für Bildung und Forschung (BMBF)

geschrieben

Valia Kordoni

modern

Keine Verknüpfungen gefunden