Repositorium

Veröffentlicht

Grundlegende Informationen

Bevorzugte Bezeichnung

Tübingen Archive of Language Resources

Weitere Bezeichnung(en)

Tübingen Archive of Language Resources eng

TALAR deu

Beschreibung

The data of the Tübingen Archive of Language Resources (TALAR) include corpora for spoken and written language that are annotated at different levels of linguistic analysis: morphology, syntax and... The data of the Tübingen Archive of Language Resources (TALAR) include corpora for spoken and written language that are annotated at different levels of linguistic analysis: morphology, syntax and semantics. In addition, TALAR hosts lexical resources that are closely linked to other lexical and textual resources represented in Text+. The corpora and lexical resources are indispensable for data-driven research in both theoretical and computational linguistics. The annotations include various grammatical frameworks and adhere to the coding standards widely used in the community as well as the coding standards of the International Standards Organization (ISO). The TALAR data repository has been certified by the Core Trust Seal (CTS) and it has standardized protocols for data ingest. TALAR hosts a collection of widely used syntactically annotated corpora, the so-called TüBa treebanks for German, English and Japanese. In addition, it gives access to a large number of externally developed treebanks as part of the Universal Dependencies project. All linguistically annotated corpora of the UniTÜ can be searched for and visualized with TüNDRA (Tübingen Annotated Data Retrieval Application), our in-house web application. Also, access to these resources is granted via CLARIN's and Text+'s Federated Content Search. In addition to the linguistically annotated corpora, the UniTÜ offers data services in the form of vector space word representations and associated software tools. It also offers software services for the incremental annotation of external text corpora via the virtual research environment WebLicht. Among other things, WebLicht enables the automatic enrichment of text corpora with name-entity recognition based on deep learning tools and can thus be used as a tool for the automatic enrichment of unstructured data and subsequent linking with authority data as well as linked open data. The lexical resources are closely linked to other lexical and textual resources and are interoperable with them. The valency dictionary of German verbs was derived from large text corpora and is therefore linked to corpus data. GermaNet is a lexical database of word meanings for contemporary German nouns, verbs and adjectives, which is directly linked to wordnets of more than fifty languages of the world via an interlingual index. In addition to other wordnets, GermaNet is linked to other digital resources such as Wikipedia and Wiktionary. Taken together, they provide a principled basis for assessing lexical similarity and dissimilarity. These two concepts are essential for psycho- and neurolinguistic research as well as for topic modeling and semantic search in a broad spectrum of disciplines ranging from applications in computer science to literary research. Examples include author identification and genre classification as well as semantic searches for dictionary data or large metadata collections. In addition to the academic sector, GermaNet is also in great demand for industrial applications. Furthermore, the linking of word senses via semantic relationships provides an ideal starting point for the conversion of wordnet data into linked open data formats and for easy integration into knowledge graphs. Accordingly, mapping GermaNet to linked open data and knowledge graphs will add significant value to Text+ and provide a direct data bridge to other NFDI consortia. eng

Die Datenressourcen von TALAR (Tübingen Archive for Language Resources) der Universität Tübingen umfassen Korpora für gesprochene Sprache und geschriebene Texte, die auf verschiedenen Ebenen der li... Die Datenressourcen von TALAR (Tübingen Archive for Language Resources) der Universität Tübingen umfassen Korpora für gesprochene Sprache und geschriebene Texte, die auf verschiedenen Ebenen der linguistischen Annotation von Morphologie, Syntax und Semantik annotiert werden. Dazu kommen lexikalischen Ressourcen, die eng verbunden sind mit anderen lexikalischen und textuellen Ressourcen aus dem Text+ Konsortium. Die Korpora und lexikalischen Ressourcen sind für die datengetriebene Forschung sowohl in der theoretischen Linguistik als auch in der Computerlinguistik unverzichtbar. Die Annotationen umfassen verschiedene grammatikalische Rahmen und halten sich an die in der Gemeinschaft weit verbreiteten Kodierungsstandards sowie an die Kodierungsstandards der International Standards Organization (ISO). Diese Ressourcen sind im TALAR-Datenrepository untergebracht, das mit dem Core Trust Seal (CTS) zertifiziert wurde und standardisierte Protokolle für den Daten-Ingest von externen Datenressourcen entwickelt hat. TALAR beherbergt eine Sammlung von weit verbreiteten syntaktisch annotierten Korpora, die so genannten TüBa-Baumbanken für Deutsch, Englisch und Japanisch. Darüber hinaus enthält TALAR eine große Anzahl extern entwickelter Treebanks im Rahmen der Universal Dependencies. Alle sprachlich annotierten Korpora der UniTÜ können mit der Webanwendung TüNDRA (Tübingen Annotated Data Retrieval Application) durchsucht und visualisiert werden und sind auch über die CLARIN und Text+ Federated Content Search zugänglich. Zusätzlich zu den sprachlich annotierten Korpora bietet die UniTÜ Datendienste in Form von Vektorraum-Wortdarstellungen und zugehörigen Softwaretools an. Darüber hinaus bietet UniTü Softwaredienste für die inkrementelle Annotation externer Textkorpora über die virtuelle Forschungsumgebung WebLicht an. WebLicht ermöglicht u.a. die automatische Anreicherung von Textkorpora mit einer Names-Entity-Erkennung auf der Basis von Deep-Learning-Tools und kann somit als Werkzeug für die automatische Anreicherung unstrukturierter Daten und die anschließende Verknüpfung mit Autoritätsdaten sowie verknüpften offenen Daten genutzt werden. Die lexikalischen Ressourcen sind eng mit anderen lexikalischen und textuellen Ressourcen verbunden und mit ihnen interoperabel. Das Valenzwörterbuch der deutschen Verben wurde aus großen Textkorpora abgeleitet und ist daher mit Korpusdaten verknüpft. GermaNet ist eine lexikalische Datenbank der Wortbedeutungen für zeitgenössiche deutsche Substantive, Verben und Adjektive, die über einen interlingualen Index direkt mit Wortnetzen von mehr als fünfzig Sprachen der Welt verbunden ist. Neben anderen Wortnetzen ist GermaNet mit anderen digital entstandenen Ressourcen wie Wikipedia und Wiktionary verknüpft. Zusammengenommen bieten sie eine solide Grundlage für die Beurteilung lexikalischer Ähnlichkeit und Unähnlichkeit. Diese beiden Begriffe sind sowohl für die psycho- und neurolinguistische Forschung als auch für die Themenmodellierung und die semantische Suche in einem breiten Spektrum von Disziplinen, das von Anwendungen in der Informatik bis hin zur literaturwissenschaftlichen Forschung reicht, unerlässlich. Hier sind z.B. Autorenidentifizierung und Genreklassifizierung sowie die semantische Suche nach Wörterbuchdaten oder nach großen Metadatensammlungen zu nennen. Neben dem akademischen Bereich ist GermaNet auch für industrielle Anwendungen sehr gefragt. Darüber hinaus bietet die Verknüpfung der Wortsinne über semantische Beziehungen einen idealen Ausgangspunkt für die Konvertierung von Wortnetzdaten in verknüpfte offene Datenformate und für die einfache Integration in Wissensgraphen. Dementsprechend wird das Mapping von GermaNet auf verknüpfte offene Daten und Wissensgraphen einen erheblichen Mehrwert für Text+ bieten und eine direkte Datenbrücke zu anderen NFDI-Konsortien bilden. deu

Text+ Datendomäne(n)

Collections

Lexikalische Ressourcen

Text+ Branding vorhanden

nicht vorhanden

Hinweise zu Text+ Branding

in Arbeit

Plattform

Invenio

Art des Repositoriums

disciplinary

Personen & Institution

Betreiber

institutionelles Rechenzentrum oder andere zentrale Einrichtung der Text+ beteiligten Institution

Kontakt E-Mail-Adresse(n)

data-steward@semsprach.uni-tuebingen.de

Beteiligte Personen

Person

Trippel; Thorsten; Diss. Fakultät für Linguistik und Literaturwissenschaft der Univ. Bielefeld; ; seit Oktober 2021 wissenschaftlicher Mitarbeiter am Leibniz-Institut für Deutsche Sprache; https://d-nb.info/gnd/132884755

Bezug

Wissenschaftliche Ansprechperson

Anmerkungen

Person

Bezug

Administrative Contact

Anmerkungen

Person

Zinn; Claus; https://d-nb.info/gnd/173732410

Bezug

Data Steward

Anmerkungen

Person

datenschutz@uni-tuebingen.de

Bezug

Privacy

Anmerkungen

Beteiligte Institutionen

Institution

Eberhard Karls Universität Tübingen; https://d-nb.info/gnd/36187-2; staatliche deutsche Universität in Baden-Württemberg (gegründet 1477)

Bezug

Verantwortliche Institution

Anmerkungen

Repositorium

Zugang (URI/IRI)

OAI-PMH Schnittstelle (URI/IRI)

https://textplus.sfs.uni-tuebingen.de:8088/api/oai?verb=Identify

FCS Schnittstelle (URI/IRI)

https://weblicht.sfs.uni-tuebingen.de/tundra-treebank-fcs-endpoint/fcs-endpoint/

https://textplus.sfs.uni-tuebingen.de:8008/api/sru

Weitere Schnittstellen

Mission Statement (URI/IRI)

Beschreibung Ingest-Prozess (URI/IRI)

Zertifizierung

Core Trust Seal

Ausstellungsjahr des Zertifikats

2023

Zertifikat (URI/IRI)

http://www.sfs.uni-tuebingen.de/ascl/clarin-center/repository.html

Verwendete(s) Metadatenschema(s)

Dublin Core

DataCite

CMDI

PIDs

DOI

Nutzungsmonitoring

Kontext

Adressierte Fachcommunit(y/ies)

Klassische Philologie

Allgemeine und Vergleichende Sprachwissenschaft, Typologie, Außereuropäische Sprachen

Einzelsprachwissenschaften

Ling: Anglistik/Amerikanistik

Ling: Romanistik

Ling: Slavistik

Ling: Andere

Informatik

Objektsprache(n)

Deutsch (deu)

Englisch (eng)

Art der Daten

aggregated data

Daten

Akzeptierte Datentypen

Wortnetze

Media / Mime Typ

application/xml

Datenschema (URI/IRI)

https://uni-tuebingen.de/fakultaeten/philosophische-fakultaet/fachbereiche/neuphilologie/seminar-fuer-sprachwissenschaft/arbeitsbereiche/allg-sprachwissenschaft-computerlinguistik/ressourcen/lexica...

Präferiert

Akzeptierte Datentypen

Korpora für besondere Zwecke

Media / Mime Typ

application/xml

Datenschema (URI/IRI)

https://github.com/weblicht/tcf-spec/blob/master/src/main/rnc-schema/textcorpus_5.rnc

Präferiert

Registry Metadaten

Ressource (neueste Version)

48ad519f-5023-481a-82eb-8e701fda1dee

Dargestellte Version

681da718db0dfd74bb485d3e

Zeitstempel der Version

9. Mai 2025, 08:56:24

Ersteller*in der Version

0000-0002-6067-5451

Versionen

Ressource erzeugt

4. Februar 2025, 11:16:29

Repositorium

Grundlegende Informationen

Personen & Institution

Trippel; Thorsten; Diss. Fakultät für Linguistik und Literaturwissenschaft der Univ. Bielefeld; ; seit Oktober 2021 wissenschaftlicher Mitarbeiter am Leibniz-Institut für Deutsche Sprache; https://d-nb.info/gnd/132884755 Wissenschaftliche Ansprechperson

Trippel; Thorsten; Diss. Fakultät für Linguistik und Literaturwissenschaft der Univ. Bielefeld; ; seit Oktober 2021 wissenschaftlicher Mitarbeiter am Leibniz-Institut für Deutsche Sprache; https://d-nb.info/gnd/132884755 Administrative Contact

Zinn; Claus; https://d-nb.info/gnd/173732410 Data Steward

datenschutz@uni-tuebingen.de Privacy

Eberhard Karls Universität Tübingen; https://d-nb.info/gnd/36187-2; staatliche deutsche Universität in Baden-Württemberg (gegründet 1477) Verantwortliche Institution

Repositorium

Kontext

Korpora für besondere Zwecke application/xml https://github.com/weblicht/tcf-spec/blob/master/src/main/rnc-schema/textcorpus_5.rnc Ja

Registry Metadaten