Registry - The Text+ Catalogue

20 of 94 resources

Lexical Resource

Resource Links

https://regionalsprache.de/sao.aspx

Sprachatlas von Oberösterreich (SAO)

Auf der Homepage des Herausgebers wird das Ziel des SAO wie folgt formuliert: „Der Sprachatlas von Oberösterreich (SAO) versteht sich primär als Teil der wissenschaftlichen Landeskunde Oberösterreichs und will das Wissen über die sprachlichen Grundlagen des Landes erweitern und vertiefen, dieses Wissen der Landesbevölkerung vermitteln und in allgemein verständlicher Weise zugänglich machen und letztlich die Wertschätzung der Dialekte des Landes als Teil oberösterreichischer Geschichte und Kultur verstärken.“

Produktiv

Written

Image

German
Lexical Resource

Resource Links

https://publikationen.badw.de/de/rla

Reallexikon der Assyriologie und vorderasiatischen Archäologie

Produktiv

Written
Lexical Resource

Resource Links

https://mhdwb-online.de

Mittelhochdeutsches Wörterbuch

Das Mittelhochdeutsche Wörterbuch (MWB) ist ein Epochenwörterbuch zum hochmittelalterlichen (Hoch-)Deutsch (1050 bis 1350). Es bearbeitet den Wortschatz und Wortgebrauch des gesamten Spektrums der aus diesem Zeitraum überlieferten deutschsprachigen Texte, des Nibelungenliedes und der klassischen mittelhochdeutschen Epik und Lyrik ebenso wie der deutschsprachigen Urkunden, Rechtsbücher, Chroniken und Sachtexte oder der Werke der deutschsprachigen Mystik. MWB Online bietet neben den digitalen Wortartikeln weiteres Material wie das zugrundeliegende digitale Volltextarchiv, eine vollständige Stichwortliste und das Quellenverzeichnis. Ferner stehen verschiedene APIs zur Verfügung.

Produktiv

Written

German, Middle High (ca.1050-1500)

dictionary
Lexical Resource

Resource Links

https://doi.org/10.14618/wb-elex

https://doi.org/10.14618/wb-elex

elexiko - Online-Wörterbuch zur deutschen Gegenwartssprache

elexiko ist ein Online-Informationssystem zur deutschen Gegenwartssprache, das den Wortschatz der deutschen Sprache anhand von aktuellen Sprachdaten (bis ins Jahr 2013) in einzelnen Modulen dokumentiert, erklärt und wissenschaftlich kommentiert. Es enthält überwiegend Artikel, die nur mit automatisch ermittelten Angaben versehen sind. Die redaktionell bearbeiteten Stichwörter umfassen Einzelwortlemmata sowie Wortgruppenartikel, in denen Gemeinsamkeiten und Unterschiede von zwei oder mehr bearbeiteten Stichwörtern vergleichend beschrieben werden.

IDS

German
Lexical Resource

Resource Links

https://regionalsprache.de/snib.aspx

Sprachatlas von Niederbayern (SNiB)

Das von Hans-Werner Eroms, Birgit Röder und Rosemarie Spannbauer-Pollmann in ihrer Einleitung zum Sprachatlas von Niederbayern (SNiB) formulierte Ziel besteht darin, „die Erforschung des noch gesprochenen, bodenständigen Ortsdialekts, mit seinen eventuell noch vorhandenen kleinräumigen Verteilungen“ (Eroms / Röder / Spannbauer-Pollmann 2006: 18) in Niederbayern durchzuführen. Die 221 Erhebungsorte des SNiB im Gebiet Niederbayern erstrecken sich in nordsüdlicher Richtung von Arnbruck bis Kirchdorf am Inn und in westöstlicher Richtung von Riedenburg bis Breitenberg. Die Daten des SNiB wurden von 1991 bis 1998 erhoben.

Produktiv

Written

Image

German
Lexical Resource

Resource Links

https://hdl.handle.net/hdl:11022/0000-0007-FE0F-C

SentimentWortschatz: eine Sentiment-annotierte Wortliste (v2.0b)

Der SentimentWortschatz, oder kurz SentiWS, ist eine öffentlich verfügbare deutschsprachige Ressource für die Sentiment Analyse, Opinion Mining und ähnliche Zwecke. Dabei werden für enthaltene Wörter die positive und negative Polarität im Intervall [-1; 1] angegeben, sowie deren Wortart und Grundform. Die aktuelle Version des SentiWS enthält ungefähr 16.000 positive und 18.000 negative Wortformen. SentiWS umfasst dabei nicht nur Adjektive und Adverbien die explizit ein Sentiment ausdrücken, sondern auch Nomen und Verben die es implizit beinhalten.

SAW

Produktiv

Written

German

dictionary
Lexical Resource

Resource Links

https://doi.org/10.57754/FDAT.45bfp-kb756

https://doi.org/10.57754/FDAT.45bfp-kb756

GermaNet: Ein lexikalisch-semantisches Wortnetz

GermaNet ist ein lexikalisch-semantisches Wortnetz, das deutsche Nomina, Verben und Adjektive semantisch zueinander in Beziehung setzt, indem es lexikalische Einheiten, die dasselbe Konzept ausdrücken, in Synsets zusammenfasst und semantische Relationen zwischen diesen Synsets definiert. GermaNet hat viel mit dem Englischen WordNet® gemeinsam und kann als ein Online-Thesaurus oder als eine Lightweight-Ontologie betrachtet werden.

TALAR

Written

German

dictionary
Lexical Resource

Resource Links

https://doi.org/10.57754/FDAT.t1hvq-h2t49

https://doi.org/10.57754/FDAT.t1hvq-h2t49

Word embbeddings obtained from decow14ax - 50 dimensional

Word vectors trained using GloVe for the most frequent 1000000 tokens in the decow14ax corpus. See associated paper (Dima, 2015) for description of the training parameters.

TALAR

Beta

Written

German

dictionary
Lexical Resource

Resource Links

https://hdl.handle.net/hdl:11022/0000-0007-FE44-F

https://hdl.handle.net/11022/0000-0007-FE44-F

Lexical and Morphological Ndebele Dictionary

Ein Wörterbuch für Ndebele, ursprünglich erstellt durch das CBOLD-Projekt. CBOLD (Comparative Bantu Online Dictionary) wurde 1994 von Larry Hyman und John Lowe initiiert um eine lexikografische Datenbank zu schaffen, welche die theoretische, deskriptive und historisch-linguistische Erforschung der Sprachen der Bantu-Familie fördern soll. Der in CSV vorliegende Ndebele-Datensatz wurde von der Sächsischen Akademie der Wissenschaften zu Leipzig nach TEI Lex-0 konvertiert.

SAW

Produktiv

Written

English

dictionary
Lexical Resource

Resource Links

https://doi.org/10.57754/FDAT.7casr-x0p36

https://doi.org/10.57754/FDAT.7casr-x0p36

German Adverb-Adjective Phrase Dataset for Compositionality Tests

If you want to use this dataset for research purposes, please refer to the following sources: - Daniël de Kok, Sebastian Pütz. 2019. Stylebook for the Tübingen treebank of dependency-parsed German (TüBa-D/DP). - Corina Dima, Daniël de Kok, Neele Witte, Erhard Hinrichs. 2019. No word is an island — a transformation weighting model for semantic composition. Transactions of the Association for Computational Linguistics. The dataset is distributed under the Creative Commons Attribution NonCommercial (CC-BY-NC) license. The German 23,488 adverb-adjective phrases (split into 16,441 train, 4,701 test, 2,346 dev instances) were extracted from the TüBa-D/DP treebank, which consists of articles from the newspaper taz, the German Wikipedia dump from January 20, 2018 and the German proceedings from the EuroParl corpus (Koehn, 2005; Tiedemann, 2012) and has a size of 64.9M sentences and 1.3B tokens. The dataset was constructed with the help of the dependency annotations of the treebank. To collect the adverb-adjective phrases, head-dependent pairs were extracted that fulfilled the following requirements: - the head is an attributive or predicative adjective and governs the dependent with the adverb relation - the dependent immediately precedes the head The extracted word pairs can have as the first element both real adverbs and adjectives which function as an adverb. The train/test/dev files have the following format, the single parts are separated by space. adverb adjective phrase, where the adverb and the adjective in the phrase are separated by the string _adv_adj_ (e.g. immer leer immer_adv_adj_leer). For results of different composition models on this dataset see Dima et al. (2019), No word is an island — a transformation weighting model for semantic composition. The word representations were trained on the lemmatized TüBa-D/DP treebank with the word2vec package. The embeddings were constructed using the skip-gram model with negative sampling (Mikolov et al., 2013). The embedding size is 200, context size is a symmetric window of 10 words, 25 negative samples were used and a sample probability of 0.0001. Representations were only trained for words and phrases with a minimum frequency of 30 occurrences. The final vocabulary contains 615,908 words. The resulting embeddings are stored in the binary word2vec format in twe-adv-adj.bin, which can be loaded by several packages (e.g. the gensim package of Řehůřek, Radim and Petr Sojka (2010)).

TALAR

Beta

Written

German

dictionary
Lexical Resource

Resource Links

https://regionalsprache.de/wa.aspx

Sprachatlas des Deutschen Reichs (WA)

Die 40.736 Erhebungsorte des WA im Gebiet des Deutsches Reichs um 1880 erstrecken sich in nordsüdlicher Richtung von Bjerndrup im heutigen Dänemark bis Birgsau im heutigen Österreich und in westöstlicher Richtung von Hillensberg bis Wojnasy im heutigen Polen. Die Daten für den WA wurden von 1876–1887 erhoben. Die Erhebung fand in mehreren Phasen statt: Zunächst wurden von April 1876 bis zum Frühjahr 1877 die Wenkerbögen in die Schulorte der Rheinprovinz nördlich der Mosel versandt. 1877 fand eine Westfalen umfassende Erhebung statt und von 1879 bis 1880 wurde ganz Nord- und Mitteldeutschland sprachgeographisch erfasst. Um die Vergleichbarkeit der Ergebnisse zu wahren, wurde 1884 der Fragebogen, der bei der Erhebung in Nord- und Mitteldeutschland verwendet wurde, in das rheinische Gebiet versandt. 1887 wurde schließlich Süddeutschland erfasst. Befragt wurden überwiegend Volksschullehrer aus 40.736 Schulorten des Erhebungsgebietes des WA.

Produktiv

Written

Image

German
Lexical Resource

Resource Links

https://doi.org/10.57754/FDAT.9jj4v-6dj64

https://doi.org/10.57754/FDAT.9jj4v-6dj64

Vector representations of English words and compounds

Word representations used in Dima (2019). The vectors were generated from the concatenated encow14ax (https://corporafromtheweb.org/) and English Wikipedia - Müller and Schutze (2015) version, ~9 billion words of text. The corpus was also pre-processed for compounds, i.e. the compounds from the en-comcom dataset were linked with an underscore and treated as a single word - e.g. 'police car' was rewritten to 'police_car'. Embeddings trained using a minimum word frequency of 100, leading to a vocabulary 424,014 words. The vocabulary words and their frequency in the corpus can be found in the file 'glove_encow14ax_enwiki_9B.400k_min100.vocab'. Word representations with 4 different vector dimensionalities - 50 dimensional, 100 dimensional, 200 dimensional, 300 dimensional. The embeddings were trained with GloVe, for 15 iterations, using a 10-word symmetric window of text (20 words surrounding a particular word). MAX_ITER=15 WINDOW_SIZE=10 BINARY=0 NUM_THREADS=8 X_MAX=100

TALAR

Produktiv

Written

German

dictionary
Lexical Resource

Resource Links

https://doi.org/10.57754/FDAT.kdqzp-82076

https://doi.org/10.57754/FDAT.kdqzp-82076

German Word/Tag Embeddings (Syntactic)

Word and tag embeddings trained on TüDP-D/W and TüPP-D/Z using Wang2Vec.

TALAR

Written

German

dictionary
Lexical Resource

Resource Links

https://doi.org/10.14618/wb-sprw

https://doi.org/10.14618/wb-sprw

Sprichwörterbuch

Das Sprichwörterbuch in OWID (SWB) ist die erste empirisch abgesicherte und nach Kriterien der wissenschaftlichen Lexikografie erarbeitete Onlinedokumentation aktuell gebräuchlicher fester Sätze der deutschen Sprache – im Kern Sprichwörter. Das SWB wurde mithilfe systematischer Korpusanalysen auf der Basis von DeReKo neu erarbeitet und stellt somit keine Fortschreibung tradierter Wörterbücher dar.

IDS

Written

German
Lexical Resource

Mittelhochdeutsches Handwörterbuch von Matthias Lexer

Mittelhochdeutsches Handwörterbuch: zugleich als Supplement und alphabetischer Index zum Mittelhochdeutschen Wörterbuche von Benecke-Müller-Zarncke von Matthias Lexer. 3 Bde. Leipzig: Hirzel. 1872-1878.

TCDH

Written

German, Middle High (ca.1050-1500)

dictionary
Lexical Resource

Resource Links

https://hdl.handle.net/hdl:11022/0000-0007-FC28-1

M. Starosta: Lower Sorbian-German Dictionary 1999 (Digital edition)

Digitale Version des niedersorbisch-deutschen Wörterbuchs von Manfred Starosta, "Dolnoserbsko-nimski słownik / Niedersorbisch-deutsches Wörterbuch" (1999). Dieses in TEI Lex-0 kodierte Wörterbuch wurde im Zuge des INSERT-Projekts aus einer dem Serbski institut / Sorbischen Institut vorliegenden, internen XML-Repräsentation des Quelltexts erstellt.

SAW

Produktiv

Written

Lower Sorbian

German

dictionary
Lexical Resource

Resource Links

https://hdl.handle.net/hdl:11022/0000-0007-FC24-5

A. Muka: Dictionary of the Lower Sorbian Language and Its Dialects 1911-1928 (Digital edition)

Digitale Version des niedersorbisch-deutschen Wörterbuchs von Ernst Muka, "Wörterbuch der nieder-wendischen Sprache und ihrer Dialekte" (1911-1928). Dieses in TEI Lex-0 kodierte Wörterbuch wurde im Zuge des INSERT-Projekts aus einer dem Serbski institut / Sorbischen Institut vorliegenden, internen XML-Repräsentation des Quelltexts erstellt.

SAW

Produktiv

Written

Lower Sorbian

German

dictionary
Lexical Resource

Goethe-Wörterbuch

Goethe-Wörterbuch. Hrsg. Von der Akademie der Wissenschaften der DDR und der Berlin-Brandenburgischen Akademie der Wissenschaften. Stuttgart: Kohlhammer 1978-.

TCDH

Written

German

dictionary
Lexical Resource

Resource Links

https://regionalsprache.de/fischer.aspx

Atlas zur Geographie der schwäbischen Mundarten

Das von Hermann Fischer in seiner Einleitung formulierte Ziel des „Atlas zur Geographie der schwäbischen Mundart“ besteht darin, eine Antwort auf die Frage zu geben, „wie in denjenigen Theilen Deutschlands, welche herkömmlicherweise schwäbisch heissen, beziehungsweise noch in ihrer nächsten Nachbarschaft, heutzutage gesprochen [wird]“ (Fischer 1895a: 1).

Produktiv

Written

Image

German
Lexical Resource

Resource Links

https://doi.org/10.57754/FDAT.k84a2-rpj39

https://doi.org/10.57754/FDAT.k84a2-rpj39

Dutch Adverb-Adjective Phrase Dataset for Compositionality Tests

If you want to use this dataset for research purposes, please refer to the following sources: - Gertjan Van Noord, Gosse Bouma, Frank Van Eynde, Daniël De Kok, Jelmer Van der Linde, Ineke Schuurman, Erik Tjong Kim Sang, and Vincent Vandeghinste. 2013. Large Scale Syntactic Annotation of Written Dutch: Lassy. In Essential Speech and Language Technology for Dutch, pages 147–164. Springer. - Corina Dima, Daniël de Kok, Neele Witte, Erhard Hinrichs. 2019. No word is an island — a transformation weighting model for semantic composition. Transactions of the Association for Computational Linguistics. The dataset is distributed under the Creative Commons Attribution NonCommercial (CC-BY-NC) license. This dataset contains 4,540 Dutch adverb-adjective phrases (3,183 train, 907 test, 450 dev) extracted from the Lassy Large treebank (Van Noord et al., 2013), which consists of written texts (Wikipedia, newspapers) and texts of the medical domain. The dataset was constructed with the help of the dependency annotations of the treebank. To collect the adverb-adjective phrases head-dependent pairs were extracted that fulfilled the following requirements: - the head is an attributive or predicative adjective and governs dependent with the adverb relation - the dependent immediately precedes the head The extracted word pairs can have as the first element both real adverbs and adjectives which function as an adverb. The train/test/dev files have the following format, the single parts are separated by tab. adverb adjective adv-adj_phrase (e.g. zeer moeizaam zeer_adv_adj_moeizaam) For results of different composition models on this dataset see Dima et al. (2019), No word is an island — a transformation weighting model for semantic composition. Word embeddings for all adverbs, adjectives and phrases are stored in the binary word2vec format in lassy-adv-adj.bin, wich can be loaded by several packages (e.g. the gensim package of Řehůřek, Radim and Petr Sojka (2010)). The word embeddings were trained on the lemmatized Lassy Large treebank with the word2vec package. Representations for the adjectives, adverbs and phrases were trained jointly, for the phrase representations the adverb and the adjective were concatenated into a single unit using the separator _adv_adj_. The embeddings were constructed using the skip-gram model with negative sampling (Mikolov et al., 2013). The embedding size is 200, context size is a symmetric window of 10, 25 negative samples were used and a sample probability of 0.0001. Representations were only trained for words and phrases with a minimum frequency of 30 occurrences. The total vocabulary size is 290,704.

TALAR

Beta

Written

German

dictionary