Registry - The Text+ Catalouge

20 of 93 resources

  • Lexical Resource

    Auf der Homepage des Herausgebers wird das Ziel des SAO wie folgt formuliert: „Der Sprachatlas von Oberösterreich (SAO) versteht sich primär als Teil der wissenschaftlichen Landeskunde Oberösterreichs und will das Wissen über die sprachlichen Grundlagen des Landes erweitern und vertiefen, dieses Wissen der Landesbevölkerung vermitteln und in allgemein verständlicher Weise zugänglich machen und letztlich die Wertschätzung der Dialekte des Landes als Teil oberösterreichischer Geschichte und Kultur verstärken.“

  • Lexical Resource

    Der Thesaurus linguae Latinae ist das maßgebliche Wörterbuch des antiken Lateins: Als einziges Lexikon bezieht der Thesaurus alle überlieferten lateinischen Texte von den Anfängen bis 600 n. Chr. ein, berücksichtigt also neben der klassischen Latinität auch ausführlich die Besonderheiten der spätantiken und christlichen Texte. Untersucht werden nicht nur literarische Werke, sondern auch juristische und medizinische Gebrauchstexte, Inschriften, Graffiti und vieles mehr.

  • Lexical Resource

  • Lexical Resource

    Die 40.736 Erhebungsorte des WA im Gebiet des Deutsches Reichs um 1880 erstrecken sich in nordsüdlicher Richtung von Bjerndrup im heutigen Dänemark bis Birgsau im heutigen Österreich und in westöstlicher Richtung von Hillensberg bis Wojnasy im heutigen Polen. Die Daten für den WA wurden von 1876–1887 erhoben. Die Erhebung fand in mehreren Phasen statt: Zunächst wurden von April 1876 bis zum Frühjahr 1877 die Wenkerbögen in die Schulorte der Rheinprovinz nördlich der Mosel versandt. 1877 fand eine Westfalen umfassende Erhebung statt und von 1879 bis 1880 wurde ganz Nord- und Mitteldeutschland sprachgeographisch erfasst. Um die Vergleichbarkeit der Ergebnisse zu wahren, wurde 1884 der Fragebogen, der bei der Erhebung in Nord- und Mitteldeutschland verwendet wurde, in das rheinische Gebiet versandt. 1887 wurde schließlich Süddeutschland erfasst. Befragt wurden überwiegend Volksschullehrer aus 40.736 Schulorten des Erhebungsgebietes des WA.

  • Lexical Resource

    GermaNet ist ein lexikalisch-semantisches Wortnetz, das deutsche Nomina, Verben und Adjektive semantisch zueinander in Beziehung setzt, indem es lexikalische Einheiten, die dasselbe Konzept ausdrücken, in Synsets zusammenfasst und semantische Relationen zwischen diesen Synsets definiert. GermaNet hat viel mit dem Englischen WordNet® gemeinsam und kann als ein Online-Thesaurus oder als eine Lightweight-Ontologie betrachtet werden.

  • Lexical Resource

    Das von Hans-Werner Eroms, Birgit Röder und Rosemarie Spannbauer-Pollmann in ihrer Einleitung zum Sprachatlas von Niederbayern (SNiB) formulierte Ziel besteht darin, „die Erforschung des noch gesprochenen, bodenständigen Ortsdialekts, mit seinen eventuell noch vorhandenen kleinräumigen Verteilungen“ (Eroms / Röder / Spannbauer-Pollmann 2006: 18) in Niederbayern durchzuführen. Die 221 Erhebungsorte des SNiB im Gebiet Niederbayern erstrecken sich in nordsüdlicher Richtung von Arnbruck bis Kirchdorf am Inn und in westöstlicher Richtung von Riedenburg bis Breitenberg. Die Daten des SNiB wurden von 1991 bis 1998 erhoben.

  • Lexical Resource

    elexiko ist ein Online-Informationssystem zur deutschen Gegenwartssprache, das den Wortschatz der deutschen Sprache anhand von aktuellen Sprachdaten (bis ins Jahr 2013) in einzelnen Modulen dokumentiert, erklärt und wissenschaftlich kommentiert. Es enthält überwiegend Artikel, die nur mit automatisch ermittelten Angaben versehen sind. Die redaktionell bearbeiteten Stichwörter umfassen Einzelwortlemmata sowie Wortgruppenartikel, in denen Gemeinsamkeiten und Unterschiede von zwei oder mehr bearbeiteten Stichwörtern vergleichend beschrieben werden.

  • Lexical Resource

    Ein Wörterbuch für Ndebele, ursprünglich erstellt durch das CBOLD-Projekt. CBOLD (Comparative Bantu Online Dictionary) wurde 1994 von Larry Hyman und John Lowe initiiert um eine lexikografische Datenbank zu schaffen, welche die theoretische, deskriptive und historisch-linguistische Erforschung der Sprachen der Bantu-Familie fördern soll. Der in CSV vorliegende Ndebele-Datensatz wurde von der Sächsischen Akademie der Wissenschaften zu Leipzig nach TEI Lex-0 konvertiert.

  • Lexical Resource

    Der SentimentWortschatz, oder kurz SentiWS, ist eine öffentlich verfügbare deutschsprachige Ressource für die Sentiment Analyse, Opinion Mining und ähnliche Zwecke. Dabei werden für enthaltene Wörter die positive und negative Polarität im Intervall [-1; 1] angegeben, sowie deren Wortart und Grundform. Die aktuelle Version des SentiWS enthält ungefähr 16.000 positive und 18.000 negative Wortformen. SentiWS umfasst dabei nicht nur Adjektive und Adverbien die explizit ein Sentiment ausdrücken, sondern auch Nomen und Verben die es implizit beinhalten.

  • Lexical Resource

    Der SentimentWortschatz, oder kurz SentiWS, ist eine öffentlich verfügbare deutschsprachige Ressource für die Sentiment Analyse, Opinion Mining und ähnliche Zwecke. Dabei werden für enthaltene Wörter die positive und negative Polarität im Intervall [-1; 1] angegeben, sowie deren Wortart und Grundform. Die aktuelle Version des SentiWS enthält ungefähr 16.000 positive und 18.000 negative Wortformen. SentiWS umfasst dabei nicht nur Adjektive und Adverbien die explizit ein Sentiment ausdrücken, sondern auch Nomen und Verben die es implizit beinhalten.

  • Lexical Resource

    If you want to use this dataset for research purposes, please refer to the following sources: - Daniël de Kok, Sebastian Pütz. 2019. Stylebook for the Tübingen treebank of dependency-parsed German (TüBa-D/DP). - Corina Dima, Daniël de Kok, Neele Witte, Erhard Hinrichs. 2019. No word is an island — a transformation weighting model for semantic composition. Transactions of the Association for Computational Linguistics. The dataset is distributed under the Creative Commons Attribution NonCommercial (CC-BY-NC) license. The German 23,488 adverb-adjective phrases (split into 16,441 train, 4,701 test, 2,346 dev instances) were extracted from the TüBa-D/DP treebank, which consists of articles from the newspaper taz, the German Wikipedia dump from January 20, 2018 and the German proceedings from the EuroParl corpus (Koehn, 2005; Tiedemann, 2012) and has a size of 64.9M sentences and 1.3B tokens. The dataset was constructed with the help of the dependency annotations of the treebank. To collect the adverb-adjective phrases, head-dependent pairs were extracted that fulfilled the following requirements: - the head is an attributive or predicative adjective and governs the dependent with the adverb relation - the dependent immediately precedes the head The extracted word pairs can have as the first element both real adverbs and adjectives which function as an adverb. The train/test/dev files have the following format, the single parts are separated by space. adverb adjective phrase, where the adverb and the adjective in the phrase are separated by the string _adv_adj_ (e.g. immer leer immer_adv_adj_leer). For results of different composition models on this dataset see Dima et al. (2019), No word is an island — a transformation weighting model for semantic composition. The word representations were trained on the lemmatized TüBa-D/DP treebank with the word2vec package. The embeddings were constructed using the skip-gram model with negative sampling (Mikolov et al., 2013). The embedding size is 200, context size is a symmetric window of 10 words, 25 negative samples were used and a sample probability of 0.0001. Representations were only trained for words and phrases with a minimum frequency of 30 occurrences. The final vocabulary contains 615,908 words. The resulting embeddings are stored in the binary word2vec format in twe-adv-adj.bin, which can be loaded by several packages (e.g. the gensim package of Řehůřek, Radim and Petr Sojka (2010)).

  • Lexical Resource

    Word vectors trained using GloVe for the most frequent 1000000 tokens in the decow14ax corpus. See associated paper (Dima, 2015) for description of the training parameters.

  • Lexical Resource

    Word and tag embeddings trained on TüDP-D/W and TüPP-D/Z using Wang2Vec.

  • Lexical Resource

    Mittelhochdeutsches Handwörterbuch: zugleich als Supplement und alphabetischer Index zum Mittelhochdeutschen Wörterbuche von Benecke-Müller-Zarncke von Matthias Lexer. 3 Bde. Leipzig: Hirzel. 1872-1878.

  • Lexical Resource

    Das von Hermann Fischer in seiner Einleitung formulierte Ziel des „Atlas zur Geographie der schwäbischen Mundart“ besteht darin, eine Antwort auf die Frage zu geben, „wie in denjenigen Theilen Deutschlands, welche herkömmlicherweise schwäbisch heissen, beziehungsweise noch in ihrer nächsten Nachbarschaft, heutzutage gesprochen [wird]“ (Fischer 1895a: 1).

  • Lexical Resource

    Die Datenbank ist das Herzstück von DIBS, sie enthält das gesamte gesammelte und nach unterschiedlichen Kriterien klassifizierte Material. Für die Redaktor-/innen ist sie mit Bearbeitungswerkzeugen ausgestattet, mit deren Hilfe auch die Wortartikel verfasst werden. Das Projekt DIBS ist zwar noch nicht voll entwickelt, doch sollen der Öffentlichkeit das Material der Datenbank und die bereits verfassten Wortartikel nicht vorenthalten werden. Natürlich ist die Datenbank mit einem Schreibschutz versehen. Derzeit enthält die Datenbank ca. 700.000 Sprachbelege, die etwa 40.000 Stichwörtern zugeordnet sind. Die bereits bearbeiteten Artikel sind markiert und mit dem Kürzel der jeweiligen Redaktorin bzw. des jeweiligen Redaktors versehen.

  • Lexical Resource

    Goethe-Wörterbuch. Hrsg. Von der Akademie der Wissenschaften der DDR und der Berlin-Brandenburgischen Akademie der Wissenschaften. Stuttgart: Kohlhammer 1978-.

  • Lexical Resource

    Digitale Version des niedersorbisch-deutschen Wörterbuchs von Manfred Starosta, "Dolnoserbsko-nimski słownik / Niedersorbisch-deutsches Wörterbuch" (1999). Dieses in TEI Lex-0 kodierte Wörterbuch wurde im Zuge des INSERT-Projekts aus einer dem Serbski institut / Sorbischen Institut vorliegenden, internen XML-Repräsentation des Quelltexts erstellt.

  • Lexical Resource

    Das Sprichwörterbuch in OWID (SWB) ist die erste empirisch abgesicherte und nach Kriterien der wissenschaftlichen Lexikografie erarbeitete Onlinedokumentation aktuell gebräuchlicher fester Sätze der deutschen Sprache – im Kern Sprichwörter. Das SWB wurde mithilfe systematischer Korpusanalysen auf der Basis von DeReKo neu erarbeitet und stellt somit keine Fortschreibung tradierter Wörterbücher dar.