20 von 71 Ressourcen
Lexikalische Ressource
Der Thesaurus linguae Latinae ist das maßgebliche Wörterbuch des antiken Lateins: Als einziges Lexikon bezieht der Thesaurus alle überlieferten lateinischen Texte von den Anfängen bis 600 n. Chr. ein, berücksichtigt also neben der klassischen Latinität auch ausführlich die Besonderheiten der spätantiken und christlichen Texte. Untersucht werden nicht nur literarische Werke, sondern auch juristische und medizinische Gebrauchstexte, Inschriften, Graffiti und vieles mehr.
Lexikalische Ressource
If you want to use this dataset for research purposes, please refer to the following sources: - Gertjan Van Noord, Gosse Bouma, Frank Van Eynde, Daniël De Kok, Jelmer Van der Linde, Ineke Schuurman, Erik Tjong Kim Sang, and Vincent Vandeghinste. 2013. Large Scale Syntactic Annotation of Written Dutch: Lassy. In Essential Speech and Language Technology for Dutch, pages 147–164. Springer. - Corina Dima, Daniël de Kok, Neele Witte, Erhard Hinrichs. 2019. No word is an island — a transformation weighting model for semantic composition. Transactions of the Association for Computational Linguistics. The dataset is distributed under the Creative Commons Attribution NonCommercial (CC-BY-NC) license. The 83,392 Dutch adjective-noun phrases (58,347 train, 16,669 test, 8,376 dev) from this dataset were extracted from the Lassy Large treebank (Van Noord et al., 2013), which consists of written texts (Wikipedia, newspapers) and texts of the medical domain. The train/test/dev files have the following format, the single parts are separated by tab. adjective noun adj-noun phrase, where the adjective and the noun in the phrase are separated by the string _adj_n_ (e.g. politiek verlof politiek_adj_n_verlof). For results of different composition models on this dataset see Dima et al. (2019) , No word is an island — a transformation weighting model for semantic composition. The word embeddings were trained on the same treebank and the training corpus consists of 47.6M sentences and 700M tokens. Because adjectives and nouns are separate words, they were concatenated into a single unit (using the separator _adj_n_) for training the phrase representations. The embeddings were learned with the skip-gram model with negative sampling (Mikolov et al., 2013) from the word2vec package. The embedding size is 200, context size is a symmetric window of 10, 25 negative samples were used and a sample probability of 0.0001. Representations were only trained for words and phrases with a minimum frequency of 30 occurrences. The embeddings are stored in the binary word2vec format in lassy-adjn-lemmas.bin, which can be loaded by several packages (e.g. the gensim package of Řehůřek, Radim and Petr Sojka (2010)). The vocabulary contains 355,236 words.
Lexikalische Ressource
The ENglish COMpositionality dataset containing COMpounds (en-comcom) was constructed from two existing compound datasets - the Tratz (2011) dataset and the Ó'Séaghdha (2008) dataset - and a selection of the nominal compounds in the WordNet database. The Tratz (2011) dataset contains 19158 compounds and is part of the semantically-enriched parser described in Tratz (2011) available at http://www.isi.edu/publications/licensed-sw/fanseparser/ The Ó'Séaghdha (2008) contains 1443 compounds and is available at http://www.cl.cam.ac.uk/~do242/Resources/1443_Compounds.tar.gz Additional compounds were collected from the WordNet 3.1 (Fellbaum, 1998) 'data.noun' file. The extracted list contained 18775 compounds. The combination of compounds from the three sources was additionaly pre-processed and frequency-filtered - details in Dima (2019). The final dataset has 27220 compounds. The train, test and dev splits contain 19054, 5444 and 2722 compounds. The train/test/dev files have the following format: modifier head compound (e.g. police car police_car) For results of compositionality models evaluated on this dataset see Dima (2016), Dima (2019). Dima, Corina. 2015. Reverse-engineering Language: A Study on the Semantic Compositionality of German Compounds. In Proceedings of EMNLP 2015, Lisbon, Portugal, pp. pp. 1637–1642 [Download paper: https://aclweb.org/anthology/D/D15/D15-1188.pdf] - Dima, C. 2016. On the Compositionality and Semantic Interpretation of English Noun Compounds. In Proceedings of the 1st Workshop on Representation Learning for NLP @ ACL 2016, pages 27–39, Berlin, Germany. - Dima, C. 2019. Composition Models for the Representation and Semantic Interpretation of Nominal Compounds. PhD thesis. University of Tübingen. - Fellbaum, C. 1998. WordNet. Wiley Online Library. - Ó Séaghdha, D. 2008. Learning compound noun semantics. PhD thesis, Computer Laboratory, University of Cambridge. Published as University of Cambridge Computer Laboratory Technical Report 735. - Tratz, S. 2011. Semantically-enriched parsing for natural language understanding. PhD thesis, PhD Thesis, University of Southern California.
Lexikalische Ressource
If you want to use this code for research purposes, please refer to the following sources: - Daniël de Kok, Sebastian Pütz. 2019. Stylebook for the Tübingen treebank of dependency-parsed German (TüBa-D/DP). - Corina Dima, Daniël de Kok, Neele Witte, Erhard Hinrichs. 2019. No word is an island — a transformation weighting model for semantic composition. Transactions of the Association for Computational Linguistics. The dataset is distributed under the Creative Commons Attribution NonCommercial (CC-BY-NC) license. The 119,434 German adjective-noun phrases in this dataset (splits: 83,603 train, 23,887 test, 11,944 dev instances) were extracted automatically from the TüBa-D/DP treebank. The treebank is composed of three different parts: 1) articles from the German newspaper taz; 2) the German Wikipedia dump from January 20, 2018; 3) German proceedings from the EuroParl corpus (Koehn, 2005; Tiedemann, 2012). The treebank consists of 64.9M sentences and 1.3B tokens. The train/test/dev files have the following format, single parts are separated by space: adjective noun adj-noun phrase, where the adjective and the noun of the phrase are separated by the string _adj_n_ (e.g. kritisch Film kritisch_adj_n_Film). The phrases were extracted with the part-of-speech tag information provided by the treebank. For results of different composition models on this dataset see Dima et al. (2019), No word is an island — a transformation weighting model for semantic composition. The embeddings for all words and phrases in this dataset are stored in the word2vec format in twe-adj-n.bin. This format can be loaded by several packages (e.g. the gensim package of Řehůřek, Radim and Petr Sojka (2010)). The embeddings for the adjectives, nouns and phrases were trained jointly on the lemmatized version of the TüBa-D/DP treebank, using the word2vec package (Mikolov et al. 2013). The word embeddings were trained with the skipgram model with negative sampling, a symmetric window of 10 as context size, 25 negative samples per positive training instance and a sample probability threshold of 0.0001. The resulting embeddings have a dimension of 200 and the vocabulary contains 476,137 words in total. The minimum frequency cut-off was set to 50 for all words.
Lexikalische Ressource
Meyers Großes Konversations-Lexikon. Ein Nachschlagewerk des allgemeinen Wissens von Josef Meyer. 22 Bde. 6., gänzlich neubearbeitete und vermehrte Auflage, Leipzig/Wien 1905-1909.
Lexikalische Ressource
digitale Version des Wörterbuchs der deutschen Gegenwartssprache (WDG, 1967–1977)
Lexikalische Ressource
Rheinisches Wörterbuch. Im Auftrag der Preußischen Akademie der Wissenschaften, der Gesellschaft für Rheinische Geschichtskunde und des Provinzialverbandes der Rheinprovinz auf Grund der von Johannes Franck begonnenen, von allen Kreisen des Rheinischen Volkes unterstützten Sammlung bearbeitet und herausgegeben von Josef Müller, Heinrich Dittmaier, Rudolf Schützeichel und Mattias Zender. 9 Bände. Bonn/Berlin 1928–1971.
Lexikalische Ressource
Word vectors trained using GloVe for the most frequent 1000000 tokens in the decow14ax corpus. See associated paper (Dima, 2015) for description of the training parameters.
Lexikalische Ressource
Digitale Version des niedersorbisch-deutschen Wörterbuchs von Bogumił Šwjela und Alfred Mitaš (ed.), "Dolnoserbsko-němski słownik" (1961). Dieses in TEI Lex-0 kodierte Wörterbuch wurde im Zuge des INSERT-Projekts aus einer dem Serbski institut / Sorbischen Institut vorliegenden, internen XML-Repräsentation des Quelltexts erstellt.
Lexikalische Ressource
Wörterbuch der deutsch-lothringischen Mundarten. Bearbeitet von Ferdinand Follmann. Leipzig 1909. [Nachdruck, Vaduz/Liechtenstein 2002].
Lexikalische Ressource
Wörterbuch der elsässischen Mundarten. Bearbeitet von Ernst Martin und Hans Lienhart. Im Auftrage der Landesverwaltung von Elsaß-Lothringen. 2 Bände. Straßburg 1899–1907. [Nachdruck Berlin/New York 1974].
Lexikalische Ressource
Erhebungsbögen des Deutschen Wortatlas
Lexikalische Ressource
If you want to use this dataset for research purposes, please refer to the following sources: - Daniël de Kok, Sebastian Pütz. 2019. Stylebook for the Tübingen treebank of dependency-parsed German (TüBa-D/DP). - Corina Dima, Daniël de Kok, Neele Witte, Erhard Hinrichs. 2019. No word is an island — a transformation weighting model for semantic composition. Transactions of the Association for Computational Linguistics. The dataset is distributed under the Creative Commons Attribution NonCommercial (CC-BY-NC) license. The German 23,488 adverb-adjective phrases (split into 16,441 train, 4,701 test, 2,346 dev instances) were extracted from the TüBa-D/DP treebank, which consists of articles from the newspaper taz, the German Wikipedia dump from January 20, 2018 and the German proceedings from the EuroParl corpus (Koehn, 2005; Tiedemann, 2012) and has a size of 64.9M sentences and 1.3B tokens. The dataset was constructed with the help of the dependency annotations of the treebank. To collect the adverb-adjective phrases, head-dependent pairs were extracted that fulfilled the following requirements: - the head is an attributive or predicative adjective and governs the dependent with the adverb relation - the dependent immediately precedes the head The extracted word pairs can have as the first element both real adverbs and adjectives which function as an adverb. The train/test/dev files have the following format, the single parts are separated by space. adverb adjective phrase, where the adverb and the adjective in the phrase are separated by the string _adv_adj_ (e.g. immer leer immer_adv_adj_leer). For results of different composition models on this dataset see Dima et al. (2019), No word is an island — a transformation weighting model for semantic composition. The word representations were trained on the lemmatized TüBa-D/DP treebank with the word2vec package. The embeddings were constructed using the skip-gram model with negative sampling (Mikolov et al., 2013). The embedding size is 200, context size is a symmetric window of 10 words, 25 negative samples were used and a sample probability of 0.0001. Representations were only trained for words and phrases with a minimum frequency of 30 occurrences. The final vocabulary contains 615,908 words. The resulting embeddings are stored in the binary word2vec format in twe-adv-adj.bin, which can be loaded by several packages (e.g. the gensim package of Řehůřek, Radim and Petr Sojka (2010)).
Lexikalische Ressource
GermaNet ist ein lexikalisch-semantisches Wortnetz, das deutsche Nomina, Verben und Adjektive semantisch zueinander in Beziehung setzt, indem es lexikalische Einheiten, die dasselbe Konzept ausdrücken, in Synsets zusammenfasst und semantische Relationen zwischen diesen Synsets definiert. GermaNet hat viel mit dem Englischen WordNet® gemeinsam und kann als ein Online-Thesaurus oder als eine Lightweight-Ontologie betrachtet werden.
Lexikalische Ressource
Ein Wörterbuch für Ndebele, ursprünglich erstellt durch das CBOLD-Projekt. CBOLD (Comparative Bantu Online Dictionary) wurde 1994 von Larry Hyman und John Lowe initiiert um eine lexikografische Datenbank zu schaffen, welche die theoretische, deskriptive und historisch-linguistische Erforschung der Sprachen der Bantu-Familie fördern soll. Der in CSV vorliegende Ndebele-Datensatz wurde von der Sächsischen Akademie der Wissenschaften zu Leipzig nach TEI Lex-0 konvertiert.
Lexikalische Ressource
Der SentimentWortschatz, oder kurz SentiWS, ist eine öffentlich verfügbare deutschsprachige Ressource für die Sentiment Analyse, Opinion Mining und ähnliche Zwecke. Dabei werden für enthaltene Wörter die positive und negative Polarität im Intervall [-1; 1] angegeben, sowie deren Wortart und Grundform. Die aktuelle Version des SentiWS enthält ungefähr 16.000 positive und 18.000 negative Wortformen. SentiWS umfasst dabei nicht nur Adjektive und Adverbien die explizit ein Sentiment ausdrücken, sondern auch Nomen und Verben die es implizit beinhalten.
Lexikalische Ressource
Der SentimentWortschatz, oder kurz SentiWS, ist eine öffentlich verfügbare deutschsprachige Ressource für die Sentiment Analyse, Opinion Mining und ähnliche Zwecke. Dabei werden für enthaltene Wörter die positive und negative Polarität im Intervall [-1; 1] angegeben, sowie deren Wortart und Grundform. Die aktuelle Version des SentiWS enthält ungefähr 16.000 positive und 18.000 negative Wortformen. SentiWS umfasst dabei nicht nur Adjektive und Adverbien die explizit ein Sentiment ausdrücken, sondern auch Nomen und Verben die es implizit beinhalten.
Lexikalische Ressource
elexiko ist ein Online-Informationssystem zur deutschen Gegenwartssprache, das den Wortschatz der deutschen Sprache anhand von aktuellen Sprachdaten (bis ins Jahr 2013) in einzelnen Modulen dokumentiert, erklärt und wissenschaftlich kommentiert. Es enthält überwiegend Artikel, die nur mit automatisch ermittelten Angaben versehen sind. Die redaktionell bearbeiteten Stichwörter umfassen Einzelwortlemmata sowie Wortgruppenartikel, in denen Gemeinsamkeiten und Unterschiede von zwei oder mehr bearbeiteten Stichwörtern vergleichend beschrieben werden.
Lexikalische Ressource
Die Datenbank ist das Herzstück von DIBS, sie enthält das gesamte gesammelte und nach unterschiedlichen Kriterien klassifizierte Material. Für die Redaktor-/innen ist sie mit Bearbeitungswerkzeugen ausgestattet, mit deren Hilfe auch die Wortartikel verfasst werden. Das Projekt DIBS ist zwar noch nicht voll entwickelt, doch sollen der Öffentlichkeit das Material der Datenbank und die bereits verfassten Wortartikel nicht vorenthalten werden. Natürlich ist die Datenbank mit einem Schreibschutz versehen. Derzeit enthält die Datenbank ca. 700.000 Sprachbelege, die etwa 40.000 Stichwörtern zugeordnet sind. Die bereits bearbeiteten Artikel sind markiert und mit dem Kürzel der jeweiligen Redaktorin bzw. des jeweiligen Redaktors versehen.
Lexikalische Ressource
Word and tag embeddings trained on TüDP-D/W and TüPP-D/Z using Wang2Vec.