20 von 93 Ressourcen
Lexikalische Ressource
Gründliches mythologisches Lexikon, worinnen so wohl die fabelhafte, als wahrscheinliche Geschichte der alten römischen, griechischen und ägyptischen Götter und Göttinnen, und was dahin gehöret, nebst ihren eigentlichen Bildungen bey den Alten, physikalischen und moralischen Deutungen zusammen getragen, und mit einem Anhange dazu dienlicher genealigischer Tabellen versehen worden. Von Benhamin Hederich, Leipzig: Gleditschens Handlung 1770.
Lexikalische Ressource
Mit der Entscheidung ein Online-Wörterbuch zu erarbeiten, geht das Fränkische Wörterbuch neue Wege in der Dialektlexikographie. Die Dialektbelege werden in einer Volltextdatenbank erfasst und sowohl grammatisch als auch semantisch bestimmt. Dabei entsteht ein Online-Wörterbuch, das die mühsame und langwierige Recherche im Archiv der Redaktion ersetzt und die Belege einer wissenschaftlichen wie nichtwissenschaftlichen Öffentlichkeit zur Verfügung stellt. Dieses Online-Wörterbuch ist schon jetzt, während sich die Datenbank noch im Aufbau befindet, öffentlich zugänglich. Mit dem Fortgang der Eingabe- und Aufbereitungsarbeit wird es Schritt für Schritt ergänzt und erweitert. Um die Originalbelege zu sichern, wurde im Jahr 2012 der größte Teil der Datenbestände eingescannt und in Form von Bilddateien gespeichert. Weitere Informationen finden Sie unter https://wbf.badw.de/wbf-digital.html
Lexikalische Ressource
If you want to use this dataset for research purposes, please refer to the following sources: - Gertjan Van Noord, Gosse Bouma, Frank Van Eynde, Daniël De Kok, Jelmer Van der Linde, Ineke Schuurman, Erik Tjong Kim Sang, and Vincent Vandeghinste. 2013. Large Scale Syntactic Annotation of Written Dutch: Lassy. In Essential Speech and Language Technology for Dutch, pages 147–164. Springer. - Corina Dima, Daniël de Kok, Neele Witte, Erhard Hinrichs. 2019. No word is an island — a transformation weighting model for semantic composition. Transactions of the Association for Computational Linguistics. The dataset is distributed under the Creative Commons Attribution NonCommercial (CC-BY-NC) license. This dataset contains 4,540 Dutch adverb-adjective phrases (3,183 train, 907 test, 450 dev) extracted from the Lassy Large treebank (Van Noord et al., 2013), which consists of written texts (Wikipedia, newspapers) and texts of the medical domain. The dataset was constructed with the help of the dependency annotations of the treebank. To collect the adverb-adjective phrases head-dependent pairs were extracted that fulfilled the following requirements: - the head is an attributive or predicative adjective and governs dependent with the adverb relation - the dependent immediately precedes the head The extracted word pairs can have as the first element both real adverbs and adjectives which function as an adverb. The train/test/dev files have the following format, the single parts are separated by tab. adverb adjective adv-adj_phrase (e.g. zeer moeizaam zeer_adv_adj_moeizaam) For results of different composition models on this dataset see Dima et al. (2019), No word is an island — a transformation weighting model for semantic composition. Word embeddings for all adverbs, adjectives and phrases are stored in the binary word2vec format in lassy-adv-adj.bin, wich can be loaded by several packages (e.g. the gensim package of Řehůřek, Radim and Petr Sojka (2010)). The word embeddings were trained on the lemmatized Lassy Large treebank with the word2vec package. Representations for the adjectives, adverbs and phrases were trained jointly, for the phrase representations the adverb and the adjective were concatenated into a single unit using the separator _adv_adj_. The embeddings were constructed using the skip-gram model with negative sampling (Mikolov et al., 2013). The embedding size is 200, context size is a symmetric window of 10, 25 negative samples were used and a sample probability of 0.0001. Representations were only trained for words and phrases with a minimum frequency of 30 occurrences. The total vocabulary size is 290,704.
Lexikalische Ressource
Word representations used in Dima(2015), Dima (2019). The vectors were generated from the decow14ax corpus (https://corporafromtheweb.org/), ~10 billion words of raw text. Corpus pre-processing: words lowercased, punctuation removed, each number was replaced by the string 'NUMBER'. Embeddings trained using a minimum word frequency of 100, leading to a vocabulary 1,029,270 words. The vocabulary file 'decow14ax_all_min_100.vocab' contains these word representations and their frequency in the support corpus. 'decow14ax_full.vocab' contains the full vocabulary generated for the corpus (no cut-off). The embeddings were trained with GloVe, for 15 iterations, using a 10-word symmetric window of text (20 words surrounding a particular word). The files are suffixed with the dimensionality of the vector representations: 50 dimensional, 100 dimensional, 200 dimensional and 300 dimensional. MAX_ITER=15 WINDOW_SIZE=10 BINARY=0 NUM_THREADS=8 X_MAX=100
Lexikalische Ressource
Dieses Wörterbuch fasst die lexikalisch-semantischen Ergebnisse der Untersuchung "Aspekte des Demokratiediskurses der späten 1960er Jahre. Konstellationen – Kontexte – Konzepte" im Format eines Diskurswörterbuchs zusammen. Die Wortartikel beschreiben diejenigen Wörter nach lexikographischen Prinzipien, die das lexikalische Gerüst des Demokratiediskurses darstellen.
Lexikalische Ressource
The compounds that were used in Ma et al (2016) paper entitled "Letter Sequence Labeling for Compound Splitting". It contains both two-constituent and multi-constituent compounds. As standard evaluation also involves non-compounds, the data also include non-compounds that we used. The data are organized into the exact same training/test/development split as in the paper.
Lexikalische Ressource
Deutsches Sprichwörter-Lexikon. Ein Hausschatz für das deutsche Volk. Hrsg. von Karl Friedrich Wilhelm Wander. 5 Bde. Leipzig: F.A. Brockhaus 1867-1880.
Lexikalische Ressource
If you want to use this dataset for research purposes, please refer to the following sources: - Roland Schäfer. 2015. Processing and querying large web corpora with the COW14 architecture. In Proceedings of Challenges in the Management of Large Corpora 3 (CMLC-3), Lancaster. UCREL, IDS. - Roland Schäfer and Felix Bildhauer. 2012. Building Large Corpora from the Web Using a New Efficient Tool Chain. In Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12), pages 486–493, Istanbul, Turkey. European Language Resources Association (ELRA). - Corina Dima, Daniël de Kok, Neele Witte, Erhard Hinrichs. 2019. No word is an island — a transformation weighting model for semantic composition. Transactions of the Association for Computational Linguistics. The dataset is distributed under the Creative Commons Attribution NonCommercial (CC-BY-NC) license. The 23,148 English adverb-adjective phrases (splits: 16,222 train, 4,618 test, 2,308 dev) were automatically extracted from the ENCOW16AX treebank (Schäfer and Bildhauer, 2012; Schäfer, 2015), which contains crawled web content from different sources. The dataset was constructed with the help of the dependency annotations of the treebank. To collect the adverb-adjective phrases head-dependent pairs were extracted that fulfilled the following requirements: - the head is an attributive or predicative adjective and governs dependent with the adverb relation - the dependent immediately precedes the head The extracted word pairs can have as the first element both real adverbs and adjectives which function as an adverb. The train/test/dev files have the following format, single parts separated by tab: adverb adjective adv-adj_phrase, where the adverb and adjective in the phrase are separated by the string _adv_adj_ (e.g. extremely simple extremely_adv_adj_simple). For results of different composition models on this dataset see Dima et al. (2019), No word is an island — a transformation weighting model for semantic composition. The word embeddings were trained on a subcorpus of the ENCOW16AX treebank, which contains only sentences with a document quality of a or b. The final training corpus for the word embeddings contains 89.0M sentences and 2.2B tokens. To ensure that trained word embedding for enough adverb-adjective phrases are available, the embeddings were trained on word forms, instead of lemmas. The averb-adjective phrases were merged into a single unit for embedding training, the embeddings for the single adverbs and adjectives were trained on the remaining occurrences of the constituents. The embeddings for the adverbs, adjectives and phrases were trained jointly, using the word2vec package (Mikolov et al. 2013). The word embeddings were trained using the skipgram model with negative sampling, a symmetric window of 10 as context size, 25 negative samples per positive training instance and a sample probability threshold of 0.0001. The resulting embeddings have a dimension of 200 and the vocabulary contains 278,345 words. The minimum frequency cut-off was set to 50 for all words and phrases. The word representations are stored in the binary word2vec format in encow-adv-adj.bin. This format can be loaded by several packages (e.g. the gensim package of Řehůřek, Radim and Petr Sojka (2010)).
Lexikalische Ressource
Word vectors trained using GloVe for the most frequent 1000000 tokens in the decow14ax corpus. See associated paper (Dima, 2015) for description of the training parameters.
Lexikalische Ressource
Erhebungsbögen zum Sprachatlas des Deutschen Reichs
Lexikalische Ressource
Das von Wolfgang Kleiber in seiner Einführung zum HSS formulierte Ziel besteht darin, die geographische Variation der mittelalterlichen Schreibung mit Hilfe des Verfahrens der Schreibortlokalisation zu erfassen (vgl. Kleiber / Kunze / Löffler 1979a: 25). Damit schafft der HSS die Untersuchungsgrundlage „[…] für spätere historisch-phonologische (phonetische) Interpretationen“ (Kleiber / Kunze / Löffler 1979a: 48) der Ergebnisse.
Lexikalische Ressource
The dataset contains 4732 adjective-noun pairs extracted from the DWDS corpora [1] with the application Wortprofil [2]. All the phrases have been annotated by two experts as collocations vs non-collocations. The non-collocations have been further classified by one of the annotators as free phrases, idioms, named entities, and terms. If you want to use this dataset for research purposes, please refer to the following paper: Yana Strakatova, Neele Falk, Isabel Fuhrmann, Daniela Rossmann, Erhard Hinrichs. All That Glitters is Not Gold: A Gold Standard of Adjective-Noun Collocations for German. 2019. References: [1]: DWDS – Digitales Wörterbuch der deutschen Sprache. Das Wortauskunftssystem zur deutschen Sprache in Geschichte und Gegenwart, hrsg. v. d. Berlin-Brandenburgischen Akademie der Wissenschaften. [2]: DWDS-Wortprofil, erstellt durch das Digitale Wörterbuch der deutschen Sprache.
Lexikalische Ressource
Das von Adolf Gütter in seiner Einleitung formulierte Ziel des Nordb. SA besteht darin, Sprachdaten aus der Region des Nordbairischen zu erheben und diese geographisch aufbereitet abzubilden, um „ein umfassendes Kartenwerk speziell für den nordbairischen Raum, das auf zuverlässigem und homogenem Untersuchungsmaterial basiert und ein klares Bild des Nordbairischen vermittelt“, zu schaffen (Gütter 1971: 7). Die ca. 3.000 Erhebungsorte des Nordb. SA erstrecken sich in nordsüdlicher Richtung von Oelsnitz bis Landshut und in westöstlicher Richtung von Ansbach bis Zwiesel. Die Grundkarte (Maßstab 1: 700.000), die nicht gesondert publiziert wurde, zeigt das Gebiet mit den Erhebungsorten sowie orohydrographische Informationen.
Lexikalische Ressource
GG is an HPSG grammar for German developed at the DFKI in Saarbrücken and distributed under the Lesser General Public License For Linguistic Resources. This version is of March 2007.
Lexikalische Ressource
"Paronyme – Dynamisch im Kontrast" ist ein neues und neuartiges Nachschlagewerk für sprachliche Zweifelsfälle und Unsicherheiten. Orthografisch und/oder semantisch ähnliche Wörter (z. B. farbig-farblich, kindlich-kindisch, universal-universell, Mehrheit-Mehrzahl) werden korpusbasiert in ihrem aktuellen Gebrauch untersucht und dokumentiert.
Lexikalische Ressource
Findebuch zum mittelhochdeutschen Wortschatz von Kurt Gärtner, Christoph Gerhardt, Jürgen Jährling, Ralf Plate, Walter Röll und Erika Timm. Mit einem rückläufigen Index. Stuttgart: S. Hirzel Verlag 1992.
Lexikalische Ressource
Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm / Neubearbeitung (A–F). Hrsg. Von der Berlin-Brandenburgischen Akademie der Wissenschaften und der Akademie der Wissenschaften in Göttingen. 6 Bde. Stuttgart: S. Hirzel Verlag 1965-2016.
Lexikalische Ressource
Das von Hermann Hucke in der Einleitung des ThDA formulierte Ziel ist es, die Vielfalt sprachgeographischer Besonderheiten im gesamtthüringischen Sprachraum darzustellen und zugleich ein Forschungsinstrument für Sprachwissenschaftler sowie Arbeitsmittel für den Lehrer des Deutschen und der heimatkundlichen Fächer zu schaffen (vgl. Hucke 1961: 5). Außerdem soll der „Thüringische Dialektatlas“ als Ergänzung bzw. Atlasteil zum nachfolgenden „Thüringischen Wörterbuch“ der thüringischen Mundarten dienen (vgl. Hucke 1961: 5).
Lexikalische Ressource
Das von Horst Haider Munske und Alfred Klepsch in ihrer Einleitung zum SMF formulierte Ziel besteht darin, „die Dialekte des bayerischen Regierungsbezirks Mittelfranken auf der Grundlage einer umfassenden direkten Erhebung in wissenschaftlicher Form [zu] dokumentieren. […] Deshalb wird im Sprachatlas von Mittelfranken (SMF) so vollständig wie möglich die älteste in der ländlichen Bevölkerung verbreitete Mundart dargestellt; daneben möchten wir aber auch (in Band VI) am Beispiel des Nürnberger Ballungsraums zeigen, wie sich der Dialekt in der jüngeren Generation gewandelt hat“ (Klepsch 2003: V).