20 of 1420 resources
Textual collection
Almuth Roelfs führte in den Jahren 1999 und 2000 25 Interviews mit Frauen in Bremen und Rostock zum Thema „Deutsche Frauen und Besatzungssoldaten in der Nachkriegszeit“. Almuth Roelfs: „Ami-Liebchen“ und „Berufsbräute“. Prostitution, Geschlechtskrankheiten und Besatzungsverhältnisse in der Nachkriegszeit. in: Günther Kronenbitter, Markus Pöhlmann und Dierk Walter: Besatzung. Funktion und Gestalt militärischer Fremdherrschaft von der Antike bis zum 20. Jahrhundert, Paderborn 2006, 201-210.
Textual collection
Das Mind Research Repository (MRR) ermöglichte den Zugang zu Publikationen zusammen mit den Daten und Skripten der enthaltenen Analysen. Es war die Weiterentwicklung eines Projekts, das im August 2010 als Potsdam Mind Research Repository (PMR2, http://read.psych.uni-potsdam.de/pmr2/) gestartet wurde. Das ursprüngliche OpenScience-Webportal (http://openscience.uni-leipzig.de) ist mittlerweile offline. Alle Daten wurden in das Repositorium der Sächsischen Akademie der Wissenschaften zu Leipzig verschoben. Die Kombination aus einem Paper, Daten und Auswertungsskripten wird als "paper package" bezeichnet. Die Hauptziele des Mind Research Repository waren: - Dokumentation von Daten und Analysen die in Publikationen verwendet wurden. - einzuladen (a) Analysen/Abbildungen zu reproduzieren, (b) alternative Analysen auszuprobieren und möglicherweise zu veröffentlichen, oder (c) Skripte für eigene Daten zu übernehmen. - es den Lesern zu ermöglichen, Autoren Feedback zu ihren Skripten zu geben, sowohl über notwendige Korrekturen von Fehlern als auch über eleganteren Alternativcode. - als Ort für experimentelle Ergebnisse dienen, die nicht veröffentlicht wurden, weil sie nicht wie erwartet ausgefallen sind und es keine technischen oder anderen offensichtlichen Gründe für das Scheitern des Experiments gab. Die Bereitstellung solcher Daten im Kontext von Forschung, die die gewünschten Ergebnisse erbracht hat, kann andere Forscher dazu inspirieren, einen neuen Blick auf diese Daten zu werfen. Vielleicht lässt sich so die Problematik des bekannten Bias für Publikationen mit positivem Ergebnis (etwas) entschärfen. Der Begriff "paper package" bezieht sich auf das R Project for Statistical Computing (CRAN, http://www.r-project.org/). Die Website war dem kollaborativen Geist von CRAN nachempfunden, der als Hauptinspirationsquelle dafür gedient hat wie Transparenz und Fortschritt unter Überschriften wie "Open Science" oder "Reproducible Research" umgesetzt werden können. Darüber hinaus enthalten die meisten der verfügbaren Papierpakete R-Skripte für die Analysen. Hier finden Sie einige informative Links zu diesem Thema: - NSF (2011). Changing the conduct of science in the information age (http://www.nsf.gov/pubs/2011/oise11003/) - AAAS (2011). The digitization of science: Reproducibility and interdisciplinary knowledge transfer (http://www.stanford.edu/~vcs/AAAS2011/) Die Entwicklung des MRR wurde durch das Bundesministerium für Bildung und Forschung (https://www.bmbf.de/index.html) im Kontext von CLARIN-D (https://clarin-d.net) gefördert. Förderung für das PMR2 wurde durch ein europäisches Forschungsprojekt (ESF 05_ECRP-FP006, 2006 – 2009) und ein Projekt der Deutschen Forschungsgemeinschaft (DFG FOR868, 2008 – 2019) bereit gestellt.
Textual collection
Maren Brand hat 2008 und 2009 vier Interviews mit professionellen Techno-DJs durchgeführt. "Forschungsleitend", schreibt Maren Brand in einem Artikel der Zeitschrift BIOS "war die Neugier, die Besonderheiten von DJ-Biographien zu erfassen und die Persönlichkeiten und das Leben dahinter kennenzulernen. Paralleler Schwerpunkt war eine Erfassung der speziellen Lebenswelt als soziales Phänomen sowie eine Annäherung an den damit verbundenen Lebensstil eines international arbeitenden deutschen Techno-DJs." Maren Brand: Techno-Biographien: Eine narrative Analyse von Lebensgeschichten deutscher Techno-DJs, in: BIOS, Jg. 22 (2009), S. 75-104 (https://www.budrich-journals.de/index.php/bios/search/authors/view?firstName=Maren&middleName=&lastName=Brandt&affiliation=&country=)
Textual collection
Kalanga community corpus based on material from 2019 created in the project Deutscher Wortschatz or Leipzig Corpora Collection. The project regularly collects and processes available documents from the Internet (typically in an annual cycle) and other sources. The results are corpora and corpora-based dictionaries for more than 250 languages, which provide statistical information about almost each word, example sentences and links to related words. Because of the huge amount of used text material containing several million sentences, information about almost every word can be provided. The service ranks among the most comprehensive information systems about the German language and provides the largest freely available amounts of data for many other languages. For copyright reasons, the data are provided as derived text formats that do not allow reconstruction of the original document structures.
Textual collection
Arabic news corpus (Palestine) based on material crawled in 2018 created in the project Deutscher Wortschatz or Leipzig Corpora Collection. The project regularly collects and processes available documents from the Internet (typically in an annual cycle) and other sources. The results are corpora and corpora-based dictionaries for more than 250 languages, which provide statistical information about almost each word, example sentences and links to related words. Because of the huge amount of used text material containing several million sentences, information about almost every word can be provided. The service ranks among the most comprehensive information systems about the German language and provides the largest freely available amounts of data for many other languages. For copyright reasons, the data are provided as derived text formats that do not allow reconstruction of the original document structures.
Textual collection
Spanish news subcorpus based on material from 2011 (3,000,000 sentences) created in the project Deutscher Wortschatz or Leipzig Corpora Collection. The project regularly collects and processes available documents from the Internet (typically in an annual cycle) and other sources. The results are corpora and corpora-based dictionaries for more than 250 languages, which provide statistical information about almost each word, example sentences and links to related words. Because of the huge amount of used text material containing several million sentences, information about almost every word can be provided. The service ranks among the most comprehensive information systems about the German language and provides the largest freely available amounts of data for many other languages. For copyright reasons, the data are provided as derived text formats that do not allow reconstruction of the original document structures.
Textual collection
The Public DGS Corpus consists of more than 50 hours of video data from the DGS-Korpus (http://dgs-korpus.de/) project made available together with annotations for research purposes. In this project, data were collected all across Germany in the timeframe 2010-2012. The public corpus shows 330 informants in 4 different age groups (from 18 years on) from 13 different regions. All parts are conversations between two informants in German Sign Language (DGS). The majority of transcripts included cover discussions and reports on Deaf life and personal experiences, although there are examples of other tasks such as story retellings as well. Transcripts are made available in iLex and ELAN format as well as in SRT subtitles format that can be imported in MaxQDA and other analysis tools, together with the mp4 video files in 360p50.
Textual collection
Arabic news corpus (Qatar) based on material crawled in 2018 created in the project Deutscher Wortschatz or Leipzig Corpora Collection. The project regularly collects and processes available documents from the Internet (typically in an annual cycle) and other sources. The results are corpora and corpora-based dictionaries for more than 250 languages, which provide statistical information about almost each word, example sentences and links to related words. Because of the huge amount of used text material containing several million sentences, information about almost every word can be provided. The service ranks among the most comprehensive information systems about the German language and provides the largest freely available amounts of data for many other languages. For copyright reasons, the data are provided as derived text formats that do not allow reconstruction of the original document structures.
Textual collection
Belarusian Wikipedia subcorpus based on material from 2018 (300,000 sentences) created in the project Deutscher Wortschatz or Leipzig Corpora Collection. The project regularly collects and processes available documents from the Internet (typically in an annual cycle) and other sources. The results are corpora and corpora-based dictionaries for more than 250 languages, which provide statistical information about almost each word, example sentences and links to related words. Because of the huge amount of used text material containing several million sentences, information about almost every word can be provided. The service ranks among the most comprehensive information systems about the German language and provides the largest freely available amounts of data for many other languages. For copyright reasons, the data are provided as derived text formats that do not allow reconstruction of the original document structures.
Textual collection
Das Korpus „Politischer Samisdat“ enthält inoffizielle, oft illegale Schriften, die in der DDR zwischen 1969 und 1990 außerhalb der staatlichen Zensur verbreitet wurden. Diese Untergrundliteratur umfasste Flugblätter, politische Essays, regimekritische Zeitschriften und literarische Werke, die nicht durch offizielle Verlage erscheinen konnten.
Textual collection
Das Darmstadt Corpus of Scientific Texts (DaSciTex) besteht aus Vollversionen englischer wissenschaftlicher Zeitschriftenartikel aus 23 Quellen und umfaßt 9 verschiedene wissenschaftliche Domänen. Der Aufbau des Korpus ist dreigliedrig: eine zentrale Disziplin (Informatik), vier 'reine' Kontaktdisziplinen (Linguistik, Biologie, Maschinenbau, Elektrotechnik), vier dazugehörige Mischdisziplinen (Computerlinguistik, Bio-Informatik, CAD, Mikroelektronik). Es gibt zwei Versionen des Korpus: ein kleines manuell korrigiertes Korpus (ca. eine Million Wörter), ein großes Korpus (17 Millionen Wörter).
Textual collection
Das AdG-Korpus umfasst den Datenbestand des „Archivs der Gegenwart“ der Jahrgänge 1931 bis 2000. Es basiert auf der CD-ROM-Ausgabe des Siegler-Verlags von 2001. Heinrich von Sieglers „Archiv der Gegenwart“ erschien von 1931 bis 2004 und enthält Artikel, die tagespolitische Ereignisse aus Deutschland und der Welt dokumentieren.
Textual collection
Wendekorpus/Ost (19.03.1990 - 22.08.1989) ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/
Textual collection
Wendekorpus/Ost (16.10.1990 - 31.12.1990) ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/
Textual collection
Arabic news corpus (Iran) based on material crawled in 2018 created in the project Deutscher Wortschatz or Leipzig Corpora Collection. The project regularly collects and processes available documents from the Internet (typically in an annual cycle) and other sources. The results are corpora and corpora-based dictionaries for more than 250 languages, which provide statistical information about almost each word, example sentences and links to related words. Because of the huge amount of used text material containing several million sentences, information about almost every word can be provided. The service ranks among the most comprehensive information systems about the German language and provides the largest freely available amounts of data for many other languages. For copyright reasons, the data are provided as derived text formats that do not allow reconstruction of the original document structures.
Textual collection
In den 1970er und frühen 1980er Jahren wurde aufgrund des sogenannten Radikalenerlasses zahlreichen Personen der Zugang zum öffentlichen Dienst verwehrt, da Zweifel an ihrer Verfassungstreue bestünden. Betroffen waren überwiegend "junge ’68er’ im Erziehungsbereich" (Alexandra Jaeger), die sich in linken Gruppen und Parteien organisiert hatten. Das Projekt "Der Radikalenerlass in West-Berlin: Entstehung – Wirkung – Folgen" setzt einen Beschluss des Berliner Abgeordnetenhauses aus dem Jahr 2021 um, „sicherzustellen, dass die auf der Grundlage des Radikalenerlasses vom 28. Januar 1972 erteilten Berufsverbote und deren Folgen für die Betroffenen wissenschaftlich aufgearbeitet und die Ergebnisse in geeigneter Weise öffentlich zugänglich gemacht werden." Das Projekt steht unter der Leitung von Prof. Gabriele Metzler (HU Berlin), Prof. Paul Nolte (FU Berlin) und Prof. Martin Sabrow (ZZF Potsdam). Im Rahmen des Projektes werden etwa 30 (Video-)Interviews, vornehmlich mit Betroffenen des Erlasses, aufgezeichnet, wissenschaftlich erschlossen und archiviert.
Textual collection
Braunschweiger Zeitung 2011 ist Teil des Deutschen Referenzkorpus DeReKo. Die Korpora geschriebener Gegenwartssprache des IDS bilden die weltweit größte linguistisch motivierte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus der Gegenwart und der neueren Vergangenheit. Sie enthalten belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten und werden kontinuierlich weiterentwickelt. Aktueller Stand: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/ Abrufbar über KorAP: https://korap.ids-mannheim.de/ Abrufbar über Cosmas II: https://cosmas2.ids-mannheim.de/cosmas2-web/ Weitere Informationen: https://www.ids-mannheim.de/digspra/kl/projekte/korpora/
Textual collection
Danish news subcorpus based on material from 2012 (1,000,000 sentences) created in the project Deutscher Wortschatz or Leipzig Corpora Collection. The project regularly collects and processes available documents from the Internet (typically in an annual cycle) and other sources. The results are corpora and corpora-based dictionaries for more than 250 languages, which provide statistical information about almost each word, example sentences and links to related words. Because of the huge amount of used text material containing several million sentences, information about almost every word can be provided. The service ranks among the most comprehensive information systems about the German language and provides the largest freely available amounts of data for many other languages. For copyright reasons, the data are provided as derived text formats that do not allow reconstruction of the original document structures.
Textual collection
German news subcorpus based on material from 2012 (3,000,000 sentences) created in the project Deutscher Wortschatz or Leipzig Corpora Collection. The project regularly collects and processes available documents from the Internet (typically in an annual cycle) and other sources. The results are corpora and corpora-based dictionaries for more than 250 languages, which provide statistical information about almost each word, example sentences and links to related words. Because of the huge amount of used text material containing several million sentences, information about almost every word can be provided. The service ranks among the most comprehensive information systems about the German language and provides the largest freely available amounts of data for many other languages. For copyright reasons, the data are provided as derived text formats that do not allow reconstruction of the original document structures.
Textual collection
This is a Universal Dependency parsed version of the The Royal Society Corpus (RSC) 6.0 Open In the preparation of the corpus, "good sentences" were extracted from RSC V6.0 Open, excluding sentences with the following features (a) beginning with a word in lower case and the sentence preceding them (incomplete), (b) sentences with less than 8 tokens (too short), (c) as well as sentences lacking a verb (verbless), (d) being in a language different from English. The downloadable corpus has the following annotations word lemma upos — Part-of-Speech using Universal Depencies pos — Part-of-Speech using PennTreebank tagset ufeat — Universal Features (morphological annotation) parent — the parent of a token in the dependency tree urel — Universal Relation dl — Dependency length srp — Surprisal srp_avg — Average Surprisal