@phdthesis{Borys.1980,
  abstract = {Bei Schriftsprache bestehen statistische Bindungen zwischen grammatischen Segmenten wie z.B. Silben und Wörtern, aber auch zwischen Buchstaben innerhalb dieser Segmente. Es liegt nahe, diese Eigenschaft von Schriftsprache für eine redundanzreduzierende Quellencodierung auszunutzen. 

Ausgehend von diesen Überlegungen werden Quellenmodelle angegeben, die als gestufte Modelle bezeichnet werden sollen. In dieser Arbeit wird zwischen den aus der Literatur bekannten Markoffketten-Modellen und den hier vorgestellten gestuften Modellen unterschieden. Die gestuften Modelle verwenden zur Codierung der Schriftzeichen zum einen die innerhalb der grammatischen Segmente gültigen statistischen Verteilungen der Schriftzeichen, zum anderen die statistischen Bindungen zwischen den Segmenten. 

Im Unterschied dazu wird bei der Codierung der Schriftzeichen durch die bekannten Markoff-Ketten-Modelle die Statistik formal gebildeter Segmente (Polygramme) verwendet. In dieser Arbeit werden beide Modelle bezüglich der erzielbaren Redundanzreduktion und der notwendigen Anzahl von Code-Wörtern untersucht und gegenübergestellt. 

Für die Beschreibung der Modelle ist es notwendig, statistische Parameter aus Texten zu ermitteln. Dabei interessieren insbesondere die Verteilung der Elemente innerhalb der Segmente (z.B. Buchstaben in Silben, Silben in Wörtern usw.) und die statistischen Abhängigkeiten zwischen den Segmenten. Zur Ermittlung der statistischen Parameter werden zwei Textstichproben mit je 4.5 Millionen Zeichen analysiert (Zeichen:= Buchstabe, Wortzwischenraum, Punkt). Dabei handelt es sich bei der einen Textstichprobe um einen einheitlichen Text eines Autors und bei der anderen um einen Mischtext mehrerer Autoren. Letzterer kann wegen seiner Zusammensetzung in erster Näherung als \"mittleres Deutsch\" angesehen werden. 

Aus beiden Textstichproben werden zunächst die relativen Häufigkeiten der Zeichen ermittelt und mit den in der Literatur angegebenen früher durchgeführten Untersuchungen verglichen. Bemerkenswert ist, daß für die nach fallenden Wahrscheinlichkeiten geordneten Zeichen näherungsweise eine Exponentialverteilung angegeben werden kann. Diese Exponentialverteilung maximiert die Entropie unter der Nebenbedingung, daß der Mittelwert der Verteilung und damit ihr Schwerpunkt konstant ist. 

Weiterhin werden die relativen Häufigkeiten von Zeichengruppen fester Länge (Polygrammen) bestimmt. Diese Häufigkeiten werden für Bigramme und -wohl erstmalig für deutsche Schriftsprache- auch für Tri-, Tetra- und Pentagramme ermittelt. Aus den Verteilungen der Zeichen und Zeichengruppen lassen sich Markoff-Ketten-Modelle der Ordnung null bis vier für Schriftsprache angeben. Für diese Modelle wird der mittlere Informationsgehalt berechnet und mit Küpfmüllers Abschätzungen zur Entropie deutscher Sprache verglichen. 

Für gestufte Modelle sind statistische Untersuchungen an den Sprachsegmenten Silbe, Wort und Satz notwendig. Die Analyse der Texte liefert die Verteilungen dieser Elemente und die daraus abgeleiteten statistischen Parameter wie z.B. Mittelwert, Varianz, Schiefe usw. Außerdem werden ein- und mehrdimensionale Verteilungen von Buchstaben in Silben und der Aufbau von Texten durch Silbenklassen bestimmt, wobei die Silben durch ihre Länge klassifiziert sind . Weiterhin wird die Zusammensetzung der Wörter aus Silbenklassen und der Sätze aus Wortklassen bestimmt, wobei ein- und mehrdimensionale Zusammenhänge berücksichtigt werden. Mit den aus den Sprachsegmenten Silbe, Wort und Satz ermittelten statistischen Parametern können die hier analysierten Texte in die Untersuchungen von Fucks eingeordnet werden. 

Die aus den Textstichproben im ersten Teil der Arbeit ermittelten statistischen Verteilungen dienen im zweiten Teil der Arbeit zur Beschreibung von Markoff-Ketten und gestuften Codierungsmodellen und erlauben die Berechnung der erzielbaren Redundanzreduktion. Es wird dabei angenommen, daß sich die ermittelten Wahrscheinlichkeiten zeitlich nicht ändern. Zur Berechnung der Redundanzreduktion wird die Entropie je Symbol einiger gestufter Codierungsmodelle und die Anzahl der Code-Worte eines Optimalcodes berechnet. Der Vergleich mit den entsprechenden Zahlenwerten für Markoff-Ketten-Modelle zeigt, daß die hier betrachteten gestuften Modelle grammatischer Segmente gegenüber Markoff-Ketten bei vergleichbarere Redundanzreduktion auf längere Codes führen. Damit bringen sie entgegen der Erwartung keinen Vorteil gegenüber Markoff-Ketten.},
  added-at = {2013-09-23T13:30:51.000+0200},
  address = {Hannover},
  author = {Borys, Bernd-Burkhard},
  biburl = {https://www.bibsonomy.org/bibtex/24f3c23102ab80ef7a80fe8f25b8d70a2/b.borys},
  interhash = {ed53db965ae4d9ad4e481bdde3150d34},
  intrahash = {4f3c23102ab80ef7a80fe8f25b8d70a2},
  keywords = {eigene mmspub myown sprache stochastische_signale},
  publisher = {Institut für Allgemeine Nachrichtentechnik},
  school = {{Universität Hannover}},
  timestamp = {2015-07-09T09:01:32.000+0200},
  title = {Segmentierung diskreter stochastischer Prozesse am Beispiel der deutschen Schriftsprache},
  year = 1980
}