Der Dynamikbereich ist komprimiert oder Standard. Synthese und Erkennung von Sprache. Moderne Lösungen. Computer-Sound-Equipment. Ton in einen Strom von Zahlen umwandeln. Probleme, die Komprimierung löst

Dynamische Komprimierung(Dynamic Range Compression, DRC) – Verengen (oder Erweitern im Falle eines Expanders) des Dynamikbereichs eines Tonträgers. Dynamikbereich, ist der Unterschied zwischen dem leisesten und dem lautesten Ton. Manchmal ist der leiseste Ton im Tonträger etwas lauter als der Rauschpegel und manchmal etwas leiser als der lauteste. Hardwaregeräte und Programme, die eine dynamische Komprimierung durchführen, werden Kompressoren genannt, wobei vier Hauptgruppen unter ihnen unterschieden werden: Kompressoren selbst, Limiter, Expander und Gates.

Analoger Röhrenkompressor DBX 566

Komprimierung nach unten und oben

Herunterkomprimierung(Abwärtskomprimierung) reduziert die Lautstärke eines Tons, wenn er einen bestimmten Schwellenwert überschreitet, wodurch leisere Töne unverändert bleiben. Eine extreme Version der Downcompression ist Begrenzer. Up-Komprimierung(Upward Compression) hingegen erhöht die Lautstärke des Tons, wenn sie unter dem Schwellenwert liegt, ohne lautere Töne zu beeinflussen. Gleichzeitig schränken beide Komprimierungsarten den Dynamikbereich des Audiosignals ein.

Herunterkomprimierung

Up-Komprimierung

Expander und Tor

Wenn der Kompressor den Dynamikbereich reduziert, erhöht ihn der Expander. Wenn der Signalpegel über den Schwellenpegel steigt, erhöht der Expander ihn noch mehr und vergrößert so den Unterschied zwischen lauten und leisen Tönen. Solche Geräte werden häufig beim Aufnehmen eines Schlagzeugs verwendet, um die Klänge einer Trommel von einer anderen zu trennen.

Eine Art Expander, der nicht verwendet wird, um laut zu verstärken, sondern um zu dämpfen leise Geräusche, der den Schwellenwert nicht überschreitet (z. B. Hintergrundgeräusche), wird aufgerufen Noise-Gate. Sobald in einem solchen Gerät der Schallpegel unter den Schwellenwert sinkt, hört das Signal auf zu passieren. Typischerweise wird ein Gate verwendet, um Rauschen in Pausen zu unterdrücken. Bei einigen Modellen können Sie dafür sorgen, dass der Ton beim Erreichen des Schwellwerts nicht abrupt aufhört, sondern allmählich ausklingt. In diesem Fall wird die Decay-Rate durch den Decay-Regler eingestellt.

Gate kann wie andere Arten von Kompressoren sein frequenzabhängig(d. h. bestimmte Frequenzbänder unterschiedlich behandeln) und in denen sie arbeiten können Seitenkette(siehe unten).

Das Funktionsprinzip des Kompressors

Das in den Kompressor eintretende Signal wird in zwei Kopien aufgeteilt. Eine Kopie wird an einen Verstärker gesendet, in dem die Verstärkung durch ein externes Signal gesteuert wird, die zweite Kopie bildet dieses Signal. Es tritt in ein Gerät namens Sidechain ein, wo das Signal gemessen wird, und basierend auf diesen Daten wird eine Hüllkurve erstellt, die die Änderung seiner Lautstärke beschreibt.
So sind die meisten modernen Kompressoren angeordnet, dies ist der sogenannte Feed-Forward-Typ. Bei älteren Geräten (Rückkopplungstyp) wird der Signalpegel nach dem Verstärker gemessen.

Es gibt verschiedene analoge Technologien zur geregelten Verstärkung (Variable-Gain Amplification), jede mit ihren eigenen Vor- und Nachteilen: Röhre, optisch mit Fotowiderständen und Transistoren. Beim Arbeiten mit digitaler Ton(in einem Sound-Editor oder einer DAW) kann eigene mathematische Algorithmen verwenden oder den Betrieb analoger Technologien emulieren.

Hauptparameter von Kompressoren

Schwelle

Der Kompressor reduziert den Pegel des Audiosignals, wenn dessen Amplitude einen bestimmten Schwellwert (Threshold) überschreitet. Er wird normalerweise in Dezibel angegeben, wobei ein niedriger Schwellenwert (z. B. -60 dB) bedeutet, dass mehr Ton verarbeitet wird als ein höherer Schwellenwert (z. B. -5 dB).

Verhältnis

Die Höhe der Pegelabsenkung wird durch den Ratio-Parameter bestimmt: Ein Ratio von 4:1 bedeutet, dass bei einem Eingangspegel von 4 dB über dem Threshold der Ausgangspegel 1 dB über dem Threshold liegt.
Zum Beispiel:
Schwelle = -10 dB
Eingangssignal = -6 dB (4 dB über Schwelle)
Ausgangssignal = -9 dB (1 dB über Schwelle)

Es ist wichtig zu beachten, dass die Unterdrückung des Signalpegels noch einige Zeit nach dem Unterschreiten des Schwellenpegels andauert und diese Zeit durch den Wert des Parameters bestimmt wird Veröffentlichung.

Eine Kompression mit einem maximalen Verhältnis von ∞:1 wird als Begrenzung bezeichnet. Das bedeutet, dass jedes Signal über dem Schwellenwert auf den Schwellenwert gedämpft wird (mit Ausnahme eines kurzen Zeitraums nach einer plötzlichen Erhöhung der Eingangslautstärke). Einzelheiten finden Sie weiter unten unter „Begrenzer“.

Beispiele für verschiedene Ratio-Werte

Angriff und Freigabe

Der Kompressor bietet eine gewisse Kontrolle darüber, wie schnell er auf sich ändernde Signaldynamiken reagiert. Der Attack-Parameter bestimmt die Zeit, die der Kompressor benötigt, um die Verstärkung auf den durch den Ratio-Parameter festgelegten Pegel zu reduzieren. Release bestimmt die Zeit, die der Kompressor benötigt, um entweder die Verstärkung zu erhöhen oder zum Normalzustand zurückzukehren, wenn der Eingangspegel unter den Schwellenwert fällt.

Attack- und Release-Phasen

Diese Parameter geben die Zeit (normalerweise in Millisekunden) an, die es dauert, bis sich die Verstärkung um eine bestimmte Anzahl von Dezibel, typischerweise 10 dB, ändert. Wenn Attack in diesem Fall beispielsweise auf 1 ms eingestellt ist, dauert es 1 ms, um die Verstärkung um 10 dB zu verringern, und 2 ms um 20 dB.

Bei vielen Kompressoren können die Attack- und Release-Parameter angepasst werden, bei einigen sind sie jedoch voreingestellt und nicht anpassbar. Manchmal werden sie als "automatisch" oder "programmabhängig" bezeichnet, d.h. ändern sich je nach Eingangssignal.

Knie

Eine weitere Kompressoroption: hartes/weiches Knie. Es bestimmt, ob der Beginn der Kompression abrupt (hart) oder allmählich (weich) erfolgt. Soft Knee verringert die Sichtbarkeit des Signalübergangs von trocken zu komprimiert, insbesondere bei hohen Ratios und plötzlichen Lautstärkesteigerungen.

Harte Knie- und weiche Kniekompression

Spitze und Effektivwert

Der Kompressor kann auf Spitzenwerte (kurzzeitiges Maximum) oder auf den durchschnittlichen Pegel des Eingangssignals reagieren. Die Verwendung von Spitzenwerten kann zu großen Schwankungen im Kompressionsgrad und sogar zu Verzerrungen führen. Daher wenden Kompressoren eine Mittelungsfunktion (normalerweise RMS) des Eingangssignals an, wenn sie es mit einem Schwellenwert vergleichen. Dies ergibt eine angenehmere Kompression, die der menschlichen Wahrnehmung von Lautstärke näher kommt.

RMS ist ein Parameter, der die durchschnittliche Lautstärke eines Tonträgers widerspiegelt. Aus mathematischer Sicht ist RMS (Root Mean Square) der quadratische Mittelwert der Amplitude einer bestimmten Anzahl von Samples:

Stereoverknüpfung

Ein Kompressor im Stereo-Linking-Modus wendet die gleiche Verstärkung auf beide Stereokanäle an. Dadurch wird eine Verschiebung des Stereopanoramas vermieden, die durch die individuelle Bearbeitung des linken und rechten Kanals entstehen kann. Ein solcher Versatz tritt auf, wenn beispielsweise ein lautes Element außermittig geschwenkt wird.

Make-up-Gewinn

Da der Kompressor den Gesamtpegel des Signals reduziert, ist es üblich, dem Ausgang eine feste Verstärkungsoption hinzuzufügen, um den optimalen Pegel zu erhalten.

Schau voraus

Die Look-Ahead-Funktion soll die Probleme lösen, die sowohl mit zu großen als auch mit zu kleinen Attack- und Release-Werten verbunden sind. Eine zu lange Attack-Zeit ermöglicht kein effektives Abfangen von Transienten, und eine zu kurze Attack-Zeit ist für den Zuhörer möglicherweise nicht angenehm. Bei Verwendung der Look-Ahead-Funktion wird das Hauptsignal gegenüber dem Steuersignal verzögert, wodurch die Komprimierung vorzeitig beginnen kann, noch bevor das Signal den Schwellenwert erreicht.
Der einzige Nachteil dieses Verfahrens ist die Zeitverzögerung des Signals, die in manchen Fällen unerwünscht ist.

Dynamische Komprimierung verwenden

Komprimierung wird überall eingesetzt, nicht nur bei Musiktonträgern, sondern auch überall dort, wo eine Erhöhung der Gesamtlautstärke ohne Erhöhung der Spitzenpegel erforderlich ist, wo kostengünstige Tonwiedergabegeräte oder ein begrenzter Übertragungskanal verwendet werden (Beschallungs- und Kommunikationsanlagen, Amateurfunk usw .) .

Die Komprimierung wird angewendet, wenn Hintergrundmusik abgespielt wird (in Geschäften, Restaurants usw.), wo merkliche Lautstärkeänderungen unerwünscht sind.

Die wichtigste Anwendung der dynamischen Komprimierung ist jedoch die Musikproduktion und -übertragung. Kompression wird verwendet, um dem Klang „Dicke“ und „Antrieb“ zu verleihen die beste Kombination Instrumente miteinander, insbesondere bei der Gesangsbearbeitung.

Vocals in Rock- und Popmusik werden normalerweise komprimiert, um sie von der Begleitung abzuheben und Klarheit zu schaffen. Zur Unterdrückung von zischenden Phonemen kommt ein spezieller Kompressor zum Einsatz, der nur auf bestimmte Frequenzen abgestimmt ist – ein De-Esser.

In Instrumentalparts wird die Kompression auch für Effekte verwendet, die nicht direkt mit der Lautstärke zusammenhängen, beispielsweise können schnell ausklingende Schlagzeugklänge länger werden.

Elektronische Tanzmusik (EDM) verwendet oft Side-Chaining (siehe unten) – zum Beispiel kann die Basslinie durch einen Kick oder ähnliches angetrieben werden, um Bass/Drum-Konflikte zu vermeiden und dynamisches Pulsieren zu erzeugen.

Komprimierung wird häufig im Rundfunk (Radio, Fernsehen, Internet) verwendet, um die wahrgenommene Lautstärke zu erhöhen und gleichzeitig den Dynamikbereich des Originaltons (normalerweise einer CD) zu verringern. In den meisten Ländern gibt es gesetzliche Beschränkungen für die momentane maximale Lautstärke, die ausgestrahlt werden kann. Üblicherweise werden diese Begrenzungen durch permanente Hardware-Kompressoren im On-Air-Kreislauf implementiert. Darüber hinaus verbessert die Erhöhung der empfundenen Lautstärke die "Qualität" des Klangs aus Sicht der meisten Zuhörer.

siehe auch Lautheitskrieg.

Sequentielle Erhöhung der Lautstärke desselben Songs, remastered für CD von 1983 bis 2000.

Seitenverkettung

Ein weiterer gebräuchlicher Kompressorschalter ist die „Side Chain“. In diesem Modus wird der Ton nicht in Abhängigkeit von seinem eigenen Pegel komprimiert, sondern in Abhängigkeit vom Pegel des am Anschluss ankommenden Signals, was normalerweise als Side Chain bezeichnet wird.

Dafür gibt es mehrere Verwendungen. Beispielsweise lispelt der Sänger und alle Buchstaben „s“ heben sich vom Gesamtbild ab. Sie leiten seine Stimme durch den Kompressor, und derselbe Sound wird in die Sidechain-Buchse eingespeist, aber durch den Equalizer geleitet. Beim Equalizer entfernen Sie alle Frequenzen außer denen, die der Sänger beim Aussprechen des Buchstabens „c“ verwendet. Normalerweise etwa 5 kHz, kann aber zwischen 3 kHz und 8 kHz liegen. Wenn Sie den Kompressor dann in den Sidechain-Modus versetzen, erfolgt die Kompression der Stimme in den Momenten, in denen der Buchstabe „s“ ausgesprochen wird. So wurde das als "De-Esser" (De-Esser) bekannte Gerät erhalten. Diese Arbeitsweise wird als frequenzabhängig bezeichnet.

Eine andere Anwendung dieser Funktion heißt „Ducker“. Bei einem Radiosender beispielsweise geht die Musik durch den Kompressor und die Worte des DJs durch die Seitenkette. Wenn der DJ zu chatten beginnt, wird die Lautstärke der Musik automatisch verringert. Auch bei Aufnahmen lässt sich dieser Effekt erfolgreich einsetzen, um beispielsweise beim Singen die Lautstärke von Keyboardparts zu reduzieren.

Mauerbegrenzung

Der Kompressor und der Limiter arbeiten auf die gleiche Weise, wir können sagen, dass der Limiter ein Kompressor mit einem hohen Verhältnis (ab 10:1) und normalerweise einer niedrigen Attack-Zeit ist.

Es gibt das Konzept des Brick-Wall-Limitings – Limiting mit einem sehr hohen Ratio (ab 20:1) und einem sehr schnellen Attack. Idealerweise erlaubt es dem Signal überhaupt nicht, den Schwellenpegel zu überschreiten. Das Ergebnis wird für das Ohr unangenehm sein, aber es wird eine Beschädigung oder Überschreitung von Tonwiedergabegeräten verhindern Bandbreite Kanal. Viele Hersteller integrieren zu diesem Zweck Limiter in ihre Geräte.

Klipper vs. Limiter, weiches und hartes Clipping

Diese Gruppe von Verfahren beruht darauf, dass die übertragenen Signale nichtlinearen Amplitudentransformationen unterzogen werden und im Sende- und Empfangsteil die Nichtlinearitäten zueinander invers sind. Wenn beispielsweise der Sender eine nichtlineare Funktion Öu verwendet, verwendet der Empfänger u 2 . Die sukzessive Anwendung reziproker Funktionen wird dazu führen, dass die Gesamttransformation linear bleibt.

Die Idee nichtlinearer Datenkompressionsverfahren besteht darin, dass der Sender bei gleicher Amplitude der Ausgangssignale einen größeren Änderungsbereich des übertragenen Parameters (also einen größeren Dynamikbereich) übertragen kann. Dynamikbereich ist das Verhältnis der größten zulässigen Signalamplitude zur kleinsten, ausgedrückt in relativen Einheiten oder Dezibel:

; (2.17)
. (2.18)

Dem natürlichen Wunsch, den Dynamikumfang durch Reduzierung von Umin zu erhöhen, sind Grenzen gesetzt durch die Empfindlichkeit der Geräte und den zunehmenden Einfluss von Störungen und Eigenrauschen.

Meistens wird die Kompression des dynamischen Bereichs unter Verwendung eines Paars aus reziproken Logarithmus- und Potenzierungsfunktionen durchgeführt. Die erste Operation zum Ändern der Amplitude wird aufgerufen Kompression(Kompression), die zweite - Erweiterung(strecken). Die Wahl dieser Funktionen ist mit ihrer größtmöglichen Kompressionsmöglichkeit verbunden.

Gleichzeitig haben diese Verfahren auch Nachteile. Die erste davon ist, dass der Logarithmus einer kleinen Zahl negativ und im Limit ist:

das heißt, die Empfindlichkeit ist stark nichtlinear.

Um diese Mängel zu verringern, werden beide Funktionen durch Vorspannung und Annäherung modifiziert. Beispielsweise hat die Näherungsfunktion für Telefonkanäle die Form (Typ A):

wobei A = 87,6. Der Gewinn durch Kompression beträgt in diesem Fall 24 dB.

Die Datenkompression durch nichtlineare Verfahren wird analog mit großen Fehlern implementiert. Durch den Einsatz digitaler Tools kann die Genauigkeit bzw. Geschwindigkeit der Konvertierung deutlich verbessert werden. In diesem Fall wird die direkte Verwendung von Computertechnologie (d. h. die direkte Berechnung von Logarithmen und Exponentialen) aufgrund der geringen Geschwindigkeit und der Anhäufung von Rechenfehlern nicht das beste Ergebnis liefern.

Datenkomprimierung durch Komprimierung aufgrund von Genauigkeitsbeschränkungen wird in unkritischen Fällen verwendet, beispielsweise für die Sprachübertragung über Telefon- und Funkkanäle.

Effiziente Codierung

Effiziente Codes wurden von K. Shannon, Fano und Huffman vorgeschlagen. Das Wesen der Codes liegt in der Tatsache, dass sie ungerade sind, dh eine ungleiche Anzahl von Ziffern aufweisen, und die Länge des Codes umgekehrt proportional zur Wahrscheinlichkeit seines Auftretens ist. Ein weiteres großartiges Merkmal effizienter Codes ist, dass sie keine Trennzeichen benötigen, d.h. spezielle Charaktere Trennen benachbarter Codekombinationen. Dies wird durch die Beachtung einer einfachen Regel erreicht: Kürzere Codes sind nicht der Beginn längerer. In diesem Fall wird der kontinuierliche Bitstrom eindeutig decodiert, da der Decoder zuerst kürzere Muster erkennt. Effiziente Codes waren lange Zeit rein akademisch, wurden aber kürzlich erfolgreich bei der Bildung von Datenbanken sowie bei der Komprimierung von Informationen in modernen Modems und Softwarearchivierern eingesetzt.

Angesichts der Ungleichmäßigkeit wird eine durchschnittliche Codelänge eingeführt. Durchschnittliche Länge - mathematische Erwartung der Codelänge:

außerdem tendiert l cf von oben nach H(x) (d. h. l cf > H(x)).

Die Erfüllung der Bedingung (2.23) wird mit zunehmendem N stärker.

Es gibt zwei Arten von effizienten Codes: Shannon-Fano und Huffman. Nehmen wir ein Beispiel, um sie zu bekommen. Angenommen, die Wahrscheinlichkeiten der Zeichen in der Folge haben die in Tabelle 2.1 angegebenen Werte.

Tabelle 2.1.

Symbolwahrscheinlichkeiten

N
Pi 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Symbole sind geordnet, das heißt, sie werden in einer Reihe in absteigender Reihenfolge der Wahrscheinlichkeiten dargestellt. Danach wird nach der Shannon-Fano-Methode folgende Prozedur periodisch wiederholt: Die gesamte Gruppe von Ereignissen wird in zwei Untergruppen mit gleichen (oder ungefähr gleichen) Gesamtwahrscheinlichkeiten aufgeteilt. Das Verfahren wird fortgesetzt, bis ein Element in der nächsten Untergruppe verbleibt, wonach dieses Element eliminiert wird und die angegebenen Aktionen mit den verbleibenden fortgesetzt werden. Dies wird so lange fortgesetzt, bis in den letzten beiden Untergruppen nur noch ein Element übrig ist. Setzen wir die Betrachtung unseres Beispiels fort, das in Tabelle 2.2 zusammengefasst ist.

Tabelle 2.2.

Shannon-Fano-Codierung

N Pi
4 0.3 ich
0.2 ich II
6 0.15 ich ich
0.1 II
1 0.1 ich ich
9 0.05 II II
5 0.05 II ich
7 0.03 II II ich
8 0.02 II

Wie aus Tabelle 2.2 ersichtlich ist, hat das erste Symbol mit der Wahrscheinlichkeit p 4 = 0,3 an zwei Verfahren zur Aufteilung in Gruppen teilgenommen und fiel beide Male in die Gruppe mit der Nummer I . Dementsprechend ist es mit einem zweistelligen Code II codiert. Das zweite Element in der ersten Stufe der Partitionierung gehörte zur Gruppe I, im zweiten zur Gruppe II. Daher ist sein Code 10. Die Codes der verbleibenden Zeichen benötigen keine zusätzlichen Kommentare.

Üblicherweise werden uneinheitliche Codes als Codebäume dargestellt. Ein Codebaum ist ein Diagramm, das die zulässigen Codekombinationen anzeigt. Die Richtungen der Kanten dieses Graphen werden vorläufig festgelegt, wie in Abb. 2.11 gezeigt (die Wahl der Richtungen ist willkürlich).

Gemäß der Grafik werden sie wie folgt geführt: Erstellen Sie eine Route für das ausgewählte Symbol; die Anzahl der Bits dafür ist gleich der Anzahl der Kanten in der Route, und der Wert jedes Bits ist gleich der Richtung der entsprechenden Kante. Die Route wird vom Startpunkt aus gezeichnet (in der Zeichnung mit dem Buchstaben A gekennzeichnet). Beispielsweise besteht die Route zum Scheitelpunkt 5 aus fünf Kanten, von denen alle bis auf die letzte die Richtung 0 haben; wir erhalten den Code 00001.

Für dieses Beispiel berechnen wir die Entropie und die durchschnittliche Länge eines Wortes.

H(x) = -(0,3 log 0,3 + 0,2 log 0,2 + 2 0,1 log 0,1+ 2 0,05 log 0,05+

0,03 log 0,03 + 0,02 log 0,02) = 2,23 Bit

lav = 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 + 0,05 4+

0.03 6 + 0.02 6 = 2.9 .

Wie Sie sehen können, liegt die durchschnittliche Wortlänge nahe an der Entropie.

Huffman-Codes werden nach einem anderen Algorithmus aufgebaut. Das Codierverfahren besteht aus zwei Schritten. In der ersten Stufe wird sequentiell eine einmalige Komprimierung des Alphabets durchgeführt. Einmalige Komprimierung - Ersetzen der letzten beiden Zeichen (mit den niedrigsten Wahrscheinlichkeiten) durch eins mit einer Gesamtwahrscheinlichkeit. Die Komprimierung wird durchgeführt, bis zwei Zeichen verbleiben. Gleichzeitig wird die Codierungstabelle ausgefüllt, in der die resultierenden Wahrscheinlichkeiten eingetragen werden, und es werden auch die Wege dargestellt, auf denen die neuen Symbole in der nächsten Stufe verlaufen.

In der zweiten Stufe findet die eigentliche Codierung statt, die mit der letzten Stufe beginnt: Dem ersten der beiden Zeichen wird der Code 1 zugewiesen, dem zweiten - 0. Danach gehen sie zur vorherigen Stufe über. Die Codes aus der nächsten Stufe werden den Zeichen zugeordnet, die in dieser Stufe nicht an der Komprimierung teilgenommen haben, und der Code des nach dem Kleben erhaltenen Zeichens wird zweimal den letzten beiden Zeichen zugeordnet und an den Code des oberen Zeichens 1 angehängt untere - 0. Wenn das Zeichen nicht weiter an der Verklebung teilnimmt, bleibt sein Code unverändert. Das Verfahren wird bis zum Ende fortgesetzt (dh bis zur ersten Stufe).

Tabelle 2.3 zeigt die Huffman-Codierung. Wie aus der Tabelle ersichtlich, wurde die Codierung in 7 Stufen durchgeführt. Links sind die Wahrscheinlichkeiten von Symbolen, rechts - Zwischencodes. Die Pfeile zeigen die Bewegungen der neu gebildeten Symbole. Auf jeder Stufe unterscheiden sich die letzten beiden Zeichen nur im niederwertigsten Bit, was der Codierungstechnik entspricht. Berechnen Sie die durchschnittliche Wortlänge:

lav = 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 = 2,7

Dies ist noch näher an der Entropie: Der Code ist noch effizienter. Auf Abb. 2.12 zeigt den Huffman-Codebaum.

Tabelle 2.3.

Huffman-Codierung

N Pi der Code ich II III IV v VI VII
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Beide Codes erfüllen die Forderung nach eindeutiger Dekodierung: Wie aus den Tabellen ersichtlich, sind kürzere Kombinationen nicht der Beginn längerer Codes.

Mit zunehmender Zeichenanzahl steigt die Effizienz von Codes, daher werden in einigen Fällen größere Blöcke codiert (z. B. können Sie bei Texten einige der häufigsten Silben, Wörter und sogar Sätze codieren). ).

Die Wirkung der Einführung solcher Codes wird durch den Vergleich mit einem einheitlichen Code ermittelt:

(2.24)

wobei n die Anzahl der Ziffern des einheitlichen Codes ist, die durch eine effektive ersetzt wird.

Modifikationen von Huffman-Codes

Der klassische Huffman-Algorithmus bezieht sich auf Two-Pass, d.h. erfordert zuerst eine Reihe von Statistiken über Symbole und Nachrichten und dann die oben beschriebenen Verfahren. Dies ist in der Praxis unbequem, da es die Zeit für die Nachrichtenverarbeitung und das Ansammeln des Wörterbuchs erhöht. Häufiger werden One-Pass-Verfahren verwendet, bei denen Akkumulations- und Codierungsverfahren kombiniert werden. Solche Verfahren werden auch als adaptive Huffman-Kompression bezeichnet [46].

Das Wesen der adaptiven Komprimierung nach Huffman reduziert sich auf die Konstruktion des anfänglichen Codebaums und seine anschließende Modifikation nach dem Eintreffen jedes nächsten Zeichens. Wie zuvor sind die Bäume hier binär, d.h. von jeder Ecke des Graphenbaums kommen maximal zwei Bögen. Es ist üblich, den anfänglichen Scheitelpunkt als Elternteil und die nächsten beiden damit verbundenen Scheitelpunkte als Kinder zu bezeichnen. Lassen Sie uns das Konzept der Gewichtung eines Scheitelpunkts einführen – dies ist die Anzahl der Zeichen (Wörter), die einem gegebenen Scheitelpunkt entsprechen und die beim Senden der ursprünglichen Sequenz erhalten werden. Offensichtlich ist die Summe der Gewichte der Kinder gleich dem Gewicht des Elternteils.

Nach der Einführung des nächsten Symbols der Eingabesequenz wird der Codebaum überarbeitet: Die Gewichte der Eckpunkte werden neu berechnet und, falls erforderlich, werden die Eckpunkte neu angeordnet. Die Scheitelpunktpermutationsregel lautet wie folgt: Die Gewichte der unteren Scheitelpunkte sind am kleinsten, und die Scheitelpunkte auf der linken Seite des Diagramms haben die kleinsten Gewichte.

Gleichzeitig werden die Eckpunkte nummeriert. Die Nummerierung beginnt bei den unteren (hängenden, also ohne Kinder) Scheitelpunkten von links nach rechts und wird dann auf übertragen höheres Niveau usw. bis zur Nummerierung des letzten Anfangsscheitels. In diesem Fall wird das folgende Ergebnis erzielt: Je kleiner das Gewicht des Scheitels ist, desto kleiner ist seine Anzahl.

Die Permutation wird hauptsächlich für hängende Eckpunkte durchgeführt. Beim Umordnen sollte die oben formulierte Regel beachtet werden: Knoten mit großem Gewicht haben auch eine größere Zahl.

Nach dem Durchlaufen der Sequenz (auch Kontrolle oder Test genannt) werden allen hängenden Vertices Codekombinationen zugeordnet. Die Codezuweisungsregel ähnelt der obigen: Die Anzahl der Codebits ist gleich der Anzahl der Scheitelpunkte, durch die die Route von der Quelle zum gegebenen hängenden Scheitelpunkt verläuft, und der Wert eines bestimmten Bits entspricht der Richtung von der Elternteil zum "Kind" (sagen wir, der Übergang nach links vom Elternteil entspricht dem Wert 1, nach rechts - 0 ).

Die resultierenden Codekombinationen werden zusammen mit ihren Gegenstücken in den Speicher der Kompressionsvorrichtung eingegeben und bilden ein Wörterbuch. Die Verwendung des Algorithmus ist wie folgt. Die komprimierte Zeichenfolge wird gemäß dem verfügbaren Wörterbuch in Fragmente unterteilt, wonach jedes der Fragmente durch seinen Code aus dem Wörterbuch ersetzt wird. Fragmente, die nicht im Wörterbuch gefunden werden, bilden neue hängende Ecken, gewinnen an Gewicht und werden ebenfalls in das Wörterbuch eingetragen. Somit wird ein adaptiver Wörterbuchergänzungsalgorithmus gebildet.

Um die Effizienz des Verfahrens zu erhöhen, ist es wünschenswert, die Größe des Wörterbuchs zu erhöhen; in diesem Fall wird das Kompressionsverhältnis erhöht. In der Praxis beträgt die Größe eines Wörterbuchs 4 - 16 KB Speicher.


Lassen Sie uns den obigen Algorithmus an einem Beispiel veranschaulichen. Auf Abb. 2.13 zeigt das ursprüngliche Diagramm (auch Huffman-Baum genannt). Jeder Scheitelpunkt des Baums wird durch ein Rechteck dargestellt, in das zwei Ziffern durch einen Bruch eingegeben werden: Die erste gibt die Nummer des Scheitelpunkts an, die zweite - sein Gewicht. Wie Sie sehen können, ist die Übereinstimmung zwischen den Gewichten der Scheitelpunkte und ihren Zahlen erfüllt.

Nehmen wir nun an, dass das dem Scheitelpunkt 1 entsprechende Symbol ein zweites Mal in der Testsequenz vorkommt. Das Gewicht des Scheitels hat sich geändert, wie in Abb. 2.14, wodurch die Knotennummerierungsregel verletzt wird. Im nächsten Schritt ändern wir die Position der hängenden Scheitelpunkte, wofür wir die Scheitelpunkte 1 und 4 vertauschen und alle Scheitelpunkte des Baums neu nummerieren. Das resultierende Diagramm ist in Abb. 2.15. Das Verfahren wird dann in gleicher Weise fortgesetzt.

Es sollte daran erinnert werden, dass jeder hängende Knoten im Huffman-Baum einem bestimmten Zeichen oder einer bestimmten Gruppe von ihnen entspricht. Der Elternteil unterscheidet sich von den Kindern dadurch, dass die ihm entsprechende Zeichengruppe um ein Zeichen kürzer ist als die seiner Kinder, und diese Kinder unterscheiden sich im letzten Zeichen. Zum Beispiel stimmt der Elternteil mit den Zeichen „kar“ überein; dann können die Kinder die Sequenzen "kara" und "karp" haben.

Der obige Algorithmus ist nicht akademisch und wird aktiv in Archivierungsprogrammen verwendet, einschließlich beim Komprimieren von Grafikdaten (sie werden weiter unten besprochen).

Lempel-Ziva-Algorithmen

Dies sind die heute am häufigsten verwendeten Komprimierungsalgorithmen. Sie werden in den meisten Programmen verwendet - Archivierer (z. B. PKZIP, ARJ, LHA). Die Essenz der Algorithmen liegt darin, dass ein bestimmter Zeichensatz bei der Archivierung durch seine Nummer in einem speziell gebildeten Wörterbuch ersetzt wird. Zum Beispiel oft zu finden in Geschäftskorrespondenz der Ausdruck "Ausgehende Nummer zu Ihrem Brief ..." kann Position 121 im Wörterbuch einnehmen; Anstatt den Satz (30 Byte) zu übertragen oder zu speichern, können Sie dann die Satznummer (1,5 Byte in BCD oder 1 Byte in Binär) speichern.

Die Algorithmen sind nach den Autoren benannt, die sie 1977 erstmals vorgeschlagen haben. Von diesen ist der erste LZ77. Zur Archivierung wird ein sogenanntes Melde-Schiebefenster angelegt, das aus zwei Teilen besteht. Der erste Teil von größerem Format dient zur Bildung eines Wörterbuchs und hat eine Größe in der Größenordnung von mehreren Kilobyte. Der zweite, kleinere Teil (normalerweise bis zu 100 Bytes) enthält die aktuellen Zeichen des angezeigten Textes. Der Algorithmus versucht, im Wörterbuch einen Satz von Zeichen zu finden, der mit den im Ansichtsfenster empfangenen übereinstimmt. Wenn dies gelingt, wird ein Code gebildet, der aus drei Teilen besteht: dem Offset im Wörterbuch relativ zu seiner anfänglichen Teilzeichenfolge, der Länge dieser Teilzeichenfolge und dem Zeichen, das dieser Teilzeichenfolge folgt. Beispielsweise besteht die ausgewählte Teilzeichenfolge aus den Zeichen "app" (insgesamt 6 Zeichen), das darauf folgende Zeichen ist "e". Wenn der Teilstring dann die Adresse (Ort im Wörterbuch) 45 hat, dann sieht der Eintrag im Wörterbuch so aus: "45, 6. e". Danach wird der Inhalt des Fensters um eine Position verschoben und die Suche fortgesetzt. Somit wird ein Wörterbuch gebildet.

Der Vorteil des Algorithmus ist ein leicht zu formalisierender Wörterbuchkompilierungsalgorithmus. Außerdem ist das Entpacken ohne das anfängliche Wörterbuch möglich (gleichzeitig eine Testsequenz wünschenswert) - das Wörterbuch wird beim Entpacken gebildet.

Die Nachteile des Algorithmus zeigen sich, wenn die Größe des Wörterbuchs zunimmt - die Suchzeit nimmt zu. Wenn außerdem im aktuellen Fenster eine Zeichenkette erscheint, die nicht im Wörterbuch enthalten ist, wird jedes Zeichen mit einem Drei-Elemente-Code geschrieben, d. h. Es ist keine Kompression, sondern eine Expansion.

Beste Eigenschaften hat den 1978 vorgeschlagenen LZSS-Algorithmus. Es gibt Unterschiede in der Wartung des Schiebefensters und den Ausgangscodes des Kompressors. Zusätzlich zum Fenster generiert der Algorithmus einen binären Baum ähnlich dem Huffman-Baum, um die Suche nach Übereinstimmungen zu beschleunigen: Jeder Teilstring, der das aktuelle Fenster verlässt, wird dem Baum als eines der Kinder hinzugefügt. Mit diesem Algorithmus können Sie die Größe des aktuellen Fensters zusätzlich erhöhen (es ist wünschenswert, dass sein Wert gleich der Zweierpotenz ist: 128, 256 usw. Bytes). Sequenzcodes werden auch anders gebildet: Ein zusätzliches 1-Bit-Präfix wird eingeführt, um uncodierte Zeichen von "Offset, Länge" -Paaren zu unterscheiden.

Ein noch größerer Komprimierungsgrad wird erreicht, wenn Algorithmen wie LZW verwendet werden. Die zuvor beschriebenen Algorithmen haben eine feste Fenstergröße, was es unmöglich macht, Phrasen, die länger als die Fenstergröße sind, in das Wörterbuch einzugeben. In den LZW-Algorithmen (und ihrem Vorgänger LZ78) hat das Ansichtsfenster eine unbegrenzte Größe, und das Wörterbuch sammelt Phrasen (und nicht wie zuvor eine Sammlung von Zeichen). Das Wörterbuch hat eine unbegrenzte Länge und der Encoder (Decoder) arbeitet im Phrase Waiting Mode. Wenn ein Satz gebildet wird, der mit dem Wörterbuch übereinstimmt, werden der Übereinstimmungscode (d. h. der Code für diesen Satz im Wörterbuch) und der Code des ihm folgenden Zeichens zurückgegeben. Wenn sich bei der Anhäufung der Zeichen ein neuer Satz bildet, wird dieser ebenfalls in das Wörterbuch eingetragen, ebenso wie ein kürzerer. Das Ergebnis ist ein rekursives Verfahren, das eine schnelle Codierung und Decodierung ermöglicht.

Zusatzfunktion Komprimierung bietet eine komprimierte Codierung wiederholter Zeichen. Wenn in der Folge einige Zeichen hintereinander folgen (im Text können dies beispielsweise "Leerzeichen" sein, in einer Zahlenfolge - aufeinanderfolgende Nullen usw.), ist es sinnvoll, sie durch ein Paar "Zeichen" zu ersetzen ; Länge" oder "Zeichen, Länge". Im ersten Fall gibt der Code das Zeichen an, mit dem die Sequenz codiert wird (normalerweise 1 Bit), dann den Code des wiederholten Zeichens und die Länge der Sequenz. Im zweiten Fall (vorgesehen für die am häufigsten vorkommenden Wiederholungszeichen) gibt das Präfix einfach das Zeichen von Wiederholungen an.

© 2014-Website

Oder Fotografischer Spielraum Fotomaterial ist das Verhältnis zwischen den maximalen und minimalen Belichtungswerten, die korrekt im Bild erfasst werden können. Übertragen auf die digitale Fotografie entspricht der Dynamikbereich eigentlich dem Verhältnis der maximal und minimal möglichen Werte des elektrischen Nutzsignals, das der Fotosensor während der Belichtung erzeugt.

Der Dynamikbereich wird in Belichtungsschritten gemessen (). Jeder Schritt entspricht einer Verdoppelung der Lichtmenge. Wenn also beispielsweise eine bestimmte Kamera einen Dynamikbereich von 8 EV hat, dann bedeutet dies, dass der maximal mögliche Wert des Nutzsignals ihrer Matrix mit dem Minimum von 2 8: 1 zusammenhängt, was bedeutet, dass die Kamera kann Objekte mit unterschiedlicher Helligkeit innerhalb eines Frames nicht mehr als 256-mal erfassen. Genauer gesagt, es kann Objekte mit beliebiger Helligkeit erfassen, jedoch erscheinen Objekte, deren Helligkeit den maximal zulässigen Wert überschreitet, blendend weiß im Bild, und Objekte, deren Helligkeit unter dem Mindestwert liegt, werden tiefschwarz. Details und Texturen sind nur bei Objekten erkennbar, deren Helligkeit in den Dynamikbereich der Kamera passt.

Um das Verhältnis zwischen der Helligkeit des hellsten und dunkelsten fotografierten Motivs zu beschreiben, wird oft der nicht ganz korrekte Begriff „Dynamikbereich der Szene“ verwendet. Korrekter wäre es, von Helligkeitsumfang oder Kontraststärke zu sprechen, da der Dynamikumfang meist eine Eigenschaft des Messgerätes (in diesem Fall die Matrix einer Digitalkamera) ist.

Leider kann der Helligkeitsbereich vieler schöner Szenen, denen wir im wirklichen Leben begegnen, den Dynamikbereich einer Digitalkamera deutlich überschreiten. In solchen Fällen ist der Fotograf gezwungen zu entscheiden, welche Objekte sehr detailliert ausgearbeitet werden sollen und welche außerhalb des Dynamikbereichs bleiben können, ohne die kreative Absicht zu beeinträchtigen. Um den Dynamikbereich Ihrer Kamera optimal zu nutzen, benötigen Sie manchmal weniger ein gründliches Verständnis der Funktionsweise des Fotosensors als vielmehr ein ausgeprägtes künstlerisches Flair.

Faktoren, die den Dynamikbereich einschränken

Die untere Grenze des Dynamikbereichs wird durch den Eigenrauschpegel des Fotosensors festgelegt. Selbst eine unbeleuchtete Matrix erzeugt ein elektrisches Hintergrundsignal, das als dunkles Rauschen bezeichnet wird. Außerdem treten Interferenzen auf, wenn eine Ladung an einen Analog-Digital-Wandler übertragen wird und der ADC selbst einen bestimmten Fehler in das digitalisierte Signal einführt - den sogenannten. Sampling-Rauschen.

Wenn Sie in völliger Dunkelheit oder mit aufgesetztem Objektivdeckel fotografieren, zeichnet die Kamera nur dieses bedeutungslose Rauschen auf. Wenn eine minimale Lichtmenge auf den Sensor trifft, beginnen sich die Fotodioden anzusammeln elektrische Ladung. Die Größe der Ladung und damit die Intensität des Nutzsignals ist proportional zur Anzahl der eingefangenen Photonen. Damit sinnvolle Details im Bild erscheinen, ist es notwendig, dass der Pegel des Nutzsignals den Pegel des Hintergrundrauschens übersteigt.

Somit kann die untere Grenze des Dynamikbereichs oder mit anderen Worten die Empfindlichkeitsschwelle des Sensors formal als der Ausgangssignalpegel definiert werden, bei dem das Signal-Rausch-Verhältnis größer als eins ist.

Die Obergrenze des Dynamikbereichs wird durch die Kapazität einer einzelnen Photodiode bestimmt. Wenn während der Belichtung eine Fotodiode eine elektrische Ladung mit maximalem Wert für sich selbst ansammelt, wird sich das Bildpixel, das der überlasteten Fotodiode entspricht, als absolut weiß herausstellen, und eine weitere Bestrahlung wird seine Helligkeit in keiner Weise beeinflussen. Dieses Phänomen wird Clipping genannt. Je höher die Überlastfähigkeit der Fotodiode ist, desto mehr Signal kann sie am Ausgang abgeben, bevor sie in die Sättigung gerät.

Wenden wir uns zur besseren Übersichtlichkeit der Kennlinie zu, die ein Diagramm der Abhängigkeit des Ausgangssignals von der Belichtung darstellt. Die horizontale Achse ist der binäre Logarithmus der von dem Sensor empfangenen Strahlung, und die vertikale Achse ist der binäre Logarithmus der Größe des elektrischen Signals, das von dem Sensor als Reaktion auf diese Strahlung erzeugt wird. Meine Zeichnung ist weitgehend willkürlich und dient nur der Veranschaulichung. Die Kennlinie eines echten Fotosensors hat einen etwas komplexeren Verlauf und der Rauschpegel ist selten so hoch.

In der Grafik sind zwei kritische Wendepunkte gut sichtbar: Beim ersten überschreitet der Nutzsignalpegel die Rauschschwelle, beim zweiten erreichen die Fotodioden die Sättigung. Die Belichtungswerte zwischen diesen beiden Punkten bilden den Dynamikbereich. In diesem abstrakten Beispiel ist es, wie Sie leicht sehen können, gleich 5 EV, d.h. die Kamera kann fünf Belichtungsverdopplungen verdauen, was einem 32-fachen (2 5 = 32) Helligkeitsunterschied entspricht.

Die Belichtungszonen, die den Dynamikbereich bilden, sind nicht gleichwertig. Obere Zonen haben ein höheres Signal-Rausch-Verhältnis und sehen daher sauberer und detaillierter aus als die niedrigeren. Dadurch ist die obere Grenze des Dynamikumfangs sehr real und spürbar – Clipping schneidet das Licht bei der geringsten Überbelichtung ab, während die untere Grenze unauffällig im Rauschen untergeht und der Übergang zu Schwarz nicht so scharf wie zu Weiß ist.

Die lineare Abhängigkeit des Signals von der Belichtung sowie ein scharfes Plateau sind einzigartige Merkmale des digitalen fotografischen Prozesses. Werfen Sie zum Vergleich einen Blick auf die bedingte Kennlinie herkömmlicher Fotofilme.

Die Form der Kurve und insbesondere der Neigungswinkel hängen stark von der Art des Films und dem Verfahren zu seiner Entwicklung ab, aber der wichtigste, auffällige Unterschied zwischen der Filmkurve und der digitalen bleibt unverändert - die nichtlineare Natur der Abhängigkeit der optischen Dichte des Films vom Belichtungswert.

Die Untergrenze des fotografischen Spielraums des Negativfilms wird durch die Schleierdichte und die Obergrenze durch die maximal erreichbare optische Dichte der Fotoschicht bestimmt; bei reversiblen Filmen ist das Gegenteil der Fall. Sowohl in den Schatten als auch in den Lichtern werden sanfte Biegungen der charakteristischen Kurve beobachtet, was auf einen Kontrastabfall hinweist, wenn man sich den Grenzen des Dynamikbereichs nähert, da die Steigung der Kurve proportional zum Kontrast des Bildes ist. So haben Belichtungsbereiche, die in der Mitte des Diagramms liegen, maximalen Kontrast, während der Kontrast in Lichtern und Schatten reduziert ist. In der Praxis macht sich der Unterschied zwischen Film und digitaler Matrix vor allem in den Glanzlichtern bemerkbar: Wo im digitalen Bild die Lichter durch Clipping ausgebrannt sind, sind auf dem Film die Details noch erkennbar, wenn auch mit geringem Kontrast, und der Übergang zu reine weiße Farbe sieht glatt und natürlich aus.

In der Sensitometrie werden sogar zwei voneinander unabhängige Begriffe verwendet: eigentlich Fotografischer Spielraum, begrenzt durch einen relativ linearen Abschnitt der Kennlinie, und nützlicher fotografischer Spielraum, die neben dem linearen Abschnitt auch die Basis und die Schulter des Diagramms umfasst.

Bemerkenswert ist, dass bei der Verarbeitung digitaler Fotografien in der Regel eine mehr oder weniger ausgeprägte S-Kurve auf sie angewendet wird, die den Kontrast in Mitteltönen auf Kosten einer Reduzierung in Schatten und Lichtern erhöht, was dem digitalen Bild mehr verleiht natürliches und angenehmes Aussehen für das Auge.

Bittiefe

Im Gegensatz zur Matrix einer Digitalkamera zeichnet sich das menschliche Sehen durch eine, sagen wir, logarithmische Sicht auf die Welt aus. Aufeinanderfolgende Verdopplungen der Lichtmenge werden von uns als gleiche Helligkeitsänderungen wahrgenommen. Leichte Zahlen können sogar mit musikalischen Oktaven verglichen werden, weil zweifache Änderungen der Tonfrequenz vom Ohr als ein einziges musikalisches Intervall wahrgenommen werden. Andere Sinnesorgane arbeiten nach dem gleichen Prinzip. Die Nichtlinearität der Wahrnehmung erweitert den Bereich der menschlichen Empfindlichkeit gegenüber Reizen unterschiedlicher Intensität erheblich.

Beim Konvertieren einer RAW-Datei (egal - mit der Kamera oder in einem RAW-Konverter) mit linearen Daten werden die sog. Gammakurve, die die Helligkeit nichtlinear erhöhen soll digitales Bild, um es mit den Besonderheiten des menschlichen Sehens in Einklang zu bringen.

Bei linearer Konvertierung ist das Bild zu dunkel.

Nach der Gammakorrektur wird die Helligkeit wieder normal.

Die Gammakurve streckt sozusagen die dunklen Töne und komprimiert die hellen Töne, wodurch die Verteilung der Abstufungen gleichmäßiger wird. Das Ergebnis ist ein natürlich wirkendes Bild, aber das Rauschen und Sampling-Artefakte in den Schatten machen sich zwangsläufig stärker bemerkbar, was durch die geringe Anzahl an Helligkeitsstufen in den unteren Zonen nur noch verstärkt wird.

Lineare Verteilung der Helligkeitsabstufungen.
Gleichmäßige Verteilung nach Anwendung der Gammakurve.

ISO und Dynamikbereich

Trotz der Tatsache, dass die digitale Fotografie das gleiche Konzept der Lichtempfindlichkeit von Fotomaterial verwendet wie die Filmfotografie, sollte klar sein, dass dies nur aus Tradition geschieht, da sich die Ansätze zur Änderung der Lichtempfindlichkeit in der digitalen und der Filmfotografie grundlegend unterscheiden.

Die Erhöhung der ISO-Empfindlichkeit in der traditionellen Fotografie bedeutet den Wechsel von einem Film zu einem anderen mit gröberer Körnung, d.h. es liegt eine objektive Veränderung der Eigenschaften des fotografischen Materials selbst vor. Bei einer Digitalkamera ist die Lichtempfindlichkeit des Sensors durch seine physikalischen Eigenschaften fest vorgegeben und kann nicht buchstäblich verändert werden. Beim Erhöhen des ISO ändert die Kamera nicht die eigentliche Empfindlichkeit des Sensors, sondern verstärkt lediglich das vom Sensor als Reaktion auf die Bestrahlung erzeugte elektrische Signal und passt den Algorithmus zur Digitalisierung dieses Signals entsprechend an.

Eine wichtige Folge davon ist die Abnahme des effektiven Dynamikumfangs proportional zur ISO-Erhöhung, denn mit dem Nutzsignal nimmt auch das Rauschen zu. Wenn bei ISO 100 der gesamte Bereich der Signalwerte digitalisiert wird - von Null bis zum Sättigungspunkt, dann wird bei ISO 200 nur die Hälfte der Kapazität von Fotodioden als Maximum genommen. Bei jeder Verdopplung der ISO-Empfindlichkeit wird scheinbar die obere Blende des Dynamikumfangs abgeschnitten, an deren Stelle die restlichen Stufen hochgezogen werden. Aus diesem Grund ist die Verwendung von ultrahohen ISO-Werten ohne praktische Bedeutung. Bei gleichem Erfolg können Sie das Foto im RAW-Konverter aufhellen und erhalten einen vergleichbaren Rauschpegel. Der Unterschied zwischen dem Erhöhen des ISO-Wertes und dem künstlichen Aufhellen des Bildes besteht darin, dass beim Erhöhen des ISO-Wertes das Signal verstärkt wird, bevor es in den ADC gelangt, was bedeutet, dass das Quantisierungsrauschen im Gegensatz zum eigenen Rauschen des Sensors im RAW-Konverter nicht verstärkt wird sie unterliegen einer Verstärkung einschließlich ADC-Fehlern. Darüber hinaus bedeutet die Reduzierung des Abtastbereichs eine genauere Abtastung der verbleibenden Werte des Eingangssignals.

Das Absenken der ISO unter den bei manchen Geräten verfügbaren Basiswert (zum Beispiel auf ISO 50) erweitert den Dynamikumfang übrigens gar nicht, sondern schwächt das Signal lediglich um die Hälfte ab, was einer Abdunklung des Bildes im RAW gleichkommt Konverter. Diese Funktion kann sogar als schädlich angesehen werden, da die Verwendung eines unter dem Mindestwert liegenden ISO-Werts die Kamera dazu veranlasst, die Belichtung zu erhöhen, was bei unveränderter Sensorsättigungsschwelle das Risiko von Clipping in den Spitzlichtern erhöht.

Wahrer Wert des Dynamikbereichs

Es gibt eine Reihe von Programmen wie (DxO Analyzer, Imatest, RawDigger usw.), mit denen Sie den Dynamikbereich einer Digitalkamera zu Hause messen können. Im Prinzip ist dies nicht sehr notwendig, da Daten für die meisten Kameras frei im Internet zu finden sind, beispielsweise bei DxOMark.com.

Sollten wir den Ergebnissen solcher Tests glauben? Ziemlich. Mit der einzigen Einschränkung, dass alle diese Tests den effektiven oder sozusagen den technischen Dynamikbereich, d.h. die Beziehung zwischen Sättigungspegel und Matrixrauschpegel. Für einen Fotografen ist vor allem der nutzbare Dynamikumfang wichtig, d.h. die Anzahl der Belichtungszonen, die es Ihnen wirklich ermöglichen, einige nützliche Informationen zu erfassen.

Wie Sie sich erinnern, wird die Schwelle des Dynamikbereichs durch den Rauschpegel des Fotosensors festgelegt. Das Problem ist, dass in der Praxis die unteren Zonen, die technisch bereits im Dynamikbereich enthalten sind, immer noch zu viel Rauschen enthalten, um richtig genutzt zu werden. Hier hängt viel vom individuellen Ekel ab - jeder bestimmt den akzeptablen Geräuschpegel für sich.

Meine subjektive Meinung ist, dass die Details in den Schatten ab einem Rauschabstand von mindestens acht mehr oder weniger anständig aussehen. Auf dieser Grundlage definiere ich den für mich nützlichen Dynamikumfang als technischen Dynamikumfang minus etwa drei Stopps.

Hat beispielsweise eine Spiegelreflexkamera nach zuverlässigen Tests einen nach heutigen Maßstäben sehr guten Dynamikumfang von 13 EV, dann liegt ihr brauchbarer Dynamikumfang bei etwa 10 EV, was im Allgemeinen auch recht gut ist. Natürlich sprechen wir über Aufnahmen in RAW, mit minimalem ISO und maximaler Bittiefe. Bei Aufnahmen in JPEG ist der Dynamikumfang stark von den Kontrasteinstellungen abhängig, im Schnitt sollten aber noch zwei bis drei Blendenstufen weggelassen werden.

Zum Vergleich: Farbreversible Filme haben einen nützlichen fotografischen Spielraum von 5-6 Stufen; Schwarz-Weiß-Negativfilme geben bei Standardentwicklungs- und Druckverfahren 9-10 Stopps und bei bestimmten Manipulationen bis zu 16-18 Stopps.

Lassen Sie uns das oben Gesagte zusammenfassend versuchen, einige davon zu formulieren einfache Regeln, die Ihnen dabei helfen, das Beste aus Ihrem Kamerasensor herauszuholen:

  • Der Dynamikumfang einer Digitalkamera steht nur bei Aufnahmen in RAW voll zur Verfügung.
  • Der Dynamikbereich nimmt mit steigendem ISO-Wert ab, vermeiden Sie also einen hohen ISO-Wert, es sei denn, dies ist unbedingt erforderlich.
  • Die Verwendung höherer Bittiefen für RAW-Dateien erhöht nicht den wahren Dynamikbereich, verbessert jedoch die Tontrennung in Schatten auf Kosten von mehr Helligkeitsstufen.
  • Belichtung nach rechts. Die oberen Belichtungszonen enthalten immer das Maximum nützliche Informationen mit einem Minimum an Rauschen und sollte möglichst effizient genutzt werden. Vergessen Sie dabei nicht die Gefahr des Clippings - Pixel, die die Sättigung erreicht haben, sind absolut nutzlos.

Und am wichtigsten, machen Sie sich nicht zu viele Gedanken über den Dynamikbereich Ihrer Kamera. Mit dem Dynamikumfang ist alles in Ordnung. Ihre Fähigkeit, das Licht zu sehen und die Belichtung richtig zu steuern, ist viel wichtiger. Ein guter Fotograf wird sich nicht über mangelnden fotografischen Spielraum beschweren, sondern versuchen, auf eine angenehmere Beleuchtung zu warten oder den Winkel zu ändern oder den Blitz zu verwenden, mit einem Wort, er wird den Umständen entsprechend handeln. Ich verrate noch mehr: Manche Szenen profitieren nur davon, dass sie nicht in den Dynamikumfang der Kamera passen. Oft muss unnötige Detailfülle einfach in einer semi-abstrakten schwarzen Silhouette versteckt werden, die das Foto sowohl prägnant als auch reicher macht.

Hoher Kontrast ist nicht immer schlecht – man muss nur damit umgehen können. Lernen Sie, sowohl die Schwächen als auch die Stärken der Ausrüstung auszunutzen, und Sie werden überrascht sein, wie sehr sich Ihre Kreativität ausdehnt.

Vielen Dank für Ihre Aufmerksamkeit!

Wassili A.

post scriptum

Wenn sich der Artikel für Sie als nützlich und informativ erwiesen hat, können Sie das Projekt freundlicherweise unterstützen, indem Sie zu seiner Entwicklung beitragen. Wenn Ihnen der Artikel nicht gefallen hat, Sie aber Ideen haben, wie Sie ihn verbessern können, wird Ihre Kritik mit nicht weniger Dankbarkeit angenommen.

Vergessen Sie nicht, dass dieser Artikel urheberrechtlich geschützt ist. Nachdruck und Zitieren sind gestattet, sofern ein gültiger Link zur Originalquelle vorhanden ist und der verwendete Text in keiner Weise entstellt oder verändert werden darf.

Kompression ist eines der mythischsten Themen in der Tonproduktion. Sie sagen, Beethoven habe sogar die Kinder ihrer Nachbarin erschreckt:(

Okay, in der Tat ist das Anwenden von Komprimierung nicht schwieriger als das Verwenden von Verzerrung. Die Hauptsache ist, zu verstehen, wie es funktioniert und wie es funktioniert gute Kontrolle. Was wir jetzt zusammen tun und sicherstellen.

Was ist audiokomprimierung

Das erste, was Sie vor der Vorbereitung verstehen müssen, ist, dass es sich um eine Komprimierung handelt Arbeiten Sie mit dem Dynamikbereich des Klangs. Und wiederum ist nichts anderes als die Differenz zwischen dem lautesten und leisesten Signalpegel:

Also, Komprimierung ist die Komprimierung des Dynamikbereichs. Ja, einfach Dynamikkompression, oder anders ausgedrückt Verringern Sie die Lautstärke der lauten Teile des Signals und erhöhen Sie die Lautstärke der leisen. Nicht mehr.

Sie können sich durchaus fragen, was der Grund für einen solchen Hype ist? Warum reden alle über Rezepte für das richtige Kompressor-Tuning, aber niemand teilt sie? Warum, trotz eine riesige Anzahl cooler Plugins, verwenden viele Studios immer noch teure seltene Kompressormodelle? Warum verwenden einige Produzenten Kompressoren mit extremen Einstellungen, während andere sie überhaupt nicht verwenden? Und welcher hat am Ende Recht?

Probleme, die Komprimierung löst

Antworten auf solche Fragen liegen auf der Ebene des Verständnisses der Rolle der Komprimierung bei der Arbeit mit Ton. Und es erlaubt:

  1. Angriff betonen klingen, machen Sie es ausgeprägter;
  2. Setzen Sie einzelne Teile von Instrumenten in den Mix ein, ihnen Kraft und "Gewicht" hinzufügen;
  3. Machen Sie Gruppen von Instrumenten oder den gesamten Mix zusammenhängender, solch ein einzelner Monolith;
  4. Lösen Sie Konflikte zwischen Tools Sidechain verwenden ;
  5. Korrigieren Sie die Fehler des Sängers oder der Musiker, Nivellierung ihrer Dynamik;
  6. Mit einer bestimmten Einstellung wirken als künstlerischer Effekt.

Wie Sie sehen, ist dies ein nicht weniger bedeutender kreativer Prozess als beispielsweise das Erfinden von Melodien oder das Spielen interessanter Klangfarben. In diesem Fall kann jede der oben genannten Aufgaben mit 4 Hauptparametern gelöst werden.

Hauptparameter des Kompressors

Trotz der großen Anzahl von Software- und Hardwaremodellen von Kompressoren tritt die ganze "Magie" der Komprimierung auf, wenn richtige Einstellung Hauptparameter: Threshold, Ratio, Attack und Release. Betrachten wir sie genauer:

Schwelle oder Schwelle, dB

Mit diesem Parameter können Sie den Wert einstellen, bei dem der Kompressor arbeitet (d. h. das Audiosignal komprimiert). Wenn wir also den Threshold auf -12dB setzen, setzt der Kompressor nur an den Stellen im Dynamikbereich ein, die diesen Wert überschreiten. Wenn unser gesamter Sound leiser als -12 dB ist, leitet der Kompressor ihn einfach durch sich selbst, ohne ihn in irgendeiner Weise zu beeinflussen.

Verhältnis oder Seitenverhältnis

Der Ratio-Parameter bestimmt, wie stark das Signal komprimiert wird, wenn es den Schwellenwert überschreitet. Ein bisschen Mathematik zur Vervollständigung des Bildes: Nehmen wir an, wir haben einen Kompressor mit einem Schwellenwert von -12 dB und einem Verhältnis von 2:1 eingerichtet und darauf angewendet Trommelschleife, wobei die Lautstärke des Kicks -4dB beträgt. Was wird in diesem Fall das Ergebnis des Kompressorbetriebs sein?

In unserem Fall überschreitet der Kick-Pegel den Schwellenwert um 8 dB. Diese Differenz wird entsprechend dem Verhältnis auf 4dB (8dB / 2) komprimiert. Zusammen mit dem unbearbeiteten Teil des Signals führt dies dazu, dass die Lautstärke der Kick nach der Bearbeitung durch den Kompressor -8 dB beträgt (Schwellenwert -12 dB + 4 dB komprimiertes Signal).

Angriff, Ms

Dies ist die Zeit, nach der der Kompressor auf das Überschreiten des Schwellenwerts reagiert. Das heißt, wenn die Attack-Zeit über 0 ms liegt − Kompressor beginnt zu komprimieren Das Überschreiten des Schwellwertsignals erfolgt nicht sofort, sondern nach der angegebenen Zeit.

Freigabe oder Wiederherstellung, ms

Das Gegenteil eines Attacks – mit dem Wert dieses Parameters können Sie festlegen, nach welcher Zeit der Signalpegel wieder unter den Schwellenwert zurückkehrt Der Kompressor hört auf zu komprimieren.

Bevor wir weitermachen, empfehle ich dringend, eine bekannte Probe zu nehmen, einen beliebigen Kompressor an seinen Kanal anzuschließen und 5-10 Minuten lang mit den oben genannten Parametern zu experimentieren, um das Material sicher zu fixieren.

Alle andere Parameter sind optional. Sie können sich zwischen verschiedenen Kompressormodellen unterscheiden, was teilweise der Grund dafür ist, dass Produzenten unterschiedliche Modelle für bestimmte Zwecke verwenden (z. B. einen Kompressor für Gesang, einen anderen für eine Schlagzeuggruppe, einen dritten für einen Masterkanal). Ich werde nicht im Detail auf diese Parameter eingehen, sondern nur geben allgemeine Informationen um zu verstehen worum es geht:

  • Knie oder Knick (hartes/weiches Knie). Dieser Parameter bestimmt, wie schnell das Kompressionsverhältnis (Verhältnis) angewendet wird: hart auf einer Kurve oder glatt. Ich stelle fest, dass der Kompressor im Soft-Knee-Modus nicht geradlinig arbeitet, sondern sanft beginnt (soweit es angemessen ist, wenn wir von Millisekunden sprechen), um den Sound zu straffen bereits vor dem Schwellenwert. Um Gruppen von Kanälen und den Gesamtmix zu verarbeiten, wird Soft Knee häufiger verwendet (da es unmerklich arbeitet), und Hard Knee wird verwendet, um Attack und andere Merkmale einzelner Instrumente zu betonen;
  • Reaktionsmodus: Peak/RMS. Der Peak-Modus hat seine Berechtigung, wenn es darum geht, Amplitudenausbrüche stark zu begrenzen, sowie bei Signalen mit komplexer Form, deren Dynamik und Lesbarkeit voll wiedergegeben werden müssen. Der RMS-Modus ist sehr klangschonend und ermöglicht es Ihnen, ihn zu komprimieren, während der Attack erhalten bleibt.
  • Voraussicht (Lookahead). Dies ist die Zeit, in der der Kompressor weiß, was ihn erwartet. Eine Art Voranalyse eingehender Signale;
  • Make-up oder Gewinn. Ein Parameter, mit dem Sie die Lautstärkeabnahme infolge der Komprimierung kompensieren können.

Zuerst und der wichtigste Rat, was alle weiteren Fragen zur Komprimierung beseitigt: Wenn Sie a) das Prinzip der Komprimierung verstehen, b) genau wissen, wie sich dieser oder jener Parameter auf den Klang auswirkt, und c) es geschafft haben, mehrere auszuprobieren verschiedene Modelledu brauchst keinen Rat.

Ich meine es absolut ernst. Wenn Sie diesen Eintrag sorgfältig lesen, experimentieren Sie mit dem regulären Kompressor Ihres DAW und ein oder zwei Plugins, verstand aber nicht, in welchen Fällen es notwendig ist, große Angriffswerte einzustellen, welche Verhältnis anwenden und in welchem ​​​​Modus das Quellsignal verarbeitet werden soll - dann werden Sie weiterhin im Internet nach vorgefertigten Rezepten suchen und sie gedankenlos überall anwenden.

Rezepte zur Feinabstimmung des Kompressors Es ist wie ein Rezept für die Feinabstimmung eines Reverbs oder Chorus - es macht keinen Sinn und hat nichts mit Kreativität zu tun. Deshalb wiederhole ich beharrlich das einzig wahre Rezept: Bewaffnen Sie sich mit diesem Artikel, gute Monitorkopfhörer, ein Plug-in zur visuellen Kontrolle der Wellenform, und verbringen Sie den Abend in Gesellschaft von ein paar Kompressoren.

Handeln Sie!