Editing Metody podwyższania niezawodności systemów cyfrowych
From Obrona
Warning: You are not logged in.
Your IP address will be recorded in this page's edit history.
The edit can be undone.
Please check the comparison below to verify that this is what you want to do, and then save the changes below to finish undoing the edit.
Current revision | Your text | ||
Line 1: | Line 1: | ||
- | + | INF1: Metody podwyższania niezawodności systemów cyfrowych. | |
- | + | defekt(failure) – praca niezgodna ze specyfikacją | |
- | + | błąd(error) – błędny stan w układzie, efekt uszkodzenia, przyczyna defektu | |
- | + | uszkodzenie(fault) – przyczyna wystąpienia błędu | |
+ | Typy | ||
Typy błędów: | Typy błędów: | ||
- | + | pojedyncze | |
- | + | wielokrotne | |
- | + | symetryczne | |
- | + | jednokierunkowe | |
- | + | asymetryczne | |
+ | wiązki błędów | ||
Line 18: | Line 20: | ||
- | + | Systemy FTS (Fault Tolerant System - system tolerujący błędy) | |
Podwyższanie niezawodności systemów cyfrowych można uzyskać poprzez tolerowanie uszkodzeń, które powstają w trakcie ich pracy. Tolerowania uszkodzeń jest to zabezpieczenie systemu przed skutkami uszkodzeń jego elementów, których wystąpienie uważa się za nieuchronne. W ten sposób system ma możliwość kontynuowania poprawnego wykonywania przewidzianych zadań pomimo wystąpienia uszkodzeń wewnątrz systemu. | Podwyższanie niezawodności systemów cyfrowych można uzyskać poprzez tolerowanie uszkodzeń, które powstają w trakcie ich pracy. Tolerowania uszkodzeń jest to zabezpieczenie systemu przed skutkami uszkodzeń jego elementów, których wystąpienie uważa się za nieuchronne. W ten sposób system ma możliwość kontynuowania poprawnego wykonywania przewidzianych zadań pomimo wystąpienia uszkodzeń wewnątrz systemu. | ||
Line 25: | Line 27: | ||
Typy nadmiaru: | Typy nadmiaru: | ||
- | + | 1.informacji, | |
- | + | 2.sprzętu, | |
- | + | 3.czasu, | |
- | + | 4.oprogramowania. | |
- | + | Nadmiar informacji polega na dodaniu nadmiarowych bitów do informacji w celu wykrycia błędów – np. bit parzystości w szynie lub pamięci, lub korekcji błędów – np. kody Hamminga dla pamięci RAM lub kody cykliczne (CRC) dla pamięci dyskowej lub taśmowej. | |
- | + | Nadmiar sprzętu polega na użyciu dodatkowych lub rozbudowie istniejących układów w celu wykrycia, diagnostyki, maskowania uszkodzeń, lub naprawy; np. realizacja układu jako samosprawdzalnego, potrojenie modułu z głosowaniem lub zapewnienie modułów zapasowych podłączanych automatycznie. | |
- | + | Nadmiar czasu polega na wydłużeniu czasu wykonania operacji lub sekwencji operacji poprzez wielokrotne jej wykonanie w celu późniejszego porównania wyników. | |
- | + | Nadmiar oprogramowania polega na użyciu nadmiarowego oprogramowania w celu wykrycia lub tolerowania uszkodzeń zarówno sprzętu jak i oprogramowania wykonującego to samo zadanie, ale wykonanego poprzez różnych niezależnych wykonawców (producentów). | |
W praktyce wprowadzenie jednego (podstawowego ) typu nadmiaru pociąga za sobą konieczność użycia innych rodzajów nadmiaru. Np. użycie kodu wykrywającego lub korygującego błędy (nadmiar informacji) wymaga użycia kodera i dekodera (nadmiar sprzętu) i wprowadza dodatkowe opóźnienie wnoszone poprzez proces kodowania, dekodowania i korekcji błędów (nadmiar czasu). | W praktyce wprowadzenie jednego (podstawowego ) typu nadmiaru pociąga za sobą konieczność użycia innych rodzajów nadmiaru. Np. użycie kodu wykrywającego lub korygującego błędy (nadmiar informacji) wymaga użycia kodera i dekodera (nadmiar sprzętu) i wprowadza dodatkowe opóźnienie wnoszone poprzez proces kodowania, dekodowania i korekcji błędów (nadmiar czasu). | ||
Nie ma jednego uniwersalnego rozwiązania dla wszystkich zastosowań systemów tolerujących uszkodzenia. Główne kryteria stosowania i doboru typów nadmiaru to: skuteczność wykrywania (lub korygowania) błędów oraz koszt implementacji systemu w wersji tolerującej uszkodzenia. Dobór nadmiaru powinien być poprzedzony staranną analizą typów najczęściej występujących uszkodzeń i ich skutków. | Nie ma jednego uniwersalnego rozwiązania dla wszystkich zastosowań systemów tolerujących uszkodzenia. Główne kryteria stosowania i doboru typów nadmiaru to: skuteczność wykrywania (lub korygowania) błędów oraz koszt implementacji systemu w wersji tolerującej uszkodzenia. Dobór nadmiaru powinien być poprzedzony staranną analizą typów najczęściej występujących uszkodzeń i ich skutków. | ||
- | + | a)Definicje uszkodzeń i odnów w systemach cyfrowych : uszkodzenia i przekłamania – źródła + sposoby wykrywania, odnowa techniczna i informacyjna. | |
Defekt fizyczny występuje, gdy działanie układu cyfrowego odbiega od wynikającego w specyfikacji. Defekty rozpatruje się na poziomie fizycznym układu; np. zwarcie linii do masy, zwarcie dwóch sąsiednich linii, przerwa w linii, przebicie diody lub tranzystora etc. Dla większości defektów fizycznych jest możliwe określenie wpływu na logiczne zachowanie układu. | Defekt fizyczny występuje, gdy działanie układu cyfrowego odbiega od wynikającego w specyfikacji. Defekty rozpatruje się na poziomie fizycznym układu; np. zwarcie linii do masy, zwarcie dwóch sąsiednich linii, przerwa w linii, przebicie diody lub tranzystora etc. Dla większości defektów fizycznych jest możliwe określenie wpływu na logiczne zachowanie układu. | ||
Line 52: | Line 54: | ||
zwarcie linii wyjściowej do zasilania. | zwarcie linii wyjściowej do zasilania. | ||
Analiza układów cyfrowych na poziomie uszkodzeń a nie defektów fizycznych ma szereg zalet. | Analiza układów cyfrowych na poziomie uszkodzeń a nie defektów fizycznych ma szereg zalet. | ||
- | + | 1.Jeżeli uszkodzenie jest adekwatnym modelem defektów, to problem jest analizowany na poziomie logicznym a nie fizycznym. | |
- | + | 2.Jest możliwe konstruowanie logicznych modeli uszkodzeń nadających się do wielu różnych technologii. Tym samym, analiza wielu klas uszkodzeń staje się niezależna od technologii. | |
- | + | 3.Stosowanie logicznych modeli uszkodzeń pozwala generować testy nawet dla tych uszkodzeń, których fizyczna przyczyna jest nieznana lub której wpływ na zachowanie nie jest dokładnie zrozumiany. | |
Błąd polega na wystąpieniu niepoprawnego stanu logicznego /z (NOT z) zamiast z, co zapisujemy z /z, z {0, 1}, spowodowanego uszkodzeniem układu. Błąd może wystąpić w zupełnie innym miejscu niż samo uszkodzenie. Błędy rozpatruje się na informacyjnym poziomie abstrakcji i charakteryzuje się je np. wartością stanu logicznego w linii lub rejestrze. Błędy spowodowane uszkodzeniami sprzętu mogą spowodować błędy danych i/lub błędy w wykonywanej sekwencji. Pojedyńcze uszkodzenie może spowodować błędy w wielu miejscach układu logicznego. | Błąd polega na wystąpieniu niepoprawnego stanu logicznego /z (NOT z) zamiast z, co zapisujemy z /z, z {0, 1}, spowodowanego uszkodzeniem układu. Błąd może wystąpić w zupełnie innym miejscu niż samo uszkodzenie. Błędy rozpatruje się na informacyjnym poziomie abstrakcji i charakteryzuje się je np. wartością stanu logicznego w linii lub rejestrze. Błędy spowodowane uszkodzeniami sprzętu mogą spowodować błędy danych i/lub błędy w wykonywanej sekwencji. Pojedyńcze uszkodzenie może spowodować błędy w wielu miejscach układu logicznego. | ||
Typy uszkodzeń: | Typy uszkodzeń: | ||
- | + | 1.błędy specyfikacji, | |
- | + | 2.błędy implementacji, | |
- | + | 3.defekty elementów, | |
- | + | 4.zakłócenia zewnętrzne. | |
- | + | ||
Typy błędów: | Typy błędów: | ||
- | + | 1.błędy pojedyńcze, | |
- | + | 2.błędy wielokrotne: | |
- | + | a)błędy symetryczne, | |
- | + | b)błędy jednokierunkowe, | |
- | + | c)błędy asymetryczne, | |
- | + | d)wiązki błędów, | |
- | + | e)błędy w bajtach. | |
Podstawowe klasy kodów wykrywających błędy: | Podstawowe klasy kodów wykrywających błędy: | ||
- | + | 1.kody z kontrolą parzystości, | |
- | + | 2.kody z podwajaniem i kody z inwersyjnym powtórzeniem, | |
- | + | 3.kody arytmetyczne : niesystematyczne kody AN i systematyczne kody resztowe, | |
- | + | 4.kody wykrywające błędy w bajtach: kody z sumą kontrolną, kody b-sąsiednie, | |
- | + | 5.kody wykrywające błędy jednokierunkowe: | |
- | + | 5.1.kody nieuporządkowane, tj. kody wykrywające błędy jednokierunkowe o dowolnej krotności: niesymetryczne kody m z n (stałowagowe) i systematyczne kody Bergera, | |
- | + | 5.2.kody wykrywające t błędów jednokierunkowych – kody Bordena, | |
- | + | 5.3.kody wykrywające błędy jednokierunkowe w bajtach – kody Bose’go-Lin’a o kody Bluma. | |
- | + | Rozwiązania klastrowe | |
Dwa lub więcej serwerów podłączonych do tej samej macierzy dyskowej. W przypadku awarii jednego z nich, pracuje drugi. | Dwa lub więcej serwerów podłączonych do tej samej macierzy dyskowej. W przypadku awarii jednego z nich, pracuje drugi. | ||
Stacje dysków | Stacje dysków | ||
- | + | Mirroring - zapis tej samej informacji na 2 dyskach. Oba podłączone do tego samego sterownika. | |
- | + | Duplexing - zapis tej samej informacji na 2 dyskach. Podłączone do różnych sterowników. | |
- | + | RAID (Redundant Array of Inexpensive Discs) systemy zwiększające niezawodność w wypadku stosowania urządzeń dyskowych. Wyróżnia się 10 typów systemów RAID, w systemach tych stosuje się mirroring, striping (podział danych na małe bloki i rozmieszczenie na różnych dyskach), kontrolę parzystości. | |
Sieci komputerowe | Sieci komputerowe | ||
- | + | zwielokrotnianie połączeń | |
- | + | prowadzenie zwielokrotnionych połączeń różnymi trasami | |
- | + | zwielokrotnianie sprzętu | |
- | + | transmisja danych - kody korekcyjne i detekcyjne (np. CRC) | |
Zasilanie | Zasilanie | ||
- | + | Zasilacze awaryjne (UPS) | |
- | + | Generatory prądu | |
- | + | Zwielokrotnianie źródeł zasilania | |
Cyfrówka | Cyfrówka | ||
- | + | powielanie z głosowaniem | |
- | + | jednostki samosprawdzalne (inwersyjne powtórzenie) | |
- | + | dublowanie jednostek samosprawdzalnych | |
- | + | kody korekcyjne. np Hamminga dh(odległośc Hamminga)= | |
2 - wykrywa pojedyncze błędy | 2 - wykrywa pojedyncze błędy | ||
3 - poprawia pojedyncze błędy | 3 - poprawia pojedyncze błędy | ||
4 - wykrywa podwójne i poprawia pojedyncze | 4 - wykrywa podwójne i poprawia pojedyncze | ||
- | + | kody detekcyjne - pionowa i pozioma kontrola parzystości (w matrycy), crc, modulo... | |
- | + | różnorodność funkcjonalna - wykonywanie tej samej operacji na kilku elementach realizujących ta sama funkcję, ale zaprojektowanych i wykonanych niezależnie | |
- | + | 5. Metody podwyższania niezawodności systemów cyfrowych. | |
Metody podwyższania niezawodności systemów cyfrowych mają za zadanie zapewnienie ciągłej pracy systemu cyfrowego w przypadku uszkodzenia lub awarii działania elementów systemu. Do metod tych zaliczamy systemy FTS w przypadku napędów dyskowych, rozwiązania klastrowe dla serwerów oraz redundancja urządzeń i połączeń dla sieci komputerowych oraz zasilanie awaryjne dla całych systemów. | Metody podwyższania niezawodności systemów cyfrowych mają za zadanie zapewnienie ciągłej pracy systemu cyfrowego w przypadku uszkodzenia lub awarii działania elementów systemu. Do metod tych zaliczamy systemy FTS w przypadku napędów dyskowych, rozwiązania klastrowe dla serwerów oraz redundancja urządzeń i połączeń dla sieci komputerowych oraz zasilanie awaryjne dla całych systemów. | ||
Systemy FTS (Fault Tolerant System - system tolerujący błędy) | Systemy FTS (Fault Tolerant System - system tolerujący błędy) | ||
Line 130: | Line 131: | ||
Do metod podwyższania niezawodności należy też stosowanie zasilania awaryjnego. Do tego typu rozwiązań zalicza się zasilacze awaryjne UPS (Uniterruptable Power Source) oraz generatory, które przejmują zadanie zasilania sieci i urządzeń w przypadku zaniku zasilania zewnętrznego. W najprostszym przypadku pozwala to na dokończenie pracy i bezpieczne wyłączenie urządzeń w przypadku awarii zasilania (przy zastosowaniu UPS). W przypadku zastosowania generatorów można normalnie pracować, bez konieczności przerywania pracy systemu. W przypadku stosowania generatorów należy stosować także zasilacze UPS, które podtrzymają zasilanie do czasu uruchomienia generatora. | Do metod podwyższania niezawodności należy też stosowanie zasilania awaryjnego. Do tego typu rozwiązań zalicza się zasilacze awaryjne UPS (Uniterruptable Power Source) oraz generatory, które przejmują zadanie zasilania sieci i urządzeń w przypadku zaniku zasilania zewnętrznego. W najprostszym przypadku pozwala to na dokończenie pracy i bezpieczne wyłączenie urządzeń w przypadku awarii zasilania (przy zastosowaniu UPS). W przypadku zastosowania generatorów można normalnie pracować, bez konieczności przerywania pracy systemu. W przypadku stosowania generatorów należy stosować także zasilacze UPS, które podtrzymają zasilanie do czasu uruchomienia generatora. | ||
- | + | Metody podwyższania niezawodności systemów cyfrowych | |
- | + | a)metody rezerwowania sprzętowego, ???? | |
- | + | b)metody rezerwowania przydatne dla systemów cyfrowych,??? | |
- | + | c)FTC: definicja, przykłady realizacji, | |
Tolerowanie uszkodzeń jest to zdolność systemu cyfrowego do kontynuowania poprawnego wykonywania przewidzianych zadań pomimo wystąpienia uszkodzeń wewnątrz systemu. Głównym celem tolerowania uszkodzeń jest zabezpieczenie systemu przed skutkami uszkodzeń jego elementów, których wystąpienie uważa się za nieuchronne. Tolerowanie uszkodzeń w systemie cyfrowym zawsze wymaga wprowadzenie pewnego typu nadmiaru (redundancji) do systemu. | Tolerowanie uszkodzeń jest to zdolność systemu cyfrowego do kontynuowania poprawnego wykonywania przewidzianych zadań pomimo wystąpienia uszkodzeń wewnątrz systemu. Głównym celem tolerowania uszkodzeń jest zabezpieczenie systemu przed skutkami uszkodzeń jego elementów, których wystąpienie uważa się za nieuchronne. Tolerowanie uszkodzeń w systemie cyfrowym zawsze wymaga wprowadzenie pewnego typu nadmiaru (redundancji) do systemu. | ||
- | |||
Typy nadmiaru: | Typy nadmiaru: | ||
- | + | 5.informacji, | |
- | + | 6.sprzętu, | |
- | + | 7.czasu, | |
- | + | 8.oprogramowania. | |
- | + | Nadmiar informacji polega na dodaniu nadmiarowych bitów do informacji w celu wykrycia błędów – np. bit parzystości w szynie lub pamięci, lub korekcji błędów – np. kody Hamminga dla pamięci RAM lub kody cykliczne (CRC) dla pamięci dyskowej lub taśmowej. | |
- | + | Nadmiar sprzętu polega na użyciu dodatkowych lub rozbudowie istniejących układów w celu wykrycia , diagnostyki, maskowania uszkodzeń, lub naprawy; np. realizacja układu jako samosprawdzalnego, potrojenie modułu z głosowaniem lub zapewnienie modułów zapasowych podłączanych automatycznie. | |
- | + | Nadmiar czasu polega na wydłużeniu czasu wykonania operacji lub sekwencji operacji poprzez wielokrotne jej wykonanie w celu późniejszego porównania wyników. | |
- | + | Nadmiar oprogramowania polega na użyciu nadmiarowego oprogramowania w celu wykrycia lub tolerowania uszkodzeń zarówno sprzętu jak i oprogramowania wykonującego to samo zadanie, ale wykonanego poprzez różnych niezależnych wykonawców (producentów). | |
W praktyce wprowadzenie jednego (podstawowego ) typu nadmiaru pociąga za sobą konieczność użycia innych rodzajów nadmiaru. Np. użycie kodu wykrywającego lub korygującego błędy (nadmiar informacji) wymaga użycia kodera i dekodera (nadmiar sprzętu) i wprowadza dodatkowe opóźnienie wnoszone poprzez proces kodowania, dekodowania i korekcji błędów (nadmiar czasu). | W praktyce wprowadzenie jednego (podstawowego ) typu nadmiaru pociąga za sobą konieczność użycia innych rodzajów nadmiaru. Np. użycie kodu wykrywającego lub korygującego błędy (nadmiar informacji) wymaga użycia kodera i dekodera (nadmiar sprzętu) i wprowadza dodatkowe opóźnienie wnoszone poprzez proces kodowania, dekodowania i korekcji błędów (nadmiar czasu). | ||
Nie ma jednego uniwersalnego rozwiązania dla wszystkich zastosowań systemów tolerujących uszkodzenia. Główne kryteria stosowania i doboru typów nadmiaru to: skuteczność wykrywania (lub korygowania) błędów oraz koszt implementacji systemu w wersji tolerującej uszkodzenia. Dobór nadmiaru powinien być poprzedzony staranną analizą typów najczęściej występujących uszkodzeń i ich skutków. | Nie ma jednego uniwersalnego rozwiązania dla wszystkich zastosowań systemów tolerujących uszkodzenia. Główne kryteria stosowania i doboru typów nadmiaru to: skuteczność wykrywania (lub korygowania) błędów oraz koszt implementacji systemu w wersji tolerującej uszkodzenia. Dobór nadmiaru powinien być poprzedzony staranną analizą typów najczęściej występujących uszkodzeń i ich skutków. | ||
- | + | d)Definicje uszkodzeń i odnów w systemach cyfrowych : uszkodzenia i przekłamania – źródła + sposoby wykrywania, odnowa techniczna i informacyjna. | |
Defekt fizyczny występuje, gdy działanie układu cyfrowego odbiega od wynikającego w specyfikacji. Defekty rozpatruje się na poziomie fizycznym układu; np. zwarcie linii do masy, zwarcie dwóch sąsiednich linii, przerwa w linii, przebicie diody lub tranzystora etc. Dla większości defektów fizycznych jest możliwe określenie wpływu na logiczne zachowanie układu. | Defekt fizyczny występuje, gdy działanie układu cyfrowego odbiega od wynikającego w specyfikacji. Defekty rozpatruje się na poziomie fizycznym układu; np. zwarcie linii do masy, zwarcie dwóch sąsiednich linii, przerwa w linii, przebicie diody lub tranzystora etc. Dla większości defektów fizycznych jest możliwe określenie wpływu na logiczne zachowanie układu. | ||
Line 167: | Line 167: | ||
zwarcie linii wejściowej do masy, | zwarcie linii wejściowej do masy, | ||
zwarcie linii wyjściowej do zasilania. | zwarcie linii wyjściowej do zasilania. | ||
- | |||
Analiza układów cyfrowych na poziomie uszkodzeń a nie defektów fizycznych ma szereg zalet. | Analiza układów cyfrowych na poziomie uszkodzeń a nie defektów fizycznych ma szereg zalet. | ||
- | + | b)Jeżeli uszkodzenie jest adekwatnym modelem defektów, to problem jest analizowany na poziomie logicznym a nie fizycznym. | |
- | + | c)Jest możliwe konstruowanie logicznych modeli uszkodzeń nadających się do wielu różnych technologii. Tym samym, analiza wielu klas uszkodzeń staje się niezależna od technologii. | |
- | + | d)Stosowanie logicznych modeli uszkodzeń pozwala generować testy nawet dla tych uszkodzeń, których fizyczna przyczyna jest nieznana lub której wpływ na zachowanie nie jest dokładnie zrozumiany. | |
Błąd polega na wystąpieniu niepoprawnego stanu logicznego /z (NOT z) zamiast z, co zapisujemy z /z, z {0, 1}, spowodowanego uszkodzeniem układu. Błąd może wystąpić w zupełnie innym miejscu niż samo uszkodzenie. Błędy rozpatruje się na informacyjnym poziomie abstrakcji i charakteryzuje się je np. wartością stanu logicznego w linii lub rejestrze. Błędy spowodowane uszkodzeniami sprzętu mogą spowodować błędy danych i/lub błędy w wykonywanej sekwencji. Pojedyńcze uszkodzenie może spowodować błędy w wielu miejscach układu logicznego. | Błąd polega na wystąpieniu niepoprawnego stanu logicznego /z (NOT z) zamiast z, co zapisujemy z /z, z {0, 1}, spowodowanego uszkodzeniem układu. Błąd może wystąpić w zupełnie innym miejscu niż samo uszkodzenie. Błędy rozpatruje się na informacyjnym poziomie abstrakcji i charakteryzuje się je np. wartością stanu logicznego w linii lub rejestrze. Błędy spowodowane uszkodzeniami sprzętu mogą spowodować błędy danych i/lub błędy w wykonywanej sekwencji. Pojedyńcze uszkodzenie może spowodować błędy w wielu miejscach układu logicznego. | ||
Typy uszkodzeń: | Typy uszkodzeń: | ||
- | + | 5.błędy specyfikacji, | |
- | + | 6.błędy implementacji, | |
- | + | 7.defekty elementów, | |
- | + | 8.zakłócenia zewnętrzne. | |
Typy błędów: | Typy błędów: | ||
- | + | 1.błędy pojedyńcze, | |
- | + | 2.błędy wielokrotne: | |
- | + | i)błędy symetryczne, | |
- | + | j)błędy jednokierunkowe, | |
- | + | k)błędy asymetryczne, | |
- | + | l)wiązki błędów, | |
- | + | m)błędy w bajtach. | |
Podstawowe klasy kodów wykrywających błędy: | Podstawowe klasy kodów wykrywających błędy: | ||
- | + | 4.kody z kontrolą parzystości, | |
- | + | 5.kody z podwajaniem i kody z inwersyjnym powtórzeniem, | |
- | + | 6.kody arytmetyczne : niesystematyczne kody AN i systematyczne kody resztowe, | |
- | + | 7.kody wykrywające błędy w bajtach: kody z sumą kontrolną, kody b-sąsiednie, | |
- | + | 8.kody wykrywające błędy jednokierunkowe: | |
- | + | 9.kody nieuporządkowane, tj. kody wykrywające błędy jednokierunkowe o dowolnej krotności: niesymetryczne kody m z n (stałowagowe) i systematyczne kody Bergera, | |
- | + | 10.kody wykrywające t błędów jednokierunkowych – kody Bordena, | |
- | + | 11.kody wykrywające błędy jednokierunkowe w bajtach – kody Bose’go-Lin’a o kody Bluma. | |
Opracowano na podstawie: Stanisław J. Piestrak „Systemy tolerujące uszkodzenia”. | Opracowano na podstawie: Stanisław J. Piestrak „Systemy tolerujące uszkodzenia”. |