Jakie wartości może przyjmować empiryczna relacja korelacyjna? Ilościowa ocena bliskości powiązania na podstawie danych empirycznych: empiryczny współczynnik determinacji, empiryczny współczynnik korelacji

Empiryczny współczynnik determinacji jest szeroko stosowany w problemach statystycznych i jest wskaźnikiem reprezentującym udział w całkowitej wariancji wynikowej cechy oraz charakteryzującym siłę wpływu cechy grupującej na kształtowanie się całkowitej zmienności. Można to obliczyć korzystając ze wzoru:

Współczynnik ten pokazuje proporcję zmienności efektywnej charakterystyki y pod wpływem czynnika x. Jeśli nie ma połączenia współczynnik empiryczny określenie jest równe zeru i z funkcjonałem silne połączenie- jeden.

Przedstawiany jako pierwiastek kwadratowy z empirycznego współczynnika determinacji. Pokazuje ścisłą zależność pomiędzy danymi statystycznymi i jest określona wzorem:

gdzie licznik jest wariancją średnich grupowych;
mianownikiem jest całkowita wariancja.

Związek korelacyjny jest równa zero, jeśli nie ma połączenia między danymi. W tym przypadku wszystkie średnie grupowe będą równe i nie będzie różnic międzygrupowych.

Współczynnik korelacji jest równy jeden, gdy połączenie jest sprawne. W tym przypadku wariancja średnich grupowych będzie równa wariancji całkowitej, tj. nie będzie żadnej wariancji wewnątrzgrupowej.

Im współczynnik korelacji jest bliższy jedności, tym silniejszy związek między cechami, tym bliższa jest zależność funkcjonalna.

Obliczane według wzoru:

gdzie fе i fт są częstotliwościami empirycznymi i teoretycznymi.

Używając Test Pearsona Tablice wyznaczają prawdopodobieństwo P(x^2). Dane wejściowe do tabeli to wartości x^2 i liczba stopni swobody k = n - p -1.

Jeżeli P > 0,05, wówczas rozkłady empiryczny i teoretyczny uważa się za bliskie. Gdy należy P, zgodność między nimi jest zadowalająca, ale w pozostałych przypadkach jest niewystarczająca.

Obliczane według wzoru:

gdzie licznik jest momentem centralnym trzeciego rzędu.

b^3 - sześcian odchylenia standardowego.

Współczynnik asymetrii wynosi niezmierzona wartość, która pozwala na wykorzystanie go do różnych rozkładów. Przy asymetrii lewostronnej Mo > Mt > xav, przy asymetrii prawostronnej zachodzą zależności odwrotne. Pozwala to zastosować najprostszy wskaźnik asymetrii:

Kurtoza w statystyce

Rozkład empiryczny jest w pewnym stopniu stromy w stosunku do rozkładu normalnego. Określa się to wzorem:

gdzie licznikiem jest moment centralny czwartego rzędu

Kiedy rozkład osiągnie wartość szczytową w stosunku do normalnej, kurtoza będzie dodatnia, jeśli będzie płaska, będzie ujemna. Dla rozkład normalny mi = 0.

Rozwiązanie. Aby obliczyć wariancje grupowe, obliczamy średnie dla każdej grupy:

szt.; szt.

Pośrednie obliczenia wariancji według grup przedstawiono w tabeli. 3.2. Podstawiając uzyskane wartości do wzoru (3.4), otrzymujemy:

Średnia wariancji grupowych

Następnie obliczamy wariancję międzygrupową. Aby to zrobić, najpierw definiujemy średnią ogólną jako średnią ważoną średnich grupowych:

Teraz określmy wariancję międzygrupową

Zatem wariancja całkowita zgodnie z zasadą dodawania wariancji:

Sprawdźmy wynik uzyskany poprzez obliczenie całkowitej wariancji w zwykły sposób:

W oparciu o regułę dodawania wariancji można wyznaczyć wskaźnik bliskości związku pomiędzy grupowaniem (czynnikiem) a uzyskaną charakterystyką. Nazywa się to empirycznym współczynnikiem korelacji, oznaczanym („eta”) i obliczanym za pomocą wzoru

Dla naszego przykładu empiryczna relacja korelacji

.

Wartość 0,86 charakteryzuje istotny związek między grupowaniem a charakterystyką wydajności.

Wartość ta nazywana jest współczynnikiem determinacji i pokazuje udział wariancji międzygrupowej w wariancji całkowitej.

Oprócz różnic w cechach ilościowych można zaobserwować również różnice w cechach jakościowych. To badanie zmienności osiąga się, jeśli chodzi o proporcje cech ilościowych, poprzez obliczanie i analizowanie następujących typów wariancji.

Wewnątrzgrupowe rozproszenie udziału określa wzór

. (3.17)

Średnią wariancję wewnątrzgrupową oblicza się jako

. (3.18)

Wzór na wariancję międzygrupową ma następny widok:

, (3.19)

Gdzie n ja– liczba jednostek w oddzielnych grupach;

– udział badanej cechy w całej populacji, który wyznacza wzór

Całkowita wariancja ma postać

. (3.21)

Te trzy typy wariancji są ze sobą powiązane w następujący sposób:

. (3.22)

Przykład 3.4

Wyznaczmy wariancje grupowe, średnią grupową, międzygrupową i całkowitą wariancję według danych z tabeli. 3.3.

Tabela 3.3

Numer i środek ciężkości jedna z kategorii
hodowle bydła w regionie



Rozwiązanie

Określmy udział krów mlecznych ogółem w trzech gospodarstwach:

Całkowite zróżnicowanie udziału krów mlecznych:

Różnice wewnątrzgrupowe:

; ; .

Średnia wariancji wewnątrzgrupowych:

Wariancja międzygrupowa:

Korzystając z reguły dodawania wariancji, otrzymujemy: 0,1025+0,0031=0,1056. Przykład został rozwiązany poprawnie.

Przykład 3.5

Według przykładowych danych z ankiety wynagrodzenie pracownicy sfera budżetowa uzyskano następujące wskaźniki (tabela 3.4).

Tabela 3.4

Określić:

1) przeciętne wynagrodzenie w dwóch branżach;

2) rozproszenie płac:

a) średnia wariancji grupowych (branża),

b) międzygrupowy (międzysektorowy),

3) współczynnik determinacji;

4) empiryczna zależność korelacyjna.

Rozwiązanie

1. Przeciętne wynagrodzenie pracowników dwóch branż oblicza się ze wzoru (2.10):

pocierać.

2. Rozproszenie płac:

a) średnia wariancji grupowych zgodnie z (3.14)

b) wariancja międzygrupowa zgodnie z (3.12)

c) wariancja całkowita otrzymana na podstawie reguły dodawania wariancji (3.15):

3. Współczynnik determinacji jest równy wartości

te. lub 44,24%.

Wynika z niego, że płace w 44,24% zależą od przynależności branżowej pracowników, a w 55,76% od przyczyn wewnątrzgałęziowych.

Zgodnie ze wzorem (3.16) empiryczna relacja korelacji ,

co wskazuje na istotny wpływ charakterystyki branży na zróżnicowanie płac.

3.2. ZADANIA DO NIEZALEŻNEGO ROZWIĄZANIA

Problem 3.1

Dostępne są następujące dane dotyczące rozmieszczenia 60 pracowników według kategorii taryfowych (tabela 3.5).

Tabela 3.5

Określić:

1) kategoria przeciętnego wynagrodzenia pracowników;

2) średnie odchylenie liniowe;

3) dyspersja;

4) odchylenie standardowe;

5) współczynnik zmienności.

Problem 3.2

Na podstawie wyników sesji egzaminacyjnej I i II kierunku jednej z uczelni dostępne są następujące dane: na pierwszym roku sesję zdało bez egzaminu 85% studentów, na drugim roku – 90%.

Określ rozproszenie odsetka studentów, którzy pomyślnie przeszli sesję dla każdego przedmiotu.

Zadanie 3.3

Spółki akcyjne regionu według przeciętnego zatrudnienia na dzień 1 stycznia 2004 r. rozkładały się następująco (tabela 3.6).

Tabela 3.6

Obliczać:

1) średnie odchylenie liniowe;

2) dyspersja;

3) odchylenie standardowe;

4) współczynnik zmienności.

Zadanie 3.4

Istnieją dane dotyczące rozkładu rodzin pracowników przedsiębiorstw według liczby dzieci (tabela 3.7).

Tabela 3.7

Obliczać:

1) wariancje wewnątrzgrupowe;

2) średnia wariancji wewnątrzgrupowych;

3) wariancja międzygrupowa;

4) wariancja całkowita.

Sprawdź poprawność swoich obliczeń korzystając z reguły dodawania wariancji.

Zadanie 3.5

Rozkład kosztów produktów przeznaczonych na eksport w poszczególnych warsztatach przedsiębiorstwa przedstawiają poniższe dane (tabela 3.8).

Tabela 3.8

Obliczać:

1) średnia wewnątrzgrupowa, międzygrupowa i całkowity udział produkty eksportowe;

2) współczynnik determinacji i współczynnik korelacji empirycznej.

Zadanie 3.6

Według badania banków komercyjnych w mieście 70% całkowitej liczby klientów stanowiły osoby prawne o średniej wielkości kredytu 120 tysięcy rubli. i współczynnikiem zmienności 25%, a 20% – osoby przy średniej wielkości pożyczki wynoszącej 20 tysięcy rubli. z odchyleniem standardowym 6 tysięcy rubli.

Korzystając z zasad dodawania wariancji, określ stopień bliskości zależności pomiędzy wielkością kredytu a rodzajem klienta, obliczając empiryczny współczynnik korelacji.

Rozdział 4. Przykładowa obserwacja

4.1. INSTRUKCJE METODOLOGICZNE
I ROZWIĄZANIE TYPOWYCH PROBLEMÓW

Celem obserwacji próby jest określenie cech populacji ogólnej - średniej ogólnej (o) i udział ogólny (R). Charakterystyka populacji próby - średnia próby () i odsetek próby () różnią się od charakterystyki ogólnej wielkością błędu próbkowania (). Dlatego też, aby określić cechy populacji ogólnej, konieczne jest obliczenie błędu próby, czyli błędu reprezentatywności, który wyznacza się za pomocą wzorów opracowanych w teorii prawdopodobieństwa dla każdego rodzaju próby i metody doboru.

Właściwie losowe i mechaniczne pobieranie próbek. W przypadku losowego, powtarzanego próbkowania maksymalny błąd próbkowania dla średniej () i udziału () oblicza się za pomocą wzorów

; (4.1)

(4.2)

gdzie jest wariancją populacji próbnej;

N– wielkość próbki;

T– współczynnik ufności, który wyznacza się z tabeli wartości funkcji całki Laplace’a przy danym prawdopodobieństwie ( P Dow.) (Tabela P1).

W przypadku jednorazowego wyboru losowego i mechanicznego maksymalny błąd próbkowania oblicza się za pomocą wzorów

; (4.3)

, (4.4)

Gdzie N– wielkość populacji ogólnej.

Przykład 4.1

W celu określenia zawartości popiołu w węglu w złożu zbadano losowo 100 próbek węgla. W wyniku przeprowadzonych badań stwierdzono, że średnia zawartość popiołu w węglu w próbie wynosi 16%, odchylenie standardowe wynosi 5%. W dziesięciu próbach zawartość popiołu w węglu przekraczała 20%. Z prawdopodobieństwem 0,954 określić granice, w jakich będzie się mieściła średnia zawartość popiołu węgla w złożu oraz udział węgla o zawartości popiołów większej niż 20%.

Rozwiązanie

Średnia zawartość popiołu w węglu będzie w granicach

Aby wyznaczyć granice średniej ogólnej, obliczamy maksymalny błąd próbkowania średniej, korzystając ze wzoru (4.1):

. (4.5)

Z prawdopodobieństwem 0,954 można stwierdzić, że średnia zawartość popiołów węgla w złożu będzie mieściła się w przedziale 16%–1% lub 15%–17%.

W granicach będzie miał udział węgiel o zawartości popiołów powyżej 20%.

Udział próbki określa się według wzoru

Gdzie M– odsetek jednostek posiadających daną cechę

Obliczamy błąd próbkowania dla udziału () korzystając ze wzoru (4.2):

lub ± 6%.

Z prawdopodobieństwem 0,954 można stwierdzić, że udział węgla o zawartości popiołów powyżej 20% w złożu będzie mieścił się w granicach , Lub .

Przykład 4.2

Aby określić średni okres korzystania z kredytu krótkoterminowego w banku, sporządzono 5% próbę mechaniczną, która objęła 100 rachunków. W wyniku badania ustalono, że średni okres korzystania z pożyczki krótkoterminowej wynosi 30 dni przy odchyleniu standardowym wynoszącym 9 dni. Na pięciu rachunkach okres kredytowania przekroczył 60 dni. Z prawdopodobieństwem 0,954 określ limity, w jakich będzie mieścił się okres wykorzystania kredytu krótkoterminowego w populacji ogólnej oraz udział rachunków z okresem wykorzystania kredytu krótkoterminowego dłuższym niż 60 dni.

Rozwiązanie

Średni termin wykorzystanie kredytu bankowego mieści się w ustalonych granicach

.

Ponieważ pobieranie próbek ma charakter mechaniczny, błąd próbkowania określa się wzorem (2.3):

dzień.

Z prawdopodobieństwem 0,954 można stwierdzić, że okres wykorzystania krótkoterminowego kredytu w banku mieści się w przedziale = 30 dni 2 dni, czyli

28 dni w ciągu dnia.

Udział kredytów o okresie spłaty przekraczającym 60 dni mieści się w granicach

Przykładowy udział będzie

Błąd próbkowania udziału wyznaczamy korzystając ze wzoru (4.4):

lub 4,2%.

Z prawdopodobieństwem 0,954 można stwierdzić, że udział kredytów w banku o okresie spłaty przekraczającym 60 dni będzie mieścił się w przedziale Lub

Typowa próbka. Przy typowej (strefowej) selekcji populacja ogólna jest podzielona na jednorodne typowe grupy, regiony. Dokonuje się selekcji jednostek obserwacyjnych w populacji próbnej różne metody. Rozważmy typową próbę z selekcją proporcjonalną w typowych grupach.

Liczebność próby z grupy typowej w selekcji proporcjonalnej do liczby grup typowych określa wzór

Gdzie n ja– liczebność próby z grupy typowej;

N ja– objętość typowej grupy.

Maksymalny błąd średniej próbki i proporcji przy losowym braku powtórzeń i mechanicznie selekcję w obrębie typowych grup oblicza się za pomocą wzorów

; (4.8)

, (4.9)

gdzie jest wariancją populacji próbnej.

Przykład 4.3

Aby określić średni wiek mężczyzn zawierających związek małżeński w województwie, przyjęto 5% próbę typową, dobierając jednostki proporcjonalnie do liczby typowych grup. W obrębie grup zastosowano selekcję mechaniczną. Dane podsumowano w tabeli. 4.1.

Tabela 4.1

Z prawdopodobieństwem 0,954 określ granice, w których wiek średni mężczyzn zawierających związek małżeński oraz odsetek mężczyzn zawierających związek małżeński po raz drugi.

Rozwiązanie

Średni wiek, w którym mężczyźni zawierają związek małżeński, mieści się w granicach

.

Średni wiek, w jakim mężczyźni zawierają związek małżeński w badanej populacji, określa się za pomocą wzoru na średnią ważoną

= rok.

Średnią wariancję próbki określa się ze wzoru
przeciętny

=

Maksymalny błąd próbkowania obliczamy korzystając ze wzoru (4.8):

rok.

Z prawdopodobieństwem 0,954 można stwierdzić, że średni wiek zawierania związku małżeńskiego przez mężczyzn będzie przypadał na dany rok, czyli

24 lata.

Odsetek mężczyzn zawierających związek małżeński po raz drugi będzie mieścił się w przedziale

Udział próby określamy za pomocą wzoru na średnią

lub 14%.

Średnia wariancja próbki alternatywny znak obliczone za pomocą wzoru

(4.12)

Błąd próbkowania udziału wyznaczamy korzystając ze wzoru (4.9):

lub 6%.

Z prawdopodobieństwem 0,954 można stwierdzić, że odsetek mężczyzn zawierających związek małżeński po raz drugi będzie mieścił się w przedziale , Lub .

Próbkowanie seryjne. Dzięki seryjnej metodzie selekcji populację ogólną dzieli się na grupy o jednakowej liczebności - serie. Serie są wybierane do populacji próbnej. W ramach serii prowadzona jest ciągła obserwacja jednostek wchodzących w skład serii.

Przy wielokrotnym wyborze serii maksymalne błędy średniej i proporcji próbki określa się ze wzoru

, (4.13)

gdzie jest dyspersja międzyserialna;

R– liczba serii w populacji ogólnej;

R– numer wybranej serii.

Przykład 4.4

W warsztacie zakładu pracuje 10 zespołów pracowników. W celu zbadania ich wydajności pracy przeprowadzono 20% próbę seryjną, w skład której wchodziły 2 zespoły. W wyniku badania ustalono, że średnia wydajność pracowników w zespołach wynosiła 4,6 i 3 tony. Z prawdopodobieństwem 0,997 określ granice, w jakich będzie się znajdować średnia wydajność pracowników warsztatów. t, lub T.

Przykład 4.5

W magazynie gotowe produkty W warsztacie znajduje się 200 pudełek z częściami, po 40 sztuk w każdym pudełku. W celu sprawdzenia jakości gotowego produktu przeprowadzono 10% pobieranie próbek. W wyniku analizy próbki stwierdzono, że odsetek wadliwych części wynosi 15%. Wariancja próbki seryjnej wynosi 0,0049.

Z prawdopodobieństwem 0,997 określ granice, w jakich mieści się proporcja produktów wadliwych w partii pudełek.

Rozwiązanie

Proporcja wadliwych części będzie się mieścić w granicach

Wyznaczmy maksymalny błąd próbkowania dla udziału korzystając ze wzoru (4.13):

lub 4,4%.

Z prawdopodobieństwem 0,997 można stwierdzić, że udział części wadliwych w partii mieści się w przedziale od 10,6% do 19,6%.

Przykład 4.6

W województwie składającym się z 20 powiatów przeprowadzono reprezentacyjne badanie plonów w oparciu o dobór serii (powiatów). Średnie próbek dla regionów wynosiły odpowiednio 14,5 c/ha; 16; 15,5; 15 i 14 c/ha. Znajdź granice rentowności dla całego regionu z prawdopodobieństwem 0,954.

Rozwiązanie

Obliczmy ogólną średnią:

c/ha.

Wariancja międzygrupowa (między seriami).

Wyznaczmy teraz maksymalny błąd seryjnego próbkowania jednorazowego (t = 2, Р dav = 0,954) korzystając ze wzoru (4.13):

.

W rezultacie rentowność w regionie (z prawdopodobieństwem 0,954) będzie się mieścić w granicach

15-1,7≤ ≤15+1,7,

13,3 c/ha ≤ ≤16,7 c/ha.

W praktyce projektowania obserwacji próby istnieje potrzeba ustalenia liczebności próby, która jest niezbędna do zapewnienia pewnej dokładności w obliczaniu ogólnych cech - średniej i proporcji. W tym przypadku znany jest z góry maksymalny błąd próbkowania, prawdopodobieństwo jego wystąpienia oraz zmienność cechy.

W przypadku losowego, powtarzanego próbkowania wielkość próby określa się na podstawie wyrażenia

W przypadku losowego, niepowtarzalnego i mechanicznego pobierania próbek liczebność próby oblicza się ze wzoru

. (4.16)

Dla typowej próbki

. (4.17)

Do pobierania próbek seryjnych

. (4.18)

Przykład 4.7

Na tym obszarze żyje 2000 rodzin. Planuje się przeprowadzić wśród nich badanie reprezentacyjne metodą losową, niepowtarzalną, w celu ustalenia średniej wielkości rodziny. Określ wymaganą liczebność próby, pod warunkiem, że z prawdopodobieństwem 0,954 błąd próby nie przekroczy jednej osoby przy odchyleniu standardowym trzech osób (=3).

Rozwiązanie

W przypadku niepowtarzającego się losowego pobierania próbek wielkość próbki zgodnie ze wzorem (4.16) będzie wynosić rodziny

Wielkość próby: co najmniej 36 rodzin.

Przykład 4.8

Miasto A ma 10 000 rodzin. Oczekuje się, że za pomocą doboru mechanicznego zostanie określona proporcja rodzin z trójką i większą liczbą dzieci. Jaka powinna być liczebność próby, aby z prawdopodobieństwem 0,954 błąd próbkowania nie przekroczył 0,02, jeżeli z poprzednich badań wynika, że ​​wariancja wynosi 0,2?

Rozwiązanie

Określmy wymaganą liczebność próby korzystając ze wzoru (4.16):

.

Wielkość próbki: nie mniej niż 1667.

W statystyce często konieczne jest porównanie wyników dwóch (lub więcej) próbek. Na podstawie porównania średnich (lub proporcji) dwóch próbek wyciąga się wniosek o losowości lub znaczeniu ich rozbieżności.

W tym celu porównuje się bezwzględną różnicę średnich z próbki ze średnim błędem różnicy:

. (4.19)

Znaleziony T oblicz. w porównaniu z T tabela Przez T– Rozkład Studenta (tabela A2) dla liczby stopni swobody w=N 1 +N 2 -2 i dany poziom istotności a. (Tutaj N 1 i N 2 – objętości porównywanych próbek).

Empiryczna zależność korelacyjna

Bliskość lub siłę związku między dwiema cechami można zmierzyć za pomocą wskaźnika zwanego empirycznym współczynnikiem korelacji. Wskaźnik ten nazywa się empirycznym, gdyż można go obliczyć na podstawie zwykłego grupowania czynnikowego i charakterystyk wynikowych, czyli na podstawie tabeli korelacji. Empiryczną relację korelacji uzyskuje się z reguły dodawania wariancji, zgodnie z którą , gdzie
- całkowite rozproszenie;
- rozproszenie międzygrupowe;
- rozproszenie wewnątrzgrupowe (średnie prywatne). Wariancja międzygrupowa jest miarą zmienności ze względu na atrybut czynnika. Średnia wariancji częściowych jest miarą zmienności ze względu na wszystkie inne (z wyjątkiem silni) cechy. Następnie postawa
wyraża udział zmienności wynikającej z charakterystyki czynnika w zmienności całkowitej. Pierwiastek kwadratowy tego stosunku nazywany jest empirycznym współczynnikiem korelacji:
.

Stąd wynika zasada, że ​​im większe rozproszenie międzygrupowe, tym atrybut czynnikowy w większym stopniu wpływa na zmienność atrybutu wynikowego. Składniki współczynnika wariancji obliczane są z danych znajdujących się w tabeli korelacji przy użyciu następujących wzorów:

;
,

gdzie są średnie częściowe; - średnia ogólna; - wyniki według atrybutu ; - wyniki według atrybutu ;
- liczba obserwacji. Ta sama zależność dotyczy wartości warunkowych uzyskanych w drodze transformacji numerycznej.

Sam stosunek wariancji (wyrażenie radykalne) nazywany jest współczynnikiem determinacji (jest również równy kwadratowi empirycznego współczynnika korelacji). Empiryczny współczynnik korelacji jest bardzo zróżnicowany (od 0 do 1). Jeśli jest równy zero, wówczas znak czynnika nie wpływa na znak korelacji. Jeśli =1, co oznacza, że ​​wypadkowa charakterystyka całkowicie zależy od silni. Jeśli empiryczna relacja korelacji reprezentuje ułamek bliski jedności, wówczas mówi się o ścisłym związku między czynnikiem a charakterystyką wypadkową. Jeśli ten ułamek jest mały (bliski zeru), wówczas mówią o słabym połączeniu między nimi.

Współczynnik korelacji liniowej i wskaźnik korelacji

Miarą bliskości związku pomiędzy dwiema statystycznie powiązanymi cechami jest współczynnik korelacji liniowej lub po prostu współczynnik korelacji. Ma to samo znaczenie co empiryczny współczynnik korelacji, ale może przyjmować zarówno znaczenie pozytywne, jak i negatywne. Współczynnik korelacji ma ścisłe wyrażenie matematyczne dla zależności liniowej. Wartość dodatnia wskaże bezpośredni związek między cechami, wartość ujemna wskaże zależność odwrotną.

Współczynnik korelacji par w przypadku liniowej formy komunikacji oblicza się ze wzoru

i jego wartość próbki - zgodnie ze wzorem

Przy małej liczbie obserwacji wygodnie jest obliczyć współczynnik korelacji próbki, korzystając ze wzoru:

Wartość współczynnika korelacji zmienia się w przedziale
.

Na
Istnieje związek funkcjonalny pomiędzy dwiema zmiennymi, kiedy
- bezpośrednie połączenie funkcjonalne. Jeśli
, wówczas wartości X i Y w próbce są nieskorelowane; w przypadku układu zmiennych losowych
ma dwuwymiarowy rozkład normalny, wówczas wartości X i Y będą niezależne.

Jeśli współczynnik korelacji mieści się w zakresie
, wówczas istnieje odwrotna korelacja między wartościami X i Y. Potwierdza to wizualna analiza wstępnych informacji. W takim przypadku odchylenie wartości Y od wartości średniej przyjmuje się z przeciwnym znakiem.

Jeżeli każda para wartości wielkości X i Y najczęściej jednocześnie okazuje się wyższa (mniejsza) od odpowiadających im wartości średnich, to istnieje bezpośrednia korelacja między wielkościami, a współczynnik korelacji mieści się w przedziale
.

Jeżeli odchylenie wartości X od wartości średniej równie często powoduje odchylenia wartości Y w dół od wartości średniej, a odchylenia te okazują się cały czas inne, to można założyć, że wartość współczynnika korelacji ma tendencję do zero.

Należy zaznaczyć, że wartość współczynnika korelacji nie jest uzależniona od jednostek miary i wyboru punktu odniesienia. Oznacza to, że jeśli zmienne X i Y zmniejszymy (zwiększymy) K razy lub o tę samą liczbę C, to współczynnik korelacji nie ulegnie zmianie.

Aby uprościć obliczenia miary bliskości powiązania korelacyjnego, często stosuje się wskaźnik powiązania korelacyjnego, który określa się za pomocą następujących wzorów:

,
,

Gdzie
- wariancja resztowa, charakteryzująca zmienność wynikowej charakterystyki pod wpływem innych, nieuwzględnionych czynników.

Korelacja wielokrotna

Korelacja wielokrotna to zależność wynikowej i dwóch lub więcej cech czynnikowych uwzględnionych w badaniu. Wskaźnik bliskości związku między wypadkową a dwiema lub więcej cechami czynnikowymi nazywany jest współczynnikiem korelacji wielokrotnej lub skumulowanym i jest oznaczony jako R. Współczynnik skumulowany zakłada obecność liniowej zależności między każdą parą cech, co można wyrażone za pomocą współczynników korelacji parami. Jeśli znajdziemy skumulowaną miarę bliskości związku między cechą wypadkową () a charakterystyką dwuczynnikową (i ), wówczas obliczenie całkowitego współczynnika korelacji przeprowadza się według wzoru:

,

Gdzie indeksy dolne wskazują, pomiędzy którymi cechami badana jest relacja parami.

We wzorach do obliczania sparowanych współczynników korelacji zmieniają się tylko symbole wskazujące jeden lub drugi czynnik. Zatem, jeśli współczynnik korelacji między i jest obliczany ze wzoru, wówczas obliczany jest współczynnik korelacji między i: ; pomiędzy i - w ten sposób:

Część obliczeniowa

Zadanie 31

    Dla dziesięciu przedsiębiorstw za okres sprawozdawczy dostępne są następujące dane:

Tabela 2

Przedsiębiorstwa

Średni roczny koszt trwałych aktywów produkcyjnych, miliony rubli.

Produkcja produktu, milion rubli.

Aby zbadać zależność między wielkością średniego rocznego kosztu środków trwałych a produkcją, oblicz równanie zależności liniowej.

2. Na podstawie podanych danych: a) obliczyć: współczynnik korelacji liniowej; b) sprawdzić poprawność wyboru formy komunikacji poprzez obliczenie wskaźnika korelacji.

    Korzystając z procesora tabelowego Microsoft Excel zbudujemy stół roboczy:

Tabela 3

Obliczanie sum do obliczania parametrów równania prostej

239,74 * 1236 = 539,1 rozkładów prawdopodobieństwa... gospodarczy analiza, rozwiązany na podstawie regresja gospodarczy modele. Rozważmy y - charakterystykę wypadkową i x - charakterystykę silni. Metody korelacyjnie-regresja analiza ...

  • Program dyscypliny „Komputerowe metody analizy danych socjologicznych” (Wprowadzenie do statystyki matematycznej i analizy danych) Dla kierunku 040200. 68 „Socjologia”

    Program dyscypliny

    Aplikacje. 11 3 2 6 Rozproszenie analiza 9 2 2 5 Sparowane i wielokrotne regresja analiza 9 2 2 5 Właściwości współczynników... użytkownik SPSS 11.0 Siskov V.I. Korelacja analiza V gospodarczy badania. M. 1975. Eddowes M., Stansfield...

  • Analiza G. L. Savitskaya działalności gospodarczej przedsiębiorstwa

    Dokument

    doskonałość, najnowsze metody gospodarczy badania. Analiza musi być kompleksowe. Złożoność badania... na poziomie średniej wydajności godzinowej korelacyjnie-regresja analiza. W wieloczynnikowym korelacja model średniej wydajności godzinowej...

  • Do pomiaru szczelności połączenia służy kilka wskaźników. W połączeniu parami o szczelności połączenia decyduje przede wszystkim relacja korelacji oznaczona przez η. Kwadrat współczynnika korelacji to stosunek wariancji międzygrupowej cechy efektywnej, wyrażający wpływ różnic w charakterystyce czynnika grupującego na średnią wartość cechy efektywnej, do całkowitego rozproszenia cechy efektywnej, wyrażający wpływ wszystkich przyczyn i warunków na nim występujących. Kwadrat zależności korelacyjnej nazywany jest zwykle współczynnikiem determinacji.

    om zjawiska i ich znaki: ________________ lub ściśle deterministyczne

    gdzie k jest liczbą grup

    N – liczba obserwacji

    y i – wartości początkowe uzyskanej charakterystyki

    y j – średnie wartości efektywnej charakterystyki dla tej grupy

    y – wartość średnia cechy

    fj – liczebność grupy

    Powyższy wzór stosuje się przy obliczaniu wskaźnika bliskości połączenia dla grupowania analitycznego. Przy obliczaniu współczynnika korelacji według poziomu połączenia stosuje się wzór:

    Suma kwadratów licznika jest wariancją wynikowej charakterystyki y wyjaśnioną przez powiązanie ze współczynnikiem x (czynnikami). Oblicza się go na podstawie indywidualnych danych uzyskanych dla każdej jednostki populacji w oparciu o równanie regresji.

    Jeśli równanie zostanie wybrane błędnie lub popełniony zostanie błąd przy obliczaniu jego parametrów, wówczas suma kwadratów w liczniku może okazać się większa niż w mianowniku, a stosunek straci znaczenie, jakie powinien mieć. Aby uniknąć błędny wynik͵ współczynnik korelacji lepiej obliczyć ze wzoru:

    Podstawą tej formuły jest dobrze znana zasada rozwinięcie sum kwadratów odchyleń przy grupowaniu populacji:

    D ogólnie=D intergr+D wewnątrzgr

    Zgodnie z tą zasadą zamiast wariancji międzygrupowej (czynnikowej) można zastosować różnicę:

    D ogólnie-D wewnątrzgr

    co daje:

    Obliczając η nie przez grupowanie, ale przez równanie korelacji (równanie regresji), używamy wzoru. W takim przypadku reguła rozkładu sumy kwadratów odchyleń wynikowej charakterystyki jest zapisana jako

    D ogółem = D rdzeń + D reszta

    Najważniejszy punkt Każdy, kto chce poprawnie zastosować metodę analizy korelacji-regresji powinien się teraz nauczyć, to interpretować wzory (1.2) i (1.3). Przepis ten brzmi:

    Równanie korelacji mierzy związek między zmiennością wynikowego atrybutu a zmiennością atrybutu(ów) czynnika. Miary bliskości zależności mierzą proporcję zmienności wynikowej cechy, która jest powiązana ze zmiennością cechy czynnika.

    Empiryczna relacja korelacyjna - pojęcie i rodzaje. Klasyfikacja i cechy kategorii „Empiryczna relacja korelacyjna” 2017, 2018.

    Analiza korelacji polega na pomiarze siły połączenia za pomocą współczynnika korelacji i współczynnika korelacji. Przy liniowej formie zależności siłę połączenia szacuje się według Współczynnik korelacji Pearsona :

    Współczynnik korelacji waha się od (– 1) do (+ 1), (– 1 R 1).

    Znak ujemny wskaźnika oznacza sprzężenie zwrotne, znak dodatni oznacza bezpośrednie połączenie. Jak bliższa wartość wskaźnik do jednego, w wartości bezwzględnej, im silniejsze połączenie, im bliżej zera, tym słabsze połączenie.

    Do pomiaru siły połączenia dla dowolnej formy zależności, zarówno liniowej, jak i nieliniowej, a także do oceny połączeń wielokrotnych, używają teoretyczna zależność korelacyjna (wskaźnik korelacji). Jego obliczenie opiera się na zasadzie dodawania wariancji:

    Gdzie całkowita rozbieżność – odzwierciedla zmienność wynikowej charakterystyki pod wpływem wszystkich czynników na nią działających;

    Lub

    wariancja czynnikowa , odzwierciedla zmienność wynikowej charakterystyki ze względu na czynnik (X).

    wariancja resztkowa , odzwierciedla zmienność wynikowej charakterystyki ze względu na wszystkie czynniki z wyjątkiem czynnika (X);

    Teoretyczna zależność korelacyjna jest pierwiastkiem kwadratowym stosunku wariancji czynnika do wariancji całkowitej:

    Radykalne wyrażenie - współczynnik determinacji :

    pokazuje proporcję zmienności wynikowej charakterystyki pod wpływem wpływu cechy czynnikowej na całkowitą zmienność. Im wyższy jest ten odsetek, tym silniejszy jest związek między cechami.

    Teoretyczna zależność korelacyjna waha się od 0 do 1 (0 R 1) .Im wartość wskaźnika jest bliższa jedności, tym związek jest silniejszy.

    Aby ocenić szczelność połączenia, możesz użyć skala H zjadacz:

    Główny nurt rozwojowy i metody jego identyfikacji

    Każda seria dynamiki ma swój własny trend rozwojowy, tj. ogólny kierunek w kierunku zwiększania, zmniejszania lub stabilizowania poziomu zjawiska w czasie. Stopień ekspresji tej tendencji zależy od wpływu czynników stałych, okresowych (sezonowych) i losowych na poziomy szeregu dynamiki. Dlatego nie należy mówić tylko o trendzie rozwojowym, ale o trendzie głównym.

    Główny trend rozwojowy (trend) nazywa się to płynną i stabilną zmianą poziomu zjawiska w czasie, wolną od okresowych i przypadkowych wahań.

    Aby zidentyfikować trend, szeregi dynamiki są przetwarzane przy użyciu metod zwiększania interwałów, średnich kroczących i wyrównania analitycznego.

    Metoda powiększania interwałowego opiera się na powiększaniu okresów czasu, które obejmują poziomy szeregu dynamiki. W tym celu łączy się dane źródłowe, tj. są sumowane lub uśredniane w dłuższych odstępach czasu do ogólna tendencja rozwój nie stanie się wystarczająco wyraźny. Na przykład dzienne dane dotyczące produkcji są łączone w dane dziesięciodniowe, dane miesięczne w dane kwartalne, a dane roczne w dane wieloletnie. Zaletą metody jest jej prostota. Wadą jest to, że wygładzona seria jest znacznie krótsza niż pierwotna.

    Metoda średniej ruchomej polega na tym, że na podstawie danych wyjściowych wyliczane są średnie kroczące z określonej liczby najpierw pierwszych poziomów szeregu, następnie z tej samej liczby poziomów, zaczynając od drugiego, od trzeciego itd. Wydaje się, że średnia wartość przesuwa się wzdłuż szeregu dynamicznego, przesuwając się o jeden przedział. Średnie kroczące wygładzają przypadkowe wahania.

    Schemat obliczania 3-poziomowej średniej kroczącej

    Przedział czasu

    (numer w kolejności)

    Rzeczywiste poziomy szeregów dynamiki

    Na I

    Średnie kroczące

    Na sk

    Na 1

    Na 2

    Na 3

    Na 4

    Na sk3

    Na 5

    Na sk4

    Na 6

    Wygładzony szereg czasowy jest o kwotę krótszy od pierwotnego (l – 1), jeżeli konsolidacja przeprowadzana jest na nieparzystej liczbie poziomów, gdzie l – długość okresu rozszerzenia. Na przykład, jeśli l = 3, wówczas wyrównany rząd jest o 2 poziomy krótszy. Wygładzona seria jest zatem niewiele krótsza od oryginalnej.

    Analityczna metoda dopasowania polega na zastąpieniu rzeczywistych poziomów szeregu dynamiki ich wartościami teoretycznymi obliczonymi na podstawie równania trendu:

    Obliczane są parametry równania metoda najmniejszych kwadratów:

    Gdzie Na– rzeczywiste poziomy; Na ty– odpowiadające im poziomy wyrównane (obliczone) w czasie.

    Jeśli rozwój odbywa się w postępie arytmetycznym (z równymi przyrostami bezwzględnymi łańcucha), to do poziomowania używa się funkcja liniowa:

    Jeżeli dynamikę obserwuje się w postępie geometrycznym (przy równych szybkościach wzrostu łańcucha), wówczas konieczne jest zastosowanie funkcja wykładnicza:

    Na T = za 0 A 1 T .

    Jeśli rozwój następuje z równą szybkością wzrostu, używa się go z funkcja temperatury na przykład drugi rząd (parabola):

    Na T = za 0 + za 1 T+ za 2 T 2 .

    Kryterium prawidłowego wyboru równania trendu jest błąd przybliżenia . Stanowi odchylenie standardowe rzeczywistych poziomów szeregu dynamiki od poziomów teoretycznych:

    Za optymalne uważa się równanie z najmniejszym błędem aproksymacji.

    Rozważmy „technikę” zestawiania szeregu dynamiki wg funkcja liniowa:


    Gdzie A 0 , A 1 – parametry równania prostej; T– wskaźniki czasu (zwykle numer seryjny okresu lub momentu w czasie).

    Parametry bezpośrednie A 0 I A 1 spełniające metodę najmniejszych kwadratów można znaleźć rozwiązując następujący układ równań normalnych:

    Gdzie N– liczba poziomów szeregu dynamiki; parametr A 1 odpowiada średniemu bezwzględnemu wzrostowi.

    Aby uprościć obliczanie wskaźników czasu
    można nadać takie wartości, że
    , Następnie

    Aby to zrobić, szeregowo z nieparzystą liczbą poziomów, za początek odliczania czasu przyjmuje się środkowy przedział, gdzie T równy zeru. Po obu stronach zera znajdują się odpowiednio rzędy ujemnych i dodatnich liczb naturalnych, na przykład:

    Przedział czasu

    (numer w kolejności)

    T I

    W przypadku parzystej liczby poziomów liczenie odbywa się z dwóch środkowych przedziałów, w których T równa się odpowiednio (-1) i (+1), a po obu stronach znajdują się rzędy ujemnych i dodatnich liczb nieparzystych, na przykład:

    Przedział czasu

    (numer w kolejności)

    T I

    Schemat obliczania parametrów równania liniowego

    Przedziały czasowe

    Dynamiczne poziomy wierszy

    Na I

    T I

    I T 2

    Na I T I

    Na ty

    Na podstawie obliczonego równania trendu można wyprodukować ekstrapolacja – znajdowanie probabilistycznych (przewidywanych) poziomów poza pierwotnymi szeregami dynamiki.



    Powiązane publikacje