Histogram

Histogram, sayısal verilerin dağılımının grafiksel bir sunumudur. İlk olarak Karl Pearson [1] tarafından tanımlanan histogram, sürekli değişkenin (niceliksel değişken) olasılık dağılımının bir tahminidir. Bir histogram oluşturmak için, ilk adım, değer aralığını belirlemek (tüm değer aralığını bir dizi aralığa bölmek) ve daha sonra, her aralığa kaç değer düştüğünü saymaktır. Kutular genellikle değişkenlerin ardışık, birbiriyle örtüşmeyen aralıkları olarak belirlenir. Depolar (aralıklar) bitişik olmalı ve sıklıkla (eşit olması gerekmez) eşit büyüklükte olmalıdır. [2] 

Depolar eşit boyutta ise, dolabın üzerine, frekansla orantılı olarak bir dikdörtgen (-her kutudaki vaka sayısını belirtir) dikilir. Bir histogram’da "göreceli" frekansları görüntülemek için normalleştirilebilir. Ardından, yüksekliklerinin toplamı 1'e eşit olarak, çeşitli kategorilerin her birine düşen vakaların oranını gösterir.

Bununla birlikte kutuların eşit genişlikte olması gerekmez, bu durumda dikilmiş dikdörtgen alanı, alanın kutudaki kutup sayısı ile orantılı olarak tanımlanır [3] Dikey eksen frekansı değil frekans yoğunluğunu belirtir, yatay eksende değişkenin birim başına vaka sayısıdır. Değişken depo genişliği örnekleri aşağıda Sayım Bürosu verilerinde gösterilmektedir.

Bitişik kutular boşluk bırakmadığından, histogramın dikdörtgenleri, orijinal değişkenin sürekli olduğunu belirtmek için birbirine dokunur.[1]

Histogramlar, verilerin altında yatan dağılımın yoğunluğu ve çoğunlukla yoğunluk tahmini için kaba bir anlam taşır: Altta yatan değişkenin olasılık yoğunluk fonksiyonunu tahmin etme. Olasılık yoğunluğu için kullanılan bir histogramın toplam alanı daima 1'e normalleştirilir. X ekseni üzerindeki aralıkların uzunluğu 1 ise, histogram, göreceli frekans arsasıyla aynıdır.

Bir histogram, kutular üzerindeki frekansları yumuşatmak için bir çekirdek kullanan basit bir çekirdek yoğunluk tahmini olarak düşünülebilir. Bu genel olarak daha altta yatan değişken dağılımını yansıtacak daha yumuşak bir olasılık yoğunluk fonksiyonu üretir. Yoğunluk tahmini, histograma bir alternatif olarak çizilebilir ve genellikle bir kutu kümesi yerine bir eğri olarak çizilir.

Bir diğer alternatif olan ortalama kaymış histogram ise, çekirdeği kullanmadan yoğunluğun yumuşak bir eğri tahminini verir.

Histogram, kalite kontrolünün yedi temel aracından biridir.

Histogramlar bazen çubuk grafiklerle karıştırılır. Bir çubuk grafikte kategorik değişkenlerin bir arsa olduğu kabul edilirken, histogram'da sürekli veriler için kutular veri aralıklarını temsil eder. Bazı yazarlar, çubuk grafiklerinde, ayırımı netleştirmek için dikdörtgenler arasında boşluklar bulunmasını önermektedir.

Kökeni

Örnek; 31 Siyah Kiraz ağacının yüksekliklerinin histogramı.

Histogram kelimesinin kökeni belirsizdir. Bazen Antik Yunan’da ἱστός (histos) (bir şeyin dikilmesi-bir geminin direkleri, bir tezgâhın çubuğu veya bir histogramın dikey çubukları) veya γράμμα (gramma)(Çizim, kaydetme, yazma) kelimesinden türetildiği söylenir. 1891'de terimi tanıtan Karl PEARSON'un histogramı tarihsel diyagram’dan türettiği de söylenmektedir.[2]

Örnekler

Bu oyuncak bir örnektir:

Kutu Sayısı
-3.5 23
-2,5 32
-1,5 109
0,5 180
0.5 132
1.5 34
2.5 4
3.5 90

Histogramlar, desenlerini tanımlamak için kullanılan kelimelerle sınıflandırılır. Çeşitleri şunlardır: "simetrik", "sola eğik" veya "sağa", "tek yönlü", "çift yönlü" ya da "çok yönlü".

Bu konuda daha fazla bilgi edinmek için birkaç farklı kutu genişlikleri kullanarak verileri çizmek için iyi bir fikirdir. Verilen ipuçlarına bir örnek bir restoran.

İşte birkaç tane daha örnek:

ABD Sayım Bürosu, evlerinin dışında çalışan 124 milyon insanın bulunduğunu tespit etti.[3] Aşağıdaki tabloda, yolculukların işe koyduğu zamana ilişkin verileri kullanıldığında, seyahat süresi "en az 30 fakat 35 dakikadan az" ile yanıt verenlerin mutlak sayıları yukarıdaki ve aşağıdaki kategorilerin sayısından daha yüksektir. Bunun nedeni büyük olasılıkla bildirilen yolculuk süresini yuvarlayan kişilerdir. Değerlerin keyfi olarak yuvarlak rakamlarla bildirilmesi sorunu, insanlardan veri toplarken sık görülen bir durumdur.

ABD 2000 nüfus sayımı, seyahat süresi (çalışma) Histogramı. Eğri altındaki alan, toplam dava sayısına eşittir. Bu diyagram tablodan Q / genişliği kullanmaktadır.
Mutlak sayılara göre veri
Aralık Genişlik Miktar Miktar/genişlik
0 5 4180 836
5 5 13687 2737
10 5 18618 3723
15 5 19634 3926
20 5 17981 3596
25 5 7190 1438
30 5 16369 3273
35 5 3212 642
40 5 4122 824
45 15 9200 613
60 30 6461 215
90 60 3435 57

Bu histogram, her bir bloğun alanı, anketteki kategorisine giren ankette bulunan kişiye eşit olacak şekilde, birim aralık başına vaka sayısını her bir bloğun yüksekliği olarak gösterir. Eğri altındaki alan toplam vakaların sayısını (124 milyon) temsil etmektedir. Bu tür histogram mutlak sayıları gösterir; Q, binlercesindedir.

Orana göre veriler
Aralık Genişlik Miktar (Q) Q/toplam/genişlik
0 5 4180 0.0067
5 5 13687 0.0221
10 5 18618 0.0300
15 5 19634 0.0316
20 5 17981 0.0290
25 5 7190 0.0116
30 5 16369 0.0264
35 5 3212 0.0052
40 5 4122 0.0066
45 15 9200 0.0049
60 30 6461 0.0017
90 60 3435 0.0005

Bu histogram yalnızca dikey ölçekte birinciden farklıdır. Her bloğun alanı, her kategorinin temsil ettiği toplamın fraksiyonudur ve tüm çubukların toplam alanı 1'e eşittir ("all" anlamına gelen kesir). Gösterilen eğri basit bir yoğunluk tahmini. Bu sürüm orantıları gösterir ve birim alan histogramı olarak da bilinir.

 Diğer bir deyişle, bir histogram, genişlikleri sınıf aralıklarını temsil eden ve alanları ilgili frekanslarla orantılı olan dikdörtgenler vasıtasıyla bir frekans dağılımını temsil eder: her birinin yüksekliği, aralık için ortalama frekans yoğunluğudur. Aralıklar, histogram tarafından temsil edilen verilerin, özel iken, aynı zamanda bitişik olduğunu göstermek için bir araya getirilir. (Örneğin, bir histogramda 10.5-20.5 ve 20.5-33.5 arası iki bağlantı aralığına sahip olmak mümkündür ancak 10.5-20.5 ve 22.5-32.5 arası iki bağlantı aralığında bulunmak mümkün değildir Boş aralıklar boş olarak gösterilir ve atlanmazlar.)[4]

Matematiksel tanım

Aynı verinin sıradan ve birikimli histogramı. Gösterilen veriler, ortalama 0 ve standart sapma 1 olan normal dağılıma rastgele bir 10,000 puanlık örnektir. 

Daha genel matematiksel bir anlamda, bir histogram, ayrık kategorilerin her birine (kutular olarak bilinir) düşen gözlem sayısını sayan bir işlev "mi" olurken, bir histogramın grafiği, bir histogramı temsil etmek için sadece bir yoldur. Böylece, toplam gözlem sayısı ve "k" nin toplam kutu sayısı olmasına izin verilirse, histogram "mi" aşağıdaki koşulları karşılar:

Birikmiş histogram

Birikimli histogram, belirtilen kutuya kadar tüm kutulardaki gözlem sayısını sayan bir haritalandırmadır. Yani, bir histogramın mj kümülatif histogramı Mi şu şekilde tanımlanır:

Depo sayısı ve genişliği

"En iyi" sayıda kutu yoktur ve farklı kutular boyutu verilerin farklı özelliklerini ortaya çıkarabilir. Veri gruplama en azından 17. yüzyılda Graunt'un çalışmaları kadar eskidir ancak[5] Sturges'in 1926'da çalışmasına kadar hiçbir sistematik yönerge verilmemiştir.[6]

Yoğunluğun düşük olduğu kutuları daha geniş kullanırsanız, örnekleme rasgeleliği nedeniyle gürültüyü azaltır; Yoğunluğun yüksek olduğu (dolayısıyla sinyal gürültüyü bastıran) daha dar bölmeleri kullanarak yoğunluk tahmini için daha fazla hassasiyet sağlanır. Dolayısıyla, bir histogram içindeki bölme genişliğini değiştirmek yararlı olabilir. Bununla birlikte, eşit genişlikteki kutular yaygın olarak kullanılmaktadır.

Bazı teorisyenler, en uygun kutu sayısını belirlemeye çalıştı ancak bu yöntemler genelde dağılım şekli hakkında güçlü varsayımlar yapıyor. Gerçek veri dağıtımına ve analizin hedeflerine bağlı olarak, farklı bidon genişlikleri uygun olabilir, bu nedenle uygun bir genişliği belirlemek için deney yapılmalıdır. Bununla birlikte, çeşitli faydalı yönerge ve başparmak kuralları vardır.[7]

Depo sayısı k doğrudan atanabilir veya önerilen kutu genişliği h olarak hesaplanabilir:

Ayraçlar, tavan fonksiyonunu belirtir.

Kare-Kök seçimi

(Excel histogramları ve diğerleri tarafından kullanılan) örneklemdeki veri noktalarının sayısının karekökünü alır.[8]

Sturges formülü

Sturges formülü[6] binom dağılımından türemiştir ve örtük olarak yaklaşık normal bir dağılım var sayar.

Depo boyutlarını veri aralığında örtülü olarak temel alır ve n <30 olduğunda, depoların sayısı -yedi'den küçük olacak- ve verilerin iyi eğilimler gösterme ihtimali düşüktür. Veriler normal olarak dağıtılmadığında kötü performans gösterebilir.

Pirinç Kuralı

Pirinç Kuralı[9], Sturges'in kuralına basit bir alternatif olarak sunulmaktadır. 

Doane formülü

Doane formülü[10] normal olmayan verilerle performansını arttırmaya çalışan Sturges formülünün bir modifikasyonudur.

Burada g_ {1} dağılımın tahmini 3.-moment-çarpıklığıdır ve

Scott'ın normal referans kuralı

Burada  örneklem standart sapmasıdır. Scott'ın normal referans kuralı,[11] normal dağılımlı verilerin rasgele örneklerinde, yoğunluk tahmininin karmaşık karesini en aza indirgediği için en uygun çözümdür.[5]

Bütünleştirilmiş ortalama karesel hatayı asgariye indirmenin bu yaklaşımı Normal dağılımların ötesinde genelleştirilebilir:[12]

Burada,  depodaki veri noktalarının sayısıdır ve J'nin en küçük olduğu h değerinin seçilmesi, toplam karesel ortalama karesini en aza indirir.

Freedman–Diaconis seçimi

Freedman-Diaconis kuralı şöyledir:[13]

Bu da IQR ile ifade edilen çeyrekler arası aralığa dayanmaktadır. Scott'ın kuralının 3.5σ'ının, verilerdeki belirsizlikler için standart sapmadan daha az hassas olan 2 IQR ile değiştirilir.

Tahmini L2[14] risk fonksiyonunun küçültülmesine dayalı bir seçim

Burada ve  bir histogramın ortalama ve ön yargılı varyansı, kutu genişliği    ve .

Açıklama

Kutuların sayısının  ile ters orantılı olması için iyi bir neden şudur: verilerin pürüzsüz yoğunluklu sınırlanmış bir olasılık dağılımının  bağımsız gerçeklemeleri olarak elde edildiğini varsayalım. Sonrasında  sonsuzluk eğilimi gösterdiği için histogram eşit derecede "engebeli" kalır. Eğer  dağılımın "genişliği" ise (örneğin, standart sapma veya dörtlüler arası aralık), bir bölmedeki birim sayısı (frekans)  olarak ve bağıl standart hata düzeni . Bir sonraki kutuya kıyasla, yoğunluğun türevinin sıfır olmaması koşuluyla frekansın göreli değişimi  düzeyindedir.  böylece   .

Bu basit kübik kök seçeneği, sabit genişlikte olmayan kutulara da uygulanabilir.

Başvurular

  1. Charles Stangor (2011) "Research Methods For The Behavioral Sciences".
  2. M. Eileen Magnello (December 2006). "Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician". The New Zealand Journal for the History and Philosophy of Science and Technology 1 volume. OCLC 682200824. http://www.rutherfordjournal.org/article010107.html.
  3. US 2000 census.
  4. Dean, S., & Illowsky, B. (2009, February 19).
  5. 1 2 Scott, David W. (1992). Multivariate Density Estimation: Theory, Practice, and Visualization. New York: John Wiley.
  6. 1 2 Sturges, H. A. (1926). "The choice of a class interval". Journal of the American Statistical Association: 65–66. DOI:10.1080/01621459.1926.10502161. JSTOR 2965501.
  7. e.g. § 5.6 "Density Estimation", W. N. Venables and B. D. Ripley, Modern Applied Statistics with S (2002), Springer, 4th edition.
  8. EXCEL 2007: Histogram
  9. Online Statistics Education: A Multimedia Course of Study (http://onlinestatbook.com/).
  10. Doane DP (1976) Aesthetic frequency classification.
  11. Scott, David W. (1979). "On optimal and data-based histograms". Biometrika 66 (3): 605–610. DOI:10.1093/biomet/66.3.605.
  12. https://maikolsolis.wordpress.com/2014/04/26/optimizing-histogram-cross-validation/
  13. Freedman, David; Diaconis, P. (1981). "On the histogram as a density estimator: L2 theory". Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete 57 (4): 453–476. DOI:10.1007/BF01025868.
  14. Shimazaki, H.; Shinomoto, S. (2007). "A method for selecting the bin size of a time histogram". Neural Computation 19 (6): 1503–1527. DOI:10.1162/neco.2007.19.6.1503. PMID 17444758. http://www.mitpressjournals.org/doi/abs/10.1162/neco.2007.19.6.1503.

Daha fazla okuma

This article is issued from Vikipedi - version of the 1/8/2017. The text is available under the Creative Commons Attribution/Share Alike but additional terms may apply for the media files.