Tıbbi cihazların kullanılabilirlik testlerinde doğru örneklem büyüklüğünü seçmek, potansiyel kullanım hatalarının belirlenmesi ve ürün güvenliğinin sağlanması açısından kritik bir adımdır. Bu karar, kullanıcı popülasyonu, cihaz görevleri ve düzenleyici gereklilikler dâhil olmak üzere çeşitli faktörlerden etkilenir.
IEC TR 62366-2:2016, hem geliştirici (formative) hem de sonuç olarak (summative) değerlendirmeler için örneklem büyüklüğünün seçimine yönelik özel rehberlik sunar ve üreticilerin kullanılabilirlik sorunlarını tespit etmede verimlilik ile kapsamlılık arasında denge kurmasına yardımcı olur.
Neden Örneklem Büyüklüğü Önemlidir
Kullanılabilirlik testleri, kullanıcıların cihazla nasıl etkileşime girdiğini gözlemleyerek potansiyel kullanım hatalarını ortaya çıkarmaya dayanır. Testin bu hataları tespit etme etkinliği iki temel faktöre bağlıdır:
- Tek bir kullanıcının belirli bir sorunla karşılaşma olasılığı.
- Testteki katılımcı sayısı.
Geliştirici değerlendirmelerde küçük örneklem büyüklükleri, tasarım sürecinin erken aşamalarında büyük kullanılabilirlik sorunlarını ortaya çıkarabilir ve hızlı düzeltici önlemler alınmasına imkân verir. Sonuç olarak değerlendirmeler ise genellikle daha büyük örneklemler gerektirir; özellikle düzenleyici uyumluluk söz konusu olduğunda cihazın kullanılabilirliği konusunda daha güçlü bir güven sağlar.
Örneklem Büyüklüğü Seçiminde Temel Hususlar
Geliştirici (Formative) Değerlendirme
Bu tür değerlendirmeler, yinelemeli tasarım aşamasında kullanılabilirlik sorunlarını erken belirlemek ve çözmek için tasarlanmıştır. Çoğu durumda 5 ila 8 katılımcı, yaygın kullanılabilirlik sorunlarının çoğunu tespit etmek için yeterlidir. Bunun nedeni:
- Birden fazla test turu, kümülatif örneklem büyüklüğünü artırır.
- Yinelemeli tasarım değişiklikleri, sorunların kalıcı olarak gözden kaçma ihtimalini azaltır.
Örneğin, herhangi bir kullanıcıda belirli bir hatanın ortaya çıkma olasılığı %25 ise, 6 katılımcıyla test yapmak bu hatanın %82 olasılıkla tespit edilmesini sağlar (Bkz. Tablo K.1).
Sonuç Olarak (Summative) Değerlendirme
Bu değerlendirmeler, nihai tasarımın güvenliğini, etkinliğini ve kullanılabilirliğini doğrulamaya odaklanır ve genellikle düzenleyici amaçlarla gerçekleştirilir. Güvenilir sonuçlar elde etmek için genellikle kullanıcı grubu başına yaklaşık 15 katılımcı önerilir. Bu daha büyük örneklem, kullanıcı popülasyonunun çeşitliliğini daha iyi yansıtır ve bulgulara duyulan güveni artırır; bu da güvenlik standartlarına uyum için kritiktir.
Önemli bir nokta, bu “sihirli” 15 sayısının her kullanıcı grubuna ayrı ayrı uygulanması gerektiğidir. Örneğin, ürününüzün hem profesyonel olmayan kullanıcıları hem de doktorlar gibi farklı kullanıcı grupları varsa, her bir grup için en az 15 katılımcı gerekir.
Örneklem büyüklüğü arttıkça hataların tespit edilme olasılığı da artar; ancak çok büyük gruplarda özellikle nadir hatalar için iyileşme oranı azalır. Örneğin, 15 katılımcı ile %15 görülme sıklığı olan bir hatanın tespit edilme olasılığı %91’dir. Örneklem sayısını artırmak, hata oranı ve test bağlamına bağlı olarak yalnızca sınırlı bir iyileşme sağlayabilir.
Pratik Öneriler
- İstatistiksel Güce Aşırı Güvenmeyin
Geleneksel araştırmalarda kullanılan güç analizleri, verilerin nitel yapısı nedeniyle kullanılabilirlik testleri için genellikle uygun değildir. Bunun yerine, test sırasında gözlemlenen gerçek kullanım hatalarından elde edilen içgörülere odaklanın. - Yinelemeli Testten Yararlanın
Yinelemeli test döngüleri, küçük örneklem büyüklükleriyle bile tasarımda zaman içinde önemli iyileşmeler sağlar. Her test turu, önceki turda gözden kaçmış olabilecek sorunların ortaya çıkmasına katkıda bulunur. - Kullanıcı Çeşitliliğini Dikkate Alın
Farklı kullanıcı grupları için test yapılırken, sonuç olarak değerlendirmelerde her grup için en az 15 katılımcı dâhil edilmelidir. Böylece çeşitlilik iyi temsil edilir ve tüm kullanıcı ihtiyaçları göz önünde bulundurulur.
Kullanılabilirlik testlerinde örneklem büyüklüğü, değerlendirmenin özel hedeflerine göre uyarlanmalıdır. Küçük örneklem büyüklükleri, geliştirici değerlendirmeler için genellikle yeterli olurken, sonuç olarak değerlendirmeler için düzenleyici standartları ve kullanıcı ihtiyaçlarını karşılamak adına daha büyük örneklem büyüklükleri gerekir. İlgili denge ve yinelemeli test yaklaşımı anlaşıldığında, üreticiler kullanılabilirlik test süreçlerini hem verimli hem de etkili bir şekilde optimize edebilir.