عوامل مؤثر بر سودمندي ارزيابي (2)

نرخهاي پايه و تصميم گيري

اصطلاح نرخ پايه يا فراواني نسبي يک رويداد (اختلال، نشانه، رفتار) در جمعيت مورد نظر، در فصل 7 معرفي شد و براي نمايش اهميت آگاهي از نرخ پايه يک اختلال پيش از اخذ پيش بيني راجع به وجود يا نبود آن اختلال در فردي خاص، مثالهايي را مطرح ساختيم. شناخت و استفاده هوشمندانه از اطلاعات مربوط به نرخ پايه بر سودمندي ارزيابي شخصيت در موقعيتهاي عملي مي افزايد، ليکن روان شناسان در پذيرش اهميت نرخهاي پايه و جذب اين اطلاعات در کار باليني خويش نسبتاً کند عمل کرده اند.
ميل و روزن (1955) نخستين بار در بحثي که راجع به اعتبار تصادفي(881) ابزارهاي پيش بين داشتند، اهميت موضوع را خاطرنشان ساختند. آنها نشان دادند که هر چه نرخ پايه از 0/5 انحراف بيشتري داشته باشد (يعني، يک کسر50 تقسيم بر 50 در جمعيت) پيش بيني مشکل تري خواهيم داشت. در برخي موارد، اگر از موفقيت تصادفي پايين تر خواهد بود. براي نمونه، در جدول 2-7، نرخ موفقيت(882) (تشخيص درست) صرفاً 97/6 درصد بود، حال آنکه اگر قرار بود همه اشخاص را “بهنجار” بدانيم اين نرخ به 99 درصد مي رسيد.
کيورتن(883) (1950) نشان داد که در يک پيش بيني با اعتبار، هميشه بايد امکان آن وجود داشته باشد که نمره برشي پيدا شود که در مقايسه با نتايجي که با “استفاده از نرخ پايه” به دست مي آيند، نسبت کلي بيشتري از پيش بيني هاي درست را به دست آورد؛ يعني، با در نظر گرفتن اين موضوع که همه اشخاص به طبقه شايعتر يا فراوانتر تعلق دارند. لذا، اگر نمره برش در جدول 2-7 را به مثلاً 100 افزايش مي داديم، نتيجه هماني مي شد که در جدول 1-8 ارايه شده است. نرخ موفقيت (يعني، تشخيص درست) 99/1 درصد است- يعني، يک افزايش بسيار ناچيز در نرخ پايه 99 درصد- هرچند به هر حال مقدار فوق افزايش يافته است. اما جاي ترديد است که نمره برش 100 در عمل سودمند باشد؛ تعداد زيادي از بيماران اسکيزوفرنيايي واقعي توسط اين آزمون شناسايي نشده اند(ما مي دانيم اين امکان وجود دارد که در عمل موقعيتهايي وجود داشته باشند که در آن نرخ پايه هرگز نمي تواند بيشتر شود و فرقي ندارد، چه نمره برشي تعيين شده است؛ مثلاً، وقتي که پراکندگي نمره ها در يک وضعيت کم بسامد يا با فراواني کم اساساً کمتر از پراکندگي نمره ها در شرايط پربسامد با فراواني زياد باشد. ليکن، نکته مهم اينجاست که با تغيير نمره برش مي توان نرخهاي موفقيت تصادفي را تغيير داد).
جدول 1-8: درصد فرضي بيماراني که تشخيص اسکيزوفرنيا يا بهنجار را با استفاده از مقياس Sc و نمره برش 100 دريافت کرده اند. 1درصد آنها بيمار واقعي هستند و 99 درصد واقعاً بهنجار هستند.
نمره Tــــــــــ واقعاً اسکيزوفرنيايي ــــــــــــ واقعاً بهنجار ــــــــــ کل
نمره T برابر با 100 يا بيشتر (تشخيص اسکيزوفرنيا داده شده است) ـــــــــــ 0/2a ـــــــــــــ 0/1 ـــــــــــــ 0/3
نمره T زير 100 (تشخيص بهنجار داده شده است) ــــــــــــ 0/8 ـــــــــــ 98/9a ـــــــــــــ 99/7
کل ــــــــــــ 1 ــــــــــــ 99 ـــــــــــــ 100
a = تشخيص درست
در هنگام رسيدن به يک پيش بيني خاص احتمالاً هيچ آزموني به تنهايي براي تمامي نرخهاي پايه جمعيت و مقادير مربوط به نتايج نسبي درمان در حد بهينه عمل نمي کند. ساتز، فِنِل، و رايلي (1970) به طور برجسته اي اين نکته را به نمايش گذاشته اند. آنها درصد تشخيصهاي تصادفي براي پيش بيني بيماري مغزي را که با استفاده از 5 آزمون عصب شناسي و يک آزمون روان عصب شناختي به دست آمده بود، گزارش کردند. بعد، سه نرخ پايه فرضي متفاوت براي بيماري مغزي در نظر گرفته شد (0/8، 0/5، و 0/2). داده ها به وضوح نشان مي داد که دو تا آزمونهايي که درصد تشخيصهاي تصادفي کلي را نسبتاً کم نشان مي دادند، وقتي نرخ پايه بيماري مغزي در کمترين حد خود بود (0/2)، کارآمدترين نتيجه را به بار مي آورند. اين آزمونها تقريباً هيچ گونه خطاي “مثبت کاذبي” نداشتند (يعني، تشخيص نادرست بيماري مغزي در افراد سالم)، ليکن فقط درصد خفيفي از بيماران مغزي را به درستي تشخيص مي دادند (“مثبت واقعي”). وقتي قسمت عمده اي از آزمودنيها بيماري مغزي نداشته باشند، آزمونهاي مذکور بيشترين احتمال صحت تشخيصي را از خود نشان مي دادند.
ضرورت توجه به نرخهاي پايه در تفکيکهاي باليني مبني بر آزمونها مجدداً توسط اِل وود (1993) مطرح شده است. او مفاهيم قدرت پيش بيني مثبت (نسبت مثبتهاي واقعي به کل مثبتها،0/2 تقسيم بر 0/3 در جدول 1-8) و قدرت پيش بيني منفي (نسبت منفي هاي واقعي به کل منفي ها) را ارايه نمود. اِل وود با استفاده از اين مفاهيم توانست نشان دهد که حتي وقتي نرخهاي پايه در دامنه متوسط قرار دارند (نه خيلي بالا و نه خيلي پايين) باز هم مي توانند تأثير معناداري بر دقت تشخيص داشته باشند.
حساسيت و اختصاصي بودن. در سالهاي اخير روي آوردن به سؤالات مربوط به دقت تشخيصي با استفاده از نظريه رد علامت(884) يا علامت يابي شهرت خاصي يافته است. اين نظريه ابتدا در پسيکوفيزيک(885) پرورش و گسترش يافت (سووتز(886)، 1961؛ سووتز، تنر و بردسال، 1961). مفاهيمي که توسط لاستد(887) (1968) و ديگران براي استفاده در پزشکي و همه گيرشناسي اتخاذ شده اند، مفاهيمي هستند که دو جنبه اساسي از دقت در فرايند تشخيص يا سرندکردن را توصيف مي کنند:
1- حساسيت(888) به معناي توان آزمون در ارايه پاسخ مثبت راجع به اشخاصي است که حقيقتاً بيمار هستند (مثبت واقعي). به لحاظ کمّي، اين امر عبارت است از نسبت تمامي اشخاص بيماري که اخيراً توسط آزمون شناسايي شده اند؛ و يا با توجه به مثال جدول 1-7، رقم 60 درصدي که از بررسي هاتاوي (a1956) به دست آمده است.
2- اختصاصي بودن(889) به معناي توان آزمون در ارايه پاسخ منفي براي کساني است که حقيقتاً بيمار نيستند (منفي واقعي). به لحاظ کمي، يعني، نسبت تمامي اشخاص غيربيماري که اخيراً توسط آزمون شناسايي شده اند؛ و يا با توجه به مثال جدول 1-7، نسبت 49 تقسيم بر 50 (98درصد) که معرف عدد 100 منهاي 2درصد در بررسي هاتاوي است.
بنابراين، به زبان نظريه علامت يابي، نقطه برش 70 هاتاوي در مقياس Sc صرفاً از حساسيت متوسط، يعني، 60 درصد برخوردار است (يعني عده کثيري از بيماران اسکيزوفرنيايي را تشخيص نمي دهد)، ليکن از درجه اختصاصي بودن بالايي، يعني، 98درصد، برخوردار است (تقريباً تمامي اشخاص بهنجار را از اين تشخيص حذف مي کند). بايد به خوانندگان متذکر شويم که اين ارقام صرفاً به قصد نمونه آورده شده اند. يافته هاي هاتاوي را نبايد در مورد ساير نمونه ها قابل تعميم دانست. حال با مراجعه به ارقامي که در جدول 1-8 آورده شده اند، در صورتي که نمره برش از 70 به 100 تبديل شود، به 20 درصد حساسيت کاهش خواهد يافت و درجه اختصاصي بودن به 98/9 تقسيم بر 99 يا همان 99/9 درصد افزايش مي يابد.
اين دو اصطلاح براي توصيف ويژگيهاي آزمون زبان خاصي را فراهم آورد. ليکن، در کاربرد علمي آنها بايد نرخهاي پايه را مد نظر داشت. چن(890)، فرائون(891)، بيدرمن، و تسوانگ (1994) در يک بررسي پيچيده، مفهوم منحنيهاي مختصات عملکردي گيرنده (ROC)(892) را که متعلق به نظريه علامت يابي است، معرفي کرده اند. اين منحنيها، معرف نرخ حساسيت (1-) در برابر نرخ اختصاصي بودن هستند. چن و همکاران دقت تشخيصي مقياس “مشکلات توجه” را در “سياهه رفتاري کودک” مورد ارزيابي قرار دادند. آنها نشان دادند که داده هاي مربوط به نرخ پايه را چگونه مي توان با استفاده از فرمولي ساده در اين طرح گنجاند و اين توان را پيدا کرد که دقت تشخيصي نمونه هاي برخوردار از نرخهاي پايه متفاوت را با يکديگر مقايسه کرد. رايس و هريس (1995) در يک بررسي مشابه، کاربرد ويژگيهاي عملکرد گيرنده را در بهينه سازي پيش بيني جرايم خشونت بار به نمايش گذاردند. اين بررسيها نشان دادند که وقتي نمونه هاي بزرگي در دسترس هستند، شايد امکان آن وجود داشته باشد که، در مقايسه با زمان حاضر، از آزمونها و مقياسهاي موجود حداکثر عملکرد را بيرون بکشيم.

تصميم گيري

معمولاً در موقعيتهايي عملي ارزياب، به سودمندي يا کارايي کلي آزمون توجه بيشتري مي شود تا به نرخ موفقيت تصادفي. اگر به جدول 2-7 بازگرديم، براي هر 1000 نفري که از آنها آزمون گرفته شده بود، نمره برش 70 در مقياس Sc مي توانست گروهي مرکب از 26 نفر را شناسايي کند، ليکن فقط 6 نفر از آنها اسکيزوفرنيايي واقعي (“مثبت واقعي”) بودند. اما اگر بخواهيم براي ارزيابي بيشتر اين 26 نفر روشهاي گسترده تر و پرهزينه اي را اجرا کنيم، شايد مايل باشيم همين حالت فعلي را قبول کنيم. نفع آن در اين خواهد بود که ما به شيوه فوق الذکر هزينه هاي ارزيابي تمامي اين 1000 نفر را کم کرده ايم. بهايي که براي اين موضوع خواهيم پرداخت عبارت است از: (الف) نارسايي در شناسايي چهار بيمار – “منفي هاي کاذب”، و (ب) هزينه شيوه سرند کردن.
پرسشهاي مربوط به هزينه ها و منافع ارزيابي در حيطه تصميم گيري قرار دارد، موضوعي که روز به روز در ارزيابي شخصيت اهميت بيشتري مي يابد. رشد و گسترش گرايش به تصميم گيري در حوزه ارزيابي شخصيت به دو طريق حاصل آمده است. نخستين روش در اثر مقاله ميل و روزن (1955) بود که تلويحاً، و شايد بدون قصد قبلي، اظهار مي داشت که درصد دقت مهمترين ملاک براي تشخيص يا طبقه بندي به شمار مي آيد. اين مقاله با پاسخهاي تندي مواجه شد (بوخوالد(893)، 1965)؛ آنها بر اين نکته پافشاري مي کردند که سودمندي يک طبقه بندي، و نه دقت آن، را بايد ملاک نهايي قضاوت در خصوص آن طبقه بندي دانست. براي نشان دادن سودمندي مي بايست پيامدهاي مختلف طبقه بنديهاي احتمالي گوناگون را بر حسب هزينه هاي مختلف شان به طور کمّي تعيين کرد. براي نمونه، هزينه هاي کلي بسترسازي بيمار در يک مؤسسه از لحاظ فردي، خانواده او، متخصصان دست اندرکار درمان، و کل جامعه در يک دوره زماني خاص چه خواهد بود؛ و بر عکس، اگر وي در خانه بماند، چه هزينه هايي را در بر خواهد داشت؟
دومين عاملي که بر گرايش تصميم گيري در ارزيابي شخصيت تأثير گذاشت، انتشار چاپ اول آزمونهاي رواني و تصميمات استخدامي تأليف کرونباخ و گلسر (1965،1957) بود که چهارچوب روشني از تصميم گيري در هنگام استفاده از آزمونهاي رواني را در برابر ساير گرايشهاي متعارفتر مطرح ساخته بودند. از جمله مباحثي که ارايه شده بود اصطلاح سودمندي انتظاري(894) يا هزينه(895) هرگونه اطلاعات با توجه به هزينه کسب آن اطلاعات بود. به عبارت ديگر، هزينه برنامه آزمون گيري بايد بر افزايش کارايي فرايند انتخاب و گزينش بچربد. بحث مفصلتر راجع به اين موضوع و ساير کاربردهاي عملي رويکرد تصميم گيري توسط چن، فرائون، بيدرمن، و تسوانگ (1994)، ال وود (1993)، و مسيک (1995) فراهم آمده است.
در رويکرد تصميم گيري بر پيامد سلسله اعمال مختلف توجه مي شود. اين رويکرد به جاي توصيف آزمودني بر اساس ابعاد شخصيتي متعارف و سنتي نظير سلطه گر، شکيبا، و مضطرب، و يا طبقه بندي او بر حسب طبقاتي سنتي روان پزشکي مثل افسرده، اسکيزوفرنيايي، و مبتلا به آسيب مغزي، به مجموعه رفتارهاي مختلفي مي پردازد که در اختيار آزماينده قرار دارد. به عنوان مثال، اگر روان پزشک طالب “ارزيابي شخصيت” يک بيمار بستري رواني باشد به نحوي که بتوان در خصوص ترخيص، نگهداري او در واحد آزاد(896)، يا واحد محدود (897) تصميم گرفت، اين سه حالت را مي توان گزينه هاي احتمالي مورد بررسي ناميد. براي دقت ارزيابي هيچ ملاکي وجود ندارد، بدين معنا که نمي توان توصيف سلطه گري بالا را با توجه به ملاک درجه بندي همسالان و يا ملاک رسيدن به موضع رهبري بررسي کرد؛ دقت تشخيص اسکيزوفرنيا را مي توان در ميان هيئت قضات مقايسه نمود؛ و يا تشخيص ضايعه مغزي را با استفاده از آزمونهاي فيزيولوژيايي مقايسه کرد. ملاک کار همانا هزينه و سودمندي- يا ارزش تصميم گيري- است. هدف، رسيدن به تصميم يا نوعي ارزيابي است که منجر به سودمندترين بازده شده و لذا تمامي جوانب در نظر گرفته مي شود. جنبه هاي فني مربوط به راهبردهاي تصميم گيري در موقعيتهاي ارزيابي رواني (کرونباخ و گلسر(898)، 1965/ 1975؛ ويگينز، 1973) بسيار پيچيده و فراتر از حوزه کتاب حاضر هستند. اما بد نيست به يک رويکرد کلي در خصوص کار دشوار تصميم گيري، يعني، پژوهش عملکردها(899) که در بافتي کاملاً متفاوت تدوين يافته است، نگاهي داشته باشيم.

پژوهش عملکردها

در خلال جنگ دوم جهاني، دولت بريتانيا با مشکل تقسيم و تخصيص منابع جنگي محدود خويش در گستره وسيعي از فعاليتهاي مناسب رو به رو بود. ملاک تخصيص نيروها از اصل ساده اي تبعيت مي کرد –به حداکثر رساندن کارايي و سودمندي منابع فوق. براي کمک به آن دسته از تصميمهايي که در چنين شرايطي ضروري بودند، فنون رياضي خاصي ابداع شدند. پس از جنگ معلوم شد تصميمهايي که بايد گرفته مي شد اساساً و به طرقي بي شمار مثل همانهايي است که در بازرگاني و صنعت با آن مواجهه اند. براي مثال، شرکتها بايد چند نفر فروشنده استخدام کنند و آنها را به کجا بفرستند که حداکثر فرآورده هاي شرکت را با نازلترين هزينه به فروش برسانند؟ و يا، فروشگاههاي بزرگ بايد چند صندوق داشته باشند تا ميان زمان بيکاري فروشنده ها و از دست دادن مشتريان به خاطر انتظار کشيدنهاي طولاني مدت، تعادلي بهينه برقرار کرده باشند؟ يک شرکت چند تا کارخانه بايد داشته باشد، و براي آنکه ميان هزينه حمل و نقل مواد خام و هزينه حمل و نقل محصولات نهايي به فروشگاهها تعادل بهينه اي به وجود آيد، کارخانجات مزبور در کجا واقع شوند؟ به حوزه تخصصي و کارشناسي در رويکردهاي پيچيده مهندسي، رياضي، و بازرگاني براي پاسخ دادن به اين سؤالات، پژوهش عملکردي مي گويند. خوانندگان علاقه مند به توجيه کلاسيک برخي از فنون مربوط به اين حوزه مي توانند براي کسب يک مقدمه مختصر به ايکاف(900)، و ريوت(901) (1963) و براي بحثهاي مفصلتر به هيلير(902) و ليبرمن (1967) مراجعه کنند.
هالپرت(903)، هوروات(904) و يانگ (1970) و لاينز(905) (1980) روشهاي به کارگيري فناوري پژوهش عملکردها در ارزيابي شخصيت و زمينه گسترده تر تصميم گيري در حوزه هاي بهداشت رواني را توصيف کرده اند. با اينکه پيشرفتهاي مشخصي در اين حيطه حاصل آمده است، ليکن مشکل اصلي هنوز هم در مورد پرورش و گسترش ملاکهاي مناسب و کافي سودمندي است؛ يعني، کمّي سازي مقادير و ارزشهاي متفاوت مربوط به تصميمهاي احتمالي مختلف. در بازرگاني و صنعت، ملاکي که معمولاً به صورت متعارف براي سودمندي به کار مي رود، عبارت است از: سود يا بهره(906). روابط را مي توان بر حسب پولي که در کار هزينه شده است کميّت گذاري کرد و لذا نظامي را که منجر به بيشترين سود خواهد شد، طرح ريزي نمود. در زمينه ارزيابي رواني هم مي توان رويکرد مشابهي اتخاذ نمود؛ اما، موقعيت به همان سرراستي نيست. در برخي مواقع، مقادير و ارزشها به صورت مالي خواهند بود، ليکن مولفه مهمتر عبارت است از: ارزشهاي اجتماعي يا فرهنگي؛ مثلاً، به لحاظ اجتماعي چقدر اهميت دارد که از بستري شدن شخصص در بيمارستان رواني احتراز شود؟ و يا، نگهداري يک شخص خاص در بيمارستان رواني، يعني، مکاني که اعمال عجيب و نامأنوس او ديگران را تهديد نخواهد کرد، تا چه اندازه براي جامعه اهميت دارد؟ به رغم مجموعه مقالات جالبي که شلي و برايان (1964) در خصوص کمّي سازي ارزشها گرد آورده اند، ليکن در مورد روشهاي تعيين ارزشهاي مرتبط با بهداشت رواني و گنجاندن آنها در فرايندهاي تصميم گيري هنوز هم بايد توسعه بيشتري بيابد تا از اين رهگذر بتوان از توان بالقوه فناوري پژوهش عملکردي استفاده احسن را برد.
مي توان چنين گفت که ارزشهاي اجتماعي و فرهنگي پيچيده تر از آن هستند که بتوان آنها را کميّت گذاري کرد، و اميد بستن به توفيق در اين راستا احمقانه خواهد بود. ليکن، هرگاه تصميمي حقيقي در خصوص بيماران رواني گرفته مي شود، بدون توجه به اينکه آيا فرد تصميم گيرنده در مورد ارزشها صراحت داشته يا نه، به طور تلويحي ارزشهاي فوق را برآورد کرده است. به عبارت ديگر، ما نمي توانيم از قضاوت کردن در مورد رفتارهاي واقعي خويش اجتناب کنيم و البته چنين نيز نمي کنيم. شايد بتوان موقعيت را به سان متخصصان باليني مجربي دانست که اطلاعات مربوط به ارزيابي شخصيت را در ذهن خود منسجم کرئه و راجع به آزمودني دست به تشخيص يا پيش بيني مي زنند. در سطح خاص، بخشهاي خاصي از اطلاعات را با هم ادغام مي کنند، ولو اينکه از اين کار مطلع نباشند. در سطح گسترده تر نيز، مجريان و سياست گذاران دايماً مقادير و ارزشهاي کمّي را براي نيازها، اميال، و شرايط انساني به صورت تلويحي به کار مي گيرند تا مثلاً در خصوص مقدار پولي که جامعه براي شرکت در يک کنسرت يا مسابقه بيسبال مي پردازد، دست به پيش بيني بزنند و يا چه مقدار از بودجه محدود کشور را بايد براي جاده ها خرج کرد نه براي بهداشت. تکاليف ما براي آينده آن است که اين فرايندها و ارزشهاي تلويحي را به صورت صريح و روشن بيان کنيم.
در پايان، مجدداً به کار برجس (1928) راجع به تخطي از آزادي مشروط باز مي گرديم. در نمونه او، 28/5 درصد از تمامي آزادشدگان از اين آزادي تخطي کردند. به سخن ديگر، نرخ پايه تخطي از آزادي مشروط برابر با 28/5 درصد بود. لذا، اگر پيش بيني مي کرديم که تمامي اشخاصي که آزادي مشروط دارند دست به جرم ديگري نمي زنند، در 71/5 درصد از مواقع درست پيش بيني کرده بوديم. گاف (1962) داده هاي برجس را مجدداً تحليل کرد و نشان داد که، اگر از نمره ها برش بهينه (يعني، نمراتي که بيشترين تعداد از افراد را در گروههاي واقعي اشخاصي که تخطي کرده اند و از آنهايي که تخطي نکرده اند، به دست مي دهند) استفاده مي شد، دقت پيش بيني کلي برابر با 76 درصد، يعني، صرفاً 4 درصد بيشتر از دقت پيش بيني بود که اظهار مي داشت تمام اشخاصي که به صورت مشروط آزاد مي شوند از آن تخطي نخواهند کرد. اينکه آيا استفاده از داده هاي آماري در اين زمينه موجه بوده است (يا تبعيت از نرخ پايه و پيش بيني اين موضوع که هيچ گونه تخطي وجود نخواهد داشت) به کارايي و بهينگي تصميمهايي بستگي دارد که متعاقباً خواهد آمد؛ يا به عبارت دقيقتر، اين امر به هزينه هاي نسبي هر کدام از خطاهاي پيش بيني وابسته است.

مقايسه منابع اطلاعاتي

شايد چندان اغراق نباشد که بگوييم بسياري از روان شناسان، وقتي به ارزيابي شخصيت باليني گمارده مي شوند، مجموعه اي متعارفي از ابزارهاي سنجش رواني را بر روي آزمودني اجرا مي کنند و غالباً بدون توجه به اينکه چه اطلاعاتي را مي خواهند به دست آورند و يا قرار است به چه سؤالي پاسخ بگويند، از يک روش يکسان استفاده مي کنند. يافته هايي که نشان مي دهند اعمالي که براي ارزيابي به کار مي روند در عرض 30 سال گذشته تغيير نسبتاً کمي داشته اند، قبلاً ذکر شده است (واتکينز و همکاران، 1995). دليل چنين تداومي شايد تا حدودي به خاطر آن باشد که موارد ارجاعي غالباً از لحاظ مسايل مورد نظر متخصصان باليني غيراختصاصي هستند؛ دليل دوم وجود ديدگاه سنتي و در حال حاضر کهنه اي است که مي گويد درک هر قسمت از مشکلات شخص مستلزم ارزيابي عميق کل شخصيت اوست.
در مورد اين رويکرد انعطاف ناپذير دست کم دو مشکل وجود دارد: اولاً، هر بيماري با ديگران فرق دارد؛ کارِ پيدا کردن پديده هاي مربوط به يک بيمار، هرگز کاملاً مثل يافتن همان پديده ها در فردي ديگر نيست. ثانياً، به نظر معقول مي رسد که انتظار داشته باشيم براي هر گونه تکليف ارزيابي (بدون توجه به اين موضوع که آيا بيمار را قسمتي از تکليف مزبور در نظر مي گيريم يا خير)، ترکيب خاصي از ابزارها و روشها ترکيب بهينه تلقي شود.
در فصول سه و چهار از رويکردهاي گوناگون ساخت ابزارهاي ارزيابي شخصيت سخن گفتيم (علاوه بر اين به پيوست مراجعه کنيد). قسمت مهمي از بحث مذکور به وارسي روشهايي اختصاص داشت که با استفاده از آنها يک ماده آزمون را براي ساخت مقياس خاصي انتخاب مي کردند. اصل زيربنايي آن بود که هر ماده آزمون بايد نقش منحصر به فردي در بازده نهايي بر عهده داشته باشد و مکمل ساير ماده ها باشد، به قسمي که مفهوم و يا حوزه مورد ارزيابي را کاملاً نشان دهد.
هنگامي که دسته اي از آزمونها به منظور ارزيابي بيمار خاصي در نظر گرفته مي شود، اصل مشابهي را بايد به کار برد. ليکن براي اين کار لازم است دقيقاً بدانيم که نقش هر آزمون در کل حوزه ارزيابي؛ مثلاً، آزمون رورشاخ کدام ويژگيهاي بيمار را به بهترين نحو مي سنجد؟ مصاحبه چه نقشي دارد که نمي توان آن را به سادگي با استفاده از ساير روشها فهميد؟ نيرومندترين سهم MMPI چيست؟ متأسفانه، مجموعه نظامداري از پژوهشهايي که مستقيماً به اين پرسش پرداخته باشند در دست نيست. چنين پژوهشهايي پرهزينه و حجيم هستند. ليکن، شماري از پژوهشهاي منفرد در مورد اين حوزه وجود دارد، و در واقع، به ما اين امکان را مي دهند که به نتايج نسبتاً محکمي دست يابيم. يافته هاي مورد نظر گوياي اين مضمون کلي هستند که هر چه روشها و يا منابع اطلاعاتي استقلال بيشتري داشته باشند، ارزيابي حاصله از اعتبار بيشتري برخوردار خواهد بود. حال با هم شواهد اين حوزه را وارسي مي کنيم.

نقش ابزارهاي ارزيابي

در خصوص نقش متفاوت ابزارهاي مختلف سنجش در ارزيابي رواني – تشخيصي باليني متعارف از بيماران رواني چندين بررسي اجرا شده است. اين بررسيها همگي در حيطه اعتبار افزايشي(907) بوده اند. کاستلان(908) (1954) براي 5 بيمار سرپايي رواني، چهار نوع اطلاعات را گردآوري کرد: شرح حال اجتماعي، رورشاخ، MMPI، و آزمون تکميل جملات. از مجموع چهار منبع فوق، ترکيبات مختلفي متشکل از سه منبع به بيست متخصص باليني داده شد و با استفاده از سياهه طويلي از ماده هاي توصيفي شخصيتي تحليلهاي آنان با تحليلهاي هيئت داوران گروه ملاک مقايسه شد. يافته شگفت آور آن بود که توصيفهاي متخصصان باليني که به تاريخچه اجتماعي دسترسي نداشتند، به هيچ وجه دقيقتر از کساني نبود که فقط بر اساس حداقل داده ها(909) (سن، شغل، تحصيلات، وضعيت تأهل، و دليل ارجاع به درمانگاه) کار کرده بودند. همچنين معلوم شد که اين “حداقل داده ها” توصيفهايي به دست خواهد داد که از درجه شانس بالاتر است، و دقيقترين توصيفها متعلق به آنهايي بود که هر دو منبع شرح حال اجتماعي و MMPI را در اختيار داشتند. ساينز (1959) در بررسي خود راجع به داده هاي زندگي نامه اي، مصاحبه، رورشاخ، و MMPI به نتايج مشابهي دست يافت. در اينجا نيز مجدداً داده هاي زندگي نامه اي سهم بيشتري نسبت به داده هاي حاصل از آزمونها داشت؛ همچنين، شواهدي در دست بود مبني بر اينکه وقتي داده هاي موجود از حد خاصي بالاتر برود، دقت ارزيابي کاهش خواهد يافت.
ليتل(910) و اشنايدمن(911) (1959) گسترده ترين بررسي را درباره توانايي روان شناسان باليني در اخذ تشخيصهاي رواني متعارف با استفاده از ابزارهاي ارزيابي انجام داده اند. ابزارهاي مورد بررسي عبارت بودند از: MMPI، TAT، رورشاخ، و آزمون فرافکن داستان گويي بر اساس تصوير(912) اشنايدمن (1951). هر ابزار به صورت منفرد به کار برده مي شد. چهل و هشت روان شناس -دوازده متخصص براي هر آزمون – در مورد 4 آزمودني دست به تشخيص و توصيفات شخصيتي مي زدند. ملاک مقايسه تشخيصهايي بود که از داده هاي مربوط به شرح حال مفصل هر آزمودني به دست مي آمد. نتايج اين بررسي پيچيده بود، اما يافته هاي قابل توجه به اين شرح بودند: توافق پايين خبرگان آزمونها (چه در ميان خودشان و چه در مقايسه با تشخيصهاي ملاک)، و دقت عموماً کم خبرگان در تفسير آزمونها، گلدن (1964) با استفاده از همان اطلاعات مربوط به بيماران کوشيد تا مشخص نمايد که آيا دقت توصيفهاي مبتني بر آزمونهاي باليني به صورت تابعي از تعداد آزمونهاي مورد استفاده بالا مي رود يا خير. وي متوجه شد که چنين چيزي اتفاق نمي افتد. در بررسي مستقلي که وايلدمن و وايلدمن (1957 اجرا کردند، نتايج مشابه گزارش شد.
اسکات و جانسون (1972) پژوهش مشابهي را در حوزه ويژگيهاي شخصيتي بهنجار اجرا کردند. هدف آن بود که اعتبار ارزيابيهايي که بر اساس آزمونهاي مستقيم مثل پرسشنامه هاي خودسنجي صورت مي گرفت با آزمونهاي غيرمستقيم مثل پيامدهاي پيش بيني شده مربوط به رويدادهاي فرضي و داستانهاي خيالي که درباره تصاوير TAT نوشته شده بود، مقايسه شود. درجه بندي دوستان آزمودنيها در حکم ملاک پيش بيني بودند. يافته ها معمولاً مؤيد برتري اندازه هاي مستقيم بر رويکردهاي غيرمستقيم بودند. ميشل (1972) پس از وارسي گسترده ساير شواهد مربوط به همين موضوع به نتيجه مشابهي دست يافت.
از اين بررسيها چه نتايجي مي توان به دست آورد؟ از يک نظر، اين بررسيها به طور همسان نشان مي دهند که آزمونهاي شخصيتي در حکم عنوان منابع اطلاعاتي براي پيش بيني يا توصيف روان شناختي آزمودني به کار مي روند، بخوبي داده هاي مربوط به شرح حال نيستند. همچنين، در صورت مکمل بودن يک آزمون در کنار شرح حال، يک آزمون منفرد به همان اندازه اي اطلاعات اضافي به دست مي دهد که چند آزمون به کار رفته باشد و اهميتي ندارد که از کدام آزمون استفاده شده است. اگر اين قضيه درست باشد، کفه ترازو از لحاظ صرفه جويي زماني و انرژي به نفع پرسشنامه هاي خودسنجي مثل MMPI خواهد بود.
به بررسيهاي فوق از چندين لحاظ مي توان خرده گرفت: اولاً، در برخي از آنها از متخصصان نسبتاً بي تجربه براي تشخيص استفاده شده است، هرچند بعداً نشان خواهيم داد که ارتباط تجربه باليني با دقت تشخيص موضوع پيچيده اي است. در حمايت از اين بررسيها بايد گفت که آنها معمولاً بازتاب روال کار واقعي باليني در ميان دست کم برخي از متخصصان باليني هستند. ثانياً، آنها قبل از امکان دسترسي به پژوهشهاي عيني سازمان يافته راجع به تفسير MMPI اجرا شده بودند. لذا، مي توان انتظار داشت که MMPI (و ساير آزمونهاي برخوردار از داده هاي تفسير آماري) در حال حاضر نتايج بهتري را نسبت به موارد قبلي عرضه کنند (البته، هر چه قواعد آماري اختصاصي تري وجود داشته باشند، درجه تجربه متخصص باليني در مورد آزمون نيز از اهميت کمتري برخوردار خواهد بود). ثالثاً، اين بررسيها عمدتاً در مورد توصيفات کلي شخصيتي بوده اند، نه ارزيابي و پيش بيني صفات و رفتارهاي اختصاصي. رابعاً، از آنجايي که ملاک مورد پيش بين غالباً در وهله اول از اطلاعات شرح حال به دست مي آمد، نبايد جاي تعجب باشد که اين داده ها هميشه بهترين دقت پيش بيني را داشته باشند؛ زيرا عامل پيش بيني کننده و ملاک کاملاً مستقل از يکديگر نيستند.
گارب(913) (1984) درباره اين بررسيها و ساير بررسيهاي مربوط به اعتبار افزايشي منابع اطلاعاتي مورد استفاده در ارزيابي شخصيت به وارسي دقيقي دست زد. به رغم چندين هزار بررسي که درباره اعتبار آزمونها وجود داشتند، گارب فقط توانست 32 بررسي را پيدا کند که به پژوهش راجع به اعتبار افزايشي پرداخته بودند. با اين همه، يافته هاي او معمولاً مؤيد يا گسترش دهنده همان موارد فوق الذکر بودند. بر اساس اين يافته ها مي توان اظهارنظرها و پيشنهادات زير را براي متخصصان دست اندرکار و پژوهشگران مطرح ساخت. اولاً، به رغم تداخل احتمالي متغيرهاي پيش بين و ملاک در بررسيهاي مذکور، به نظر بديهي مي رسد که اطلاعات زندگي نامه اي بايد مبناي ارزيابي باليني قرار بگيرند و ساير منابع اطلاعاتي را به منظور ارتقاي اين مبنا به کار برد. ثانياً، معمولاً MMPIاز آزمونهاي فرافکن عملکرد بهتري دارد و بايد به عنوان دومين مؤلفه ارزيابي در نظر گرفته شود. بايد متوجه بود که اين نتيجه گيري شامل جديدترين تحولات در حوزه اعتبار آزمونهاي مورد نظر نمي شود، و ابزارهاي جديد و نويدبخشي چون “پرسشنامه ارزيابي شخصيت” و آزمونها مبتني بر عاملهاي “پنج عامل عمده” را بايد از اين قاعده مستثني کرد.
سومين نکته آن است که با سرعتي نسبتاً زياد مي توان به حداکثر دقت توصيف يا پيش بيني دست يافت، و اضافه کردن منابع اطلاعاتي عديده در حقيقت مي تواند به کاهش دقت منجر شود. نتيجه فوق به خاطر اين حقيقت آماري است که هر چه دقت قابل حصول به معناي مطلق آن کمتر باشد (به خاطر محدوديتهاي مربوط به پايايي و اعتبار متغيرهاي پيش بين و ملاک)، براي دستيابي به حداکثر دقت به متغيرهاي پيش بين کمتري نياز داريم. رابعاً، ملاحظات مربوط به کم هزينه بودن ايجاب مي کند که از منابع اطلاعاتي استفاده شود که به صورت عيني اجرا و پردازش مي شوند، مثل پرسشنامه ها و مجموعه پرسشهاي ساخت دار زندگي نامه اي. خامساً، در برخي موارد، ممکن است مصاحبه نقش بي همتايي داشته باشد، هر چند خطر تفسير نادرست نشانه هاي ديداري و شنيداري نيز وجود دارد. سادساً، هنوز هم نسبت به تعيين مزاياي منحصر به فرد هر کدام از ابزارها و فنون عمده آزمون گيري توجه اندکي مبذول مي شود. پژوهش در اين حوزه مي تواند اطلاعاتي را فراهم آورد که بگويد کدام آزمون براي پاسخ به سؤالات ( يا بيماران) خاصي مناسبتر از بقيه آزمونهاست. در نتيجه، ما همه را به کشف متغيرهاي تعديل کننده اي فرا مي خوانيم که قابليت پيش بيني منابع اطلاعاتي مختلف را افزايش مي دهند (به فصل 7 مراجعه کنيد).

ارزيابي چندگانه

بررسيهاي مطرح شده در قسمت قبل تا حدودي ماهيت و مقدار بهينه داده هايي را که براي پيش بيني و ارزيابي شخصيت يا تشخيص رواني بايد گردآوري شوند، مشخص ساخته اند. حال بياييد به اين سؤال از زاويه ديگري نزديک شويم، يعني، ادبيات فني مربوط به اعتبار سازه. کمبل و فيسک (1959) در مقاله کلاسيک خويش راجع به اين موضوع نشان دادند که در هنگام ارزيابي هر گونه صفت يا ويژگي مي توان با استفاده از گستره وسيعي از منابع اطلاعاتي يا روشها دست به نتيجه گيري زد. هر چه تعداد روشهاي مستقلي که داده هاي به هم مرتبط را فراهم مي سازند بيشتر باشد، اعتبار سازه آن صفت اساس و بنيان بيشتري خواهد داشت. لذا، هر چه گستره روشهاي پيش بيني بيشتر باشد، پيش بيني نيرومندتري به دست خواهد آمد.
ليکن، منابع اطلاعاتي بايد نسبتاً مستقل از يکديگر باشند. اينکه داده هاي پيش بين فراواني بر اساس يک روش منفرد و يا روشهاي بسيار مشابه داشته باشيم، فايده چنداني نخواهد داشت. چون که گاه ممکن است همبستگي ميان نمره هاي مختلف صفتي که بر اساس صرفاً يک روش به دست آمده باشند، از همبستگي هايي که با استفاده از روشهاي مختلف ارزيابي همان صفت حاصل آمده اند، بيشتر باشد؛ يعني، هر روش سوداريهاي خاص خود را دارد و لذا ممکن است بر کل نمره هايي که بر اساس آن روش به دست آمده اند تأثير معناداري داشته باشد. به عنوان نمونه، نمره هاي يک نفر در مقياسهاي پرسشنامه شخصيتي بهنجاري که صفات جامعه پسند را مي سنجد شايد به اين خاطر همبستگي بالايي با هم داشته باشند که عامل جامعه پسندي در همه آنها وجود دارد. همين طور، ممکن است داده هاي حاصل از مصاحبه هاي مختلف به خاطر احساسات مثبت (يا منفي) مصاحبه گر نسبت به درمانجو از سوداري مشترکي برخوردار باشند.
معناي بررسي کمبل و فيسک در موقعيتهاي عملي ارزيابي چيست؟ منظور اين است که بايد با استفاده از روشهاي مختلف به گردآوري داده ها پرداخت نه آنکه داده هايي را جمع آوري کنيم که مبتني بر يک روش محض يا روشهاي کاملاً مرتبط با يکديگر هستند. حال در مقامي قرار داريم که مي توانيم نتايج نامطلوب کاستلان (1954)، ليتل و اشنايدمن (1959)، و ساير بررسيهايي را که گارب (1984) وارسي کرده است، بهتر درک کنيم. آزمونهاي سنتي را مي توان معرف يک روش منفرد يا دسته اي از روشهاي مرتبط با يکديگر قلمداد کرد. سهم منحصر به فرد داده هاي زندگي نامه اي و مصاحبه در دقت ارزيابي مي توان با عطف به اين موضوع فهميد که اين منابع اطلاعاتي معرف روشهاي نسبتاً متفاوتي هستند. ليکن، از آنجايي که هر سه روش از نوع خودسنجي به شمار مي آيند و لذا با يکديگر ارتباط دارند، مي توان انتظار داشت که مجموع کل سهم آنها هنوز هم نسبتاً در حد ناچيزي باشد، و در واقع، چنين نيز هست.
ظاهراً استفاده از يک مجموعه آزمون ارزيابي متعارف موجب زايد شدن داده هايي مي شود که با استفاده از اين مجموعه نسبتاً محدود از روشها به دست آمده اند. يکي از روشهاي بهبود کارايي ارزيابي، و البته نه دقت آن، استفاده از صورتهاي کوتاه شده متعلق به روشهاي متعارف و سنتي گردآوري داده است؛ براي مثال، يک مصاحبه ساخت دار مختصر، يک برگه اطلاعات زندگي نامه اي مختصر، و يک پرسشنامه خودسنجي کوتاه. لانيون (1972) چنين رويکردي را پيشنهاد کرده است. علاوه بر اين، در راستاي اين فلسفه چند روشي مي توان به روش محور ارزيابي(914) اشاره کرد که در فصل اول به اختصار وصف آن رفته است. در اينجا، تلاش متخصصان ارزيابي عبارت است از: بيشينه ساختن(915) تعداد روشهاي متفاوت گردآوري داده هايي که مي توان به کار گرفت. تحليل سودمندي نظري روش محور ارزيابي نشان داده که اين روش حتي در مواقعي که اعتبار روشهاي منفرد نسبتاً پايين هستند، از کارايي برخوردار است.

پي نوشت:

881- hit-and- miss
882- hit rate
883- Cureton
884- signal detection
885- psychophysics
886- Swets
887- Lusted
888- sensitivity
889- specificity
890- chen
891- Faraone
892- receriver operating characteristic
893- Buchwald
894- expected utility
895- payoff
896- open unit
897- lockedunit
898- Glesser
899- operations research
900- Ackoff
901- Rivett
902- Hillier
903- Halpert
904- Horvath
905- Lyons
906- profit
907- incremental validity
908- Kostlan
909- minimal data
910- little
911- Schneidman
912- Make-a-Picture-Story-Test
913- Grab
914- assessment center
915- maximizing

منبع:تالیف:آی . لانیون،ریچارد و دی فلئونارد ، ترجمه:نقشبندی،سیامک و …. «ارزيابي شخصيت» ، نشر روان ،1385