نکات روان سنجي (ب:اعتبار)
در فصل سوم، ما مفهوم کلي سودمندي يک آزمون يا روش ارزيابي را به عنوان اندازه يا ميزاني توضيح داديم که به ما امکان مي دهد تا بعضي از رفتارهاي غيرآزمون شخص را شناسايي و پيش بيني کنيم. ما همچنين واژه اعتبار را با سودمندي کم و بيش هم معنا به کار برده ايم. ما اکنون مفهوم اعتبار را با جزئيات بيشتري مورد بررسي قرار خواهيم داد.
در معيارهاي سنجش تربيتي و روان شناختي (انجمن پژوهشهاي تربيتي آمريکا، انجمن روان شناسي آمريکا، شوراي ملي اندازه گيري در تربيت، 1985) بر اين موضوع تأکيد مي شود که شواهد مربوط به اعتبار را مي توان از طريق روشهاي مختلفي جمع آوري کرد. “اعتبار همواره به ميزاني اشاره مي کند که اين شواهد از استنباطهايي حمايت کند که از روي نمره ها به دست مي آيند” (ص 9). مدتهاست معلوم شده است که چون آزمونهاي مختلف هدفهاي متفاوتي دارند، رويکردي که ممکن است براي نشان دادن اعتبار يک آزمون مناسب باشد، امکان دارد احتمالاً براي يک آزمون ديگر مناسب نباشد. به طور کلي، سه نوع مختلف شواهد مربوط به اعتبار را مي توان به صورتهاي زير در نظر گرفت: الف) اعتبار محتوا، ب) اعتبار وابسته به ملاک (پيش بين و همزمان)، و ج) اعتبار سازه. اين طبقه بندي سه گانه که بر اساس هدفهاي آزمون استوار است، تا اندازه اي ساختگي است؛ اين طبقه ها تا اندازه اي همپوشاني دارند و معمولاً نشان دادن اين موضوع که يک آزمون به چندين شيوه اعتبار دارد، ضروري است. به دست دادن شواهدي در خصوص اعتبار (بر اساس آزمودنيهاي هدف يا استفاده کنندگان آزمون) مستلزم روشي بيش از ارزيابي توصيف يا پيش بيني شخصيت حاصل از آزمون است. فارر(822) (1949) به وضوح در مطالعه اي که ميزان بالايي از توافق را در خصوص توصيف شخصيت همسان و واحدي از دانشجويان ليسانس به دست داد، سفسطه اعتبار “تصديقي” يا “شخصي” را به تصوير کشيد. اين دانشجويان نمي دانستند که آنها جملگي پسخوراند يکساني را دريافت کرده بودند. اودل(823) (1972) حتي در نشان دادن اعتقاد دانشجويان به اين گزارشهاي مبتني بر اثر بارنوم، پا فراتر گذاشت و نشان داد که اين گزارشها دقيقتر از گزارشهاي واقعي کامپيوتري در مورد خود آنان بود.

اعتبار محتوا

شواهد وابسته به ملاک در خصوص اعتبار شامل نشان دادن اين موضوع است که محتواي آزمون معرف رفتارهاي مورد توجه است. شواهد مربوط به محتوا رابطه خاصي با آزمونهاي پيشرفت و استعداد دارد که در آنها پاسخ ماده هاي آزمون به وضوح نمونه هايي از رفتارهاي مورد نظر هستند. ارزيابي شخصيت با استفاده از نمونه هاي رفتار و آزمونهاي موقعيتي، همان طوري که در فصل پنجم مورد بحث قرار گرفت، همچنين شامل اعتبار محتوا از طريق فراخواني مستقيم پاسخهاي مربوط است. براي مثال، فرض کنيد ما بخواهيم آزموني درباره رهبري تهيه کنيم و به همين دليل شرايط آماده کردن مجموعه اي از نمونه هاي رفتاري را فراهم مي کنيم که بر اساس آن پاسخ دهنده رفتارهاي شاخص پاسخهاي خود را به انتظارات موقعيتي از رهبري نشان مي دهد. اگر اين موقعيتهاي رفتاري در کل نمونه معرفي از موقعيتهاي رهبري (يا زيرمجموعه هاي کاملاً مشخصي از اين موقعيتها) باشند و هرگاه ميزان ساختگي بودن ناشي از موقعيت سنجش به حداقل برسد، ما به طور ساده بر مبناي اين واقعيت که محتواي آزمون نمونه معرفي از رفتار مورد نظر است، يک آزمون رهبري معتبر خواهيم داشت. به عبارت ديگر، اعتبار محتواي يک آزمون با يک هدف خاص، ارزيابي ذهني همان ملاک است. با وجود اين، هرگاه هدف يک آزمون پيش بيني رفتار تحت شرايط نسبتاً واقعي مانند رهبري در جنگ باشد، آن گاه به چيزي بيش از اعتبار محتوا نيازمنديم.
گاهي مطرح مي شود که پرسشنامه هاي شخصيت مداد و کاغذي هنگامي که به طور ساده اعتبار محتوا (يا صوري) داشته باشند، يعني، هنگامي که به صورت منطقي به دست آمده باشند، اعتبار خواهند داشت. بنابراين، وجود سؤالهاي مربوط به تجزيه اختلال خلقي در يک مقياس افسردگي، نبود انگيزش براي فعاليتهاي روزانه و کندي رواني – حرکتي را مي توان به عنوان زمينه هاي منطقي مربوط به سودمندي مقياس در نظر گرفت. ولي رفتارهاي باليني افسردگي را نمي توان با علامت زدن روي برگه پاسخ صحيح – غلط IBM نمونه گيري کرد. در واقع، اين همبسته هاي غيرآزمون يا زندگي واقعي اين پاسخهاست که مورد توجه قرار دارند و همين بايد نشان داده شود. خوشبختانه، منطقي بودن (يا اعتبار محتواي) يک مقياس براي سازندگان آزمون يک شرط لازم در خصوص سودمندي آن است، اما با اين حال، يک شرط کافي نيست.

اعتبار وابسته به ملاک

در ارزيابي شخصيت، ما به خاطر برخورداري از يک جهت گيري عملي اغلب بيشتر به شکلهاي مختلف اعتبار پيش بين توجه مي کنيم. اعتبار پيش بيني به “دقتي اشاره دارد که بر اساس آن مي توانيم درباره يکي از ويژگيهاي فرد بر پايه يک ويژگي ديگر” دست به پيش بيني بزنيم (گيزلي(824)، 1964، ص 338). اين نوع بررسي يا شاخص ارزيابي “پيش بين” و خصوصيتي که بر پايه آن حدس مي زنيم، “ملاک” ناميده ناميده مي شود. شاخص عددي ساده اعتبار پيش بين از طريق همبستگي بين پيش بين و ملاک به دست مي آيد. اعتبار پيش بيني يک روش مهم در رويکرد گروههاي ملاک براي آزمون سازي است. براي مثال، هرگاه بخواهيم افزايش متوسط بيماران را هنگام پذيرش درمان روان پزشکي در مقياسهاي MMPI به عنوان شاخصي از مدت زماني که بستري مي شوند به کار ببريم، مي توان به بهترين وجهي براي اين منظور از اعتبار پيش بين سود جست. همبستگي بين افزايش متوسط و روزهاي بستري شدن در آينده شاخصي از اعتبار افزايش متوسط به عنوان پيش بيني کننده بستري شدن است.
براي اطمينان حاصل کردن از اين موضوع که همبستگي حاصل به طور ساختگي بالا نيست، اهميت زيادي دارد که شاخص ملاک را از “آلوده شدن” با متغير پيش بين حفظ کنيم. در مثال قبلي، افزايش کلي نيمرخMMPI بيماران نبايد هيچ نقشي در تعيين طول مدت زمان بستري شدن آنها داشته باشد. در بررسيهاي انجام گرفته روي ملاک و کاربرد علمي متغير پيش بين، بايد احتياط زيادي را به عمل آورد که محرمانه بودن نمره هاي متغير پيش بين حفظ شود. در غير اين صورت، اين نمره ها تحت تأثير “پيشگوييهاي خودکام بخش” قرار مي گيرند.
شواهد مربوط به اعتبار پيش بيني يک آزمون را بايد براي هر نوع ملاکي که انتظار پيش بيني آن مي رود، نشان داد. اين واقعيت که متوسط افزايش نمره در MMPI را مي توان براي پيش بيني طول مدت بستري شدن به کار برد، موفقيت آن را در پيش بيني احتمال بستري شدن مجدد تضمين نمي کند، علي رغم اينکه هر دو ملاک را بتوان به عنوان اندازه ها يا شاخصهاي “موفقيت درمان” به کار برد. علاوه بر اين، اين واقعيت که متوسط افزايش براي پيش بيني طول مدت بستري در يک مکان خاص و با يک گروه خاص به کار برده شده عملاً به اين معنا نيست که در يک مکان ديگر نيز موفق خواهد بود. در اين مورد، در خصوص گروه جديد بايد وارسي اعتبار صورت گيرد. روشهاي موجود در وارسي اعتبار و مخاطره هاي ناتواني در انجام اين کار در فصل چهار مورد بحث قرار گرفته اند.
اعتبار وابسته به ملاک لزوماً به پيش بيني در آينده اشاره نمي کند. در بعضي موارد منطقي و گاه مفيد است که براي يک رويداد همزمان به پيش بيني دست زد و براي رويدادي که قبلاً رخ داده است، ولي نمي توان آن را مستقيماً بدون کوششهاي زياد اندازه گيري کرد، به پس بيني توجه کرد. براي مثال، فرض کنيد که مي خواهيم ماهيت و ميزان نيازهاي بين فردي گروهي از دانشجويان را تعيين و اندازه گيري کنيم. در يک روش، مشاهده گران کارآزموده براي يک دوره زماني معين آنها را مورد بررسي قرار داده و اطلاعاتي را از موقعيتهاي واقعي زندگي به دست مي آورند. در يک روش ديگر، مجموعه اي از آزمونهاي موقعيتي به کار برده مي شوند و در روش سوم، يک پرسشنامه مداد و کاغذي به کار گرفته مي شود يا امکان دارد که آزمودنيها بر اساس مقياسهاي درجه بندي در مورد خودشان قضاوت کنند. اين پرسشنامه يا درجه بنديها به مثابه کوششهايي هستند که با استناد به آنها درباره خصوصيات دانشجويان در يک زمان معين تصميم گرفته مي شود. بدين ترتيب، اعتبار را مي توان از طريق نمونه رفتارهاي طولاني تر و پرهزينه تر و روشهاي آزمون موقعيتي تعيين کرد. در اين خصوص، بديهي است که اعتبار محتوا نشان داده مي شود و نتايج به عنوان ملاکي براي مقايسه با روش مداد و کاغذي به کار مي روند. چنانچه اين نمونه هاي رفتاري يا شاخصهاي موقعيتي صرفاً در برخي از زمانهاي آتي در دسترس باشند، آن گاه مجدداً درباره آينده دست به پيش بيني مي زنيم.

اعتبار سازه

شواهد مربوط به اعتبار سازه مفهومي است که در اولين نسخه مجله انجمن روان شناسي آمريکا به نام استاندارد (1954) به کار رفت و توسط کرونباخ و ميل (1955) گسترش يافت. هدف از اين اصطلاح يافتن عنوان مناسبي براي نشان دادن اعتبار بود که تا قبل از آن زمان، بدون درک کاملي از منطق و تلويحات ضمني اين روش به کار برده مي شد. هنگامي که ملاک قطعي يا محسوسي براي کيفيت، صفت يا ويژگي مورد نظر جهت بررسي وجود ندارد، چنين کاري منطقي به نظر مي رسد.
اعتبار را مي توان به روشهاي مختلف طبقه بندي کرد؛ براي مثال، با استفاده از بُعد عيني در برابر انتزاعي (يا جزيي در برابر مفهومي). غالباً ما به همبستگيهاي بين نمره هاي يک آزمون و يک ملاک به خصوص يا عيني مانند تعداد بيماران بستري در بخشهاي روان پزشکي يا تعداد خلافهاي رانندگي علاقه مند هستيم. بررسيهاي مربوط به اعتبار پيش بين از اين دست جذابيت زيادي دارند، زيرا آنها در عمل مفيد هستند و نياز زيادي به پيچيدگيهاي روش شناختي يا نظري ندارند.
با وجود اين، ما اغلب به اعتبار روابط بين اعتبارهاي سازه يا انتزاعي نظير نيرومندي خود، اضطراب يا برون گرايي علاقه مند هستيم که براي آنها هيچ شاخص واحد رايجي وجود ندارد. ما مي توانيم اعتبار پيش بين شاخص بستري شدن در بخشهاي روان پزشکي يا شاخص ارتکاب به جرم را از طريق يک همبستگي واحد نشان دهيم، ولي اثبات اعتبار سازه يک مقياس اضطراب يا يک شاخص از هر مفهوم کلي و انتزاعي ديگر در حوزه روان شناختي بسيار مشکل است. اعتبار سازه نيازمند جمع آوري تدريجي شواهد حاصل از يافته هاي پژوهشي مختلفي است که شبکه اي از روابط ميان شاخص مورد نظر و مفاهيم مناسب ديگر را به تصوير مي کشد. ماهيت و ميزان اين روابط را بايد از نظريه يا نظريه هايي که مفهوم مورد نظر را مطرح کرده اند و از معناي قابل فهم متداول اين مفهوم پيش بيني کرد.
بنابراين، براي دستيابي به شواهد اعتبار سازه مربوط به اضطراب، همان طوري که از اين اصطلاح بر مي آيد، فرد بايد روابط مثبت ميان اين شاخص و رفتار مورد بحث را در موقعيتهاي استرس زاي موقتي، انواع مختلف مشکلات روان پزشکي، شاخصهاي فيزيولوژيکي مانند عرق کردن کف دست و ضربان قلب و ساير رفتارهايي که معمولاً با اضطراب همراه هستند، به دست آورد. علاوه بر اين، بايد مشخص شود که هيچ رابطه اي بين اين شاخص و خصوصيات معيني که به طور فرضي مستقل از اضطراب
هستند مانند قد يا هوش وجود ندارد. دستيابي به اعتبار سازه يک وسيله اندازه گيري را مي توان به بهترين وجهي به عنوان تداوم برنامه اي در نظر گرفت که در آن معناي اعتبار سازه به تدريج توسط ماهيت روابطي که بر آن اثر مي گذارند، روشنتر مي شود و عينيت مي يابد و طبعاً به وسيله آنها معناي اين سازه همان گونه که روابط غيرمنتظره کشف مي شوند، از وضوح بيشتري برخوردار مي شود. در تحليل پاياني، از آنجايي که هيچ ضريب واحد يا مجموع ضرايب مشخصي که از قبل به عنوان شواهدي دال بر اعتبار سازه شاخص مورد نظر، وجود ندارد، قضاوتهاي مربوط به ميزان اعتبار سازه وسيله مورد بحث بايد لزوماً ذهني باشند.
مفهوم اعتبار سازه قوياً بر اساس زمينه هايي که در درک نظري رفتار انسان يا دقت و يا کاربرد کارهاي عملي کمکي به ما نمي کنند، مورد سؤال قرار گرفته است. يک موضوع اساسي در ايرادهاي وارده به اعتبار سازه به اين نکته مربوط مي شود که ويژگي يا سازه فرضي به عنوان يک مفهوم واقعي در نظر گرفته مي شود تا يک پندار تبييني قراردادي. ساربين (1968) با استفاده از اضطراب به عنوان محور اين بحث، به طور قانع کننده اي دامهاي مربوط به اين فرض را که اين حالتهاي ذهني يا صفتها مانند اضطراب از موجوديت واقعي برخودارند، خاطرنشان ساخت. خطر عمده در يک پاسخ کلامي براي سؤالهايي مانند اينکه “اضطراب” چيست؟ قرار دارد؛ سؤالي که نمي توان به گونه بامعنايي به آنها پاسخ داد. ساربين اعتقاد دارد که کوششهاي ما براي ساختن پندارها يا “اسطوره هاي” علمي تابعي از نظام زماني و عادتهاي کلامي ما هستند و اينکه اين گرايشها نيازمند توجه و کنترل دقيق هستند. با وجود اين، بيشتر ادبيات تحقيقي جديد ما که فنون ارزيابي شخصيت را در بر مي گيرد شامل اعتباريابي سازه است و خوانندگان آگاه بايد از مطالب و مشکلاتي که جزء لاينفک اين روش هستند، آگاه باشند.

اعتبار افزوده

هنگامي که يک آزمون به عنوان مبنايي براي پيش بيني در يک موقعيت باليني به کار برده مي شود، تعيين سودمندي اين آزمون به اندازه تعيين دقت پيش بيني اعتبار پيش بين ساده نيست. همان طوري که سچرست(825) (1963) توضيح داد، آزمونهايي مانند آزمون رورشاخ اغلب بعد از مصاحبه، خواندن گزارشها، کنفرانسها و مانند آنها تفسير مي شوند. ظاهراً روشن است که اعتبار يک آزمون بايد بر اساس افزايشهاي تدريجي در کارايي پيش بين اطلاعات مورد نظر مبتني باشد، زيرا در غير اين صورت، ساده و بي ارزش در نظر گرفته مي شود (ص 154). ميل (b1959)، قبلاً در خصوص افزايش اعتبار و اطلاعات معنايي واضح (ص 114)، و کرونباخ و گليزر(1965) به تفصيل در خصوص همين موضوع با توجه به انتخاب کارکنان بحث کرده بودند.
از آنجايي که ايده ارزشيابي سودمندي يک آزمون بر اساس اعتبار افزوده در آن موقعيت به خصوص بسيار آشکار و مناسب است، تعجب آور است که بسياري از آزمونهاي تشخيصي خاصي که در حوزه باليني به کار مي روند، اعتبار افزوده اندکي را نشان مي دهند؛ و علت اين امر تا اندازه زيادي آن است که متخصصان باليني عموماً گرايش پايداري را به ارزشيابي کارايي رفتار آنها نشان نمي دهند. در واقع، هاتاوي (1959) برآورد کرد که اگر متخصصان باليني فعاليتهاي اندازه گيري خود را با توجه به کارايي ارزشيابي نمايند، بيش از 40 درصد اين فعاليتها را بايد به کناري نهاد. تحقيقي که روشهاي مختلف ارزيابي را بر اساس اعتبار افزوده آنها مورد بررسي قرار داده، در فصل 8 مورد بحث قرار گرفته است.

موفقيت و شکست

اعتبار پيش بين يک وسيله ارزيابي به طور سنتي بر اساس محاسبه همبستگي بين نمره پيش بين و ملاک مورد نظر نشان داده مي شود. هرگاه اين ملاک، يک موقعيت موفقيت يا شکست مانند اين موقعيت را در بر بگيرد که آيا زندانياني که آزادي مشروط دارند مرتکب خلاف مي شوند يا خير، گهگاه اعتبار پيش بين به صورت درصد پيش بيني هاي درست در نظر گرفته مي شود.
کارکردن در قالب موفقيت و شکست (يا درصد موارد صحيح) امکان آن را فراهم مي آورد که اهميت توجه به نرخ پايه يک رويداد را نشان دهيم؛ يعني، نسبتي از مواردي که اين رويداد در جامعه مورد نظر روي مي دهد. مي توان مثال تخطي از آزادي مشروط را در نظر گرفت. فرض کنيد ما با توجه به تجربه قبلي مي دانيم که 30 درصد زندانيان احتمالاً در مدت آزادي مشروط خود مرتکب خلاف مي شوند. بنابراين، نرخ پايه ارتکاب به خلاف در مدت آزادي مشروط 30درصد يا 0/30 است. حال چنانچه رفتار آتي اين زندانيان را صرفاً بر اساس اين اطلاعات پيش بيني کنيم، مي توانيم ادعا کنيم که هيچ کدام از اين زندانيان در مدت آزادي مشروط خود مرتکب خلاف نمي شوند. از آنجايي که 30درصد اين عده در واقع در زمره خلافکاران هستند (اگرچه ما نمي دانيم که کدام 30درصد مرتکب خلاف مي شوند)، در 30درصد موارد دچار اشتباه خواهيم شد؛ يعني، در پيش بيني هاي خود 70 درصد درست عمل خواهيم کرد. اکنون فرض کنيد که ما آزمودني را تهيه کرده ايم که اين خلافکاران را در 65درصد موارد نشان مي دهد. حتي اگر اين آزمون به ما امکان مي دهد تا با احتمالي بيشتري از 50درصد شانس دست به پيش بيني بزنيم، بر اساس نرخ پايه 70درصد پيش بيني دقيقتري خواهيم داشت.
ضمناً وقتي بدانيم که نرخ پايه کساني که خلاف نمي کنند 70درصد است، نرخ شانس اين تخصيص واقعاً بيشتر از 50درصد است. چنانچه ما به طور تصادفي هر 70نفر از 100نفر زنداني را به طبقه “غيرمتخلفان” اختصاص دهيم، در 70درصد موارد يا به طور متوسط 49 بار درست عمل خواهيم کرد. به همين ترتيب، تخصيص تصادفي 30درصد باقي مانده به طبقه “متخلف” بايد به 9 جايگزيني درست منجر شود. بنابراين، در اختصاص دادن شانس 70/30، ما بايد در 49 به اضافه 9 يا 58 درصد موارد درست عمل نماييم. بعضي از روان شناسان تا اندازه اي پيشتر مي روند و توجه مي کنند که اين “شانس” بايد با نرخ پايه 70درصد مشخص شود. اولين تحليل مشروح از کاربرد داده هاي نرخ پايه در ارزشيابي صحت پيش بيني در زمينه ارزيابي شخصيت توسط ميل و روزن (1955) ارايه شده است.
در تحليل هاي قبلي، ما تبعات نسبي نتايج ديگر را ناديده گرفتيم. به عبارت دقيقتر، ما بديهي فرض کرده ايم که هر دو نوع خطاي احتمالي – شناسايي نکردن متخلفان و برچسب غلط به غيرمتخلفان زدن- بايد به يک اندازه تبعات منفي داشته باشند. در عمل اين احتمال وجود دارد که خطا در يک جهت در مقايسه با خطايي که در جهت ديگر وجود دارد، از نتيجه منفي بيشتري برخوردار است. براي مثال، مي توانيم تصور کنيم که نتيجه منفي آزادي مشروط دادن به يک مجرم که بعداً در اين دوران مرتکب خلاف مي شود با توجه به تمام موارد، در مقايسه با آزادي مشروط ندادن به مرداني که در اين دوران مرتکب خلاف نمي شوند، بسيار بالاتر است. تحليل هاي مفصلتر مشکلات توجه به نتايج مختلف توسط کرونباخ و گليزر(1965) و ويگينز(1973) صورت گرفته اند. اين سؤالها به کارايي يا کاربرد پيش بيني ها مربوط مي شوند و بعداً در فصل هشتم تحت عنوان فرعي “تصميم گيري” مورد بحث قرار مي گيرند.
کاربرد داده هاي نرخ پايه، قطع نظر از جامعه مورد بررسي، در خصوص استفاده از نمره هاي برش خودکار در آزمونها، اطلاعاتي را به دست مي دهد. براي مثال، هاتاوي (b1956) گزارش داد که نمره T حدود 60درصد از بيماران اسکيزوفرن در گروه اعتباريابي روان پزشکي وي در مقياس Sc مربوط به MMPI با توجه به عامل تصحيح K، 70 يا بالاتر بوده است، در حالي که تنها نمره حدود 2درصد از آزمودنيهاي بهنجار مربوط به اعتباريابي در اين دامنه قرار داشت. فرض کنيد که اين مقياس به منظور تشخيص در کلينيکي به کار برده شده است که تقريباً نيمي از بيماران آن مبتلا به اسکيزوفرني و نيمي ديگر “بهنجار” هستند. يک محاسبه ساده نشان مي دهد که گذاشتن تشخيص اسکيزوفرني روي تمام بيماراني که نمره 70 يا بالاتر دارند باعث مي شود که 79درصد از تمام بيماران، اسکيزوفرن تلقي شوند. اين محاسبه در جدول 1-7 آورده شده است. از بين تمام بيماراني که با استفاده از اين آزمون، روي آنها تشخيص اسکيزوفرني گذاشته شده است، در واقع، 30 نفر تقسيم بر 39 نفر (يا 97درصد) به اسکيزوفرني مبتلا هستند. اکثر اشتباهات صورت گرفته در جهت گذاشتن تشخيص غيراسکيزوفرني روي بيماران است و لذا يک نمره برش پايين تر (براي مثال، 65) کارايي کلي تشخيص را افزايش مي دهد. نکته مهمي که در اينجا وجود دارد اين است که استفاده از نمره 70 به عنوان نمره برش تضمين مي کند که تقريباً تمام بيماراني که با استفاده از اين آزمون روي آنها تشخيص اسکيزوفرني گذاشته شده است، در واقع، به اسکيزوفرني مبتلا هستند. مقياس Sc در عمل به اندازه اي که در اينجا توصيف شد، کارايي ندارد؛ زيرا تعدادي از 50درصدي که بهنجار هستند به واسطه اختلالهاي ديگري که دارند، نمره هاي Sc بالايي خواهند داشت.
اکنون فرض کنيد که ما اين آزمون را روي دانشجويان ظاهراً بهنجار دانشگاه اجرا کرديم و عملاً 1درصد آنها به اسکيزوفرني مبتلا هستند. چنانچه همين نمره برش 70 به کار برده شود، با استفاده از اين آزمون مي توان روي 2/6 درصد اين دانشجويان تشخيص اسکيزوفرني گذاشت. اين وضعيت در جدول 2-7 نشان داده شده است. به عبارت ديگر، اکثر دانشجوياني که در مقياس Sc نمره 70 يا بالاتر مي گيرند، اسکيزوفرن نيستند. بيان اين پيش بيني بر اساس موارد موفقيت و شکست و نرخهاي پايه نشان مي دهد که اگرچه صحت پيش بيني براي دانشجويان (97/6 درصد) در مقايسه با بيماران (79درصد) بسيار بيشتر است، اين آزمون به طور کلي هنگامي که در خصوص جامعه اي به کار رود که براي آن تهيه نشده است، کارايي نخواهد داشت. با وجود اين، اين امر به معناي انکار اين موضوع نيست که دانشجوياني با نمره Sc بالا متفاوت از دانشجوياني با نمره پايين هستند. اين تفاوتها را مي توان از طريق بررسيهاي خاص مربوط به اعتبار که روي دانشجويان دانشگاه انجام شده است، مورد بررسي قرار داد.
جدول 1-7: درصد مربوط به بيماراني که با استفاده از مقياس Sc روي آنها تشخيص اسکيزوفرن يا بهنجار گذاشته شده است. در اينجا نمره برش 70 است و عملاً نيمي از افراد بيمار و نيمي ديگر بهنجار هستند.
نمره T ــــــــــ عملاً اسکيزوفرن ـــــــــــ عملاً بهنجار ـــــــــ کل
نمره T برابر 70 يا بالاتر ـــــــــــ 30 a,b ــــــــــــ 1cــــــــــــ 31
(به عنوان تشخيص اسکيزوفرني)
نمره پايين تر از 70 ـــــــــــ 20dــــــــــــ 49a,eـــــــــــــ 69
(به عنوان ملاکي براي بهنجاري)
کل ــــــــــــ 50 ـــــــــــــ 50 ــــــــــــــ 100
a تشخيص درست. c مثبت هاي نادرست. e منفي هاي درست
b مثبت هاي درست. d منفي هاي نادرست.
اين مثال که در خصوص خطر کاربرد نمره هاي برش خودکار بيان شد، همچنين مشکل صحت پيش بيني را در مواردي که رويدادهاي مورد پيش بيني به ندرت اتفاق مي افتند، نشان مي دهد. از جدول 2-7 چنين بر مي آيد که احتمالاً تلاش جهت به کارگيري مقياس Sc براي شناخت درست اسکيزوفرنهاي معدودي که در ميان جامعه دانشگاهي يافت مي شوند، کوشش بيهوده اي خواهد بود. مشکل پيش بيني رويدادهاي نادر با توجه به پديده خودکشي به عنوان موردي که خيلي کم رخ مي دهد، توسط روزن (1954) مورد بررسي قرار گرفته است. روزن با برآورد نرخ خودکشي به ميزان 0/0033 در ميان بيماران روان پزشکي و فرض يک نرخ پيش بيني به ميزان 75درصد، با استفاده از داده هاي فرضي نشان داد که حتي اگر چه نمره برش در يک مقياس تعيين خودکشي به اندازه اي بالا باشد که تنها 2/5 درصد از موارد واقعي خودکشي به طور صحيح شناسايي شوند، روي بيش از 98 درصد اين بيماران به اشتباه تشخيص “اقدام به خودکشي” گذاشته مي شود. نيازي به گفتن نيست که اين مشکل همواره حتي به صورت ناشناخته در تلاش به منظور شناسايي بيماراني که قصد خودکشي دارند (از طريق قضاوت باليني يا ذهني)، وجود دارد.
قطع نظر از دشواري پيش بيني، به علت ضرورت شناسايي بيماراني که قصد خودکشي دارند، روشهاي پيشگيري از آن بايد کاملاً مشخص شود. روزن اشاره مي کند که وقتي مسئولان بيمارستان بر اين باورند که از خودکشي بايد به هر قيمتي پيشگيري کرد، روش معمول آن است که از طريق شناسايي تعداد زيادي از “مثبت هاي نادرست”، دچار خطا شويم. بنابراين، تقريباً هر بيماري که نشانه هاي خودکشي را بروز مي دهد (خواه در يک مقياس باليني يا در يک مقياس روان سنجي) به عنوان فردي که قصد خودکشي دارد، مورد توجه قرار خواهد گرفت. علاوه بر اين، بعضي از پيشرفتهايي که در پيش بيني روان سنجي به عمل آمده، ناشي از جمع آوري دقيق داده هاي مفصل در طي ساليان متمادي است. اين داده ها امکان طبقه بندي و شناسايي دقيقتر بيماراني را فراهم مي کند که قصد خودکشي در آنها نسبتاً شايعتر است. اين نوع بررسيها توسط فاربرو، اشنايدمن و نورينگر (1966) صورت گرفته که البته توسط برخي از پژوهشگران ادامه يافته اند. به ويژه، بک (1986)، بک، برچيک، استوارت، و استير (1990) دريافته اند که نااميدي يک عامل پيش بيني کننده مهم در خودکشي است. وي با کمک همکاران خود مقياس قصد خودکشي (بک، شويلر، و هرمان، 1974) و مقياس فکر خودکشي (بک، کوواکس، و وايس من، 1979) را تهيه کرده است.
جدول 2-7: درصد دانشجوياني که با استفاده از مقياس Sc تشخيص اسکيزوفرن يا بهنجار روي آنها گذاشته شده است. در اينجا نمره برش 70 است و 1درصد افراد عملاً اسکيزوفرن و 99درصد بهنجار هستند.
نمره Tـــــــــــــ عملاً اسکيزوفرن ــــــــــــ عملاً بهنجار ـــــــــــ کل
نمره T برابر با 70 يا بالاتر ـــــــــــــ 0/6aـــــــــــــ 2 ــــــــــــ 2/6
(به عنوان تشخيص اسکيزوفرني)
نمره T برابر با 70 يا پايين تر ـــــــــــــ 0/4ــــــــــــــ 97a ــــــــــــ 97/4
(به عنوان ملاکي براي بهنجاري)
کل ــــــــــــ 1 ــــــــــــ 99 ـــــــــــــــ100

نسبتهاي گزينش

در بحث درباره اعتبارهاي وابسته به ملاک، فرض کرده ايم که پيش بيني ها يا تصميم هايي چند بايد براي هر مراجع اتخاذ شود؛ يعني، ما مجبوريم که براي هر فرد تصميم بگيريم. تحت چنين شرايطي، ما با مشکل متفاوتي روبه رو هستيم: گزينش که با توجه به آن نيازي نيست که براي هر فرد عمل تخصيص صورت گيرد. فرض کنيد که از ما خواسته شده است تا 10 بيمار اسکيزوفرن را از يک بخش 200 نفري انتخاب نماييم، ولي دقيقاً نمي دانيم که آنها چه افرادي هستند. شانس ما در انجام اين کار از طريق اجراي يک آزمون مربوط به اسکيزوفرني و انتخاب 10 نمره بالا حتي اگر اعتبار پيش بين اين آزمون متوسط باشد، بسيار زياد است. دليل اين امر نيز آن است که ما اين پيش بيني را براي اکثريت بيماران به عمل نخواهيم آورد. از نظر ما اين پيش بيني فقط به معدودي از بيماران مربوط مي شود که به احتمال زياد در مورد آنها صادق است؛ يعني، بيماراني که نمره هاي افراطي دارند.
نسبت گزينش به عنوان تعداد افرادي تعريف مي شود که از ميان تعداد کل مورد نظر برگزيده شده اند. در اين مثال، نسبت مورد نظر 10 به 200 يا 0/05 است. هر چقدر که اين نسبت کمتر باشد، موفقيت اين گزينش با توجه به همان اعتبار پيش بين قبلي بيشتر خواهد بود. عامل ديگري که بر دقت اين گزينش اثر مي گذارد نسبت بيماران مورد نظر در گروه تحت بررسي است؛ يعني، نرخ پايه. در اين مثال، نرخ پايه 100 به 200 يا 0/05 است. در اين خصوص، جداول مورد نظر (تايلر و راسل، 1939) براي نشان دادن صحت گزينش مورد انتظار با توجه به اعتبار پيش بين، نرخ پايه و نسبت گزينش در دسترس هستند. در مثالي که با آن روبه رو بوديم، فرض کنيد که آزمون مربوط به اسکيزوفرني داراي يک ضريب همبستگي اعتبار پيش بين با مقدار 0/4 است. جداول تايلر- راسل نشان مي دهند که ما به احتمال زياد با موفقيت از ميان 10 نفر، 8 اسکيزوفرن را شناسايي کرده ايم. با وجود اين، فرض کنيد که صرفاً 20 بيمار وجود دارند که بايد از ميان آنها دست به انتخاب زد (در اينجا فرض بر آن است که نيمي از اين عده واقعاً اسکيزوفرن هستند). نسبت گزينش در اينجا 10 به 20 يا 0/50 است و جداول تايلر- راسل نشان مي دهند که احتمال گزينش ما 6 اسکيزوفرن از 10 نفر يا اندکي بيشتر از شانس، يعني، 0/50 است.
نسبتهاي گزينش در جايي که بسياري از افراد با يکديگر رقابت دارند، داراي اهميت زيادي هستند. تحت چنين شرايطي، از آزموني که اعتبار پيش بيني اندکي دارد مي توان براي به دست دادن گزينشهاي نسبتاً دقيق استفاده کرد. اين وضعيت اغلب در انتخاب يک فرد از ميان مجموعه اي از افراد جهت احراز يک شغل مناسب پديد مي آيند. علت ديگر اين امر به موقعيتي بر مي گردد که خدمات درماني موجود مانند روان درماني محدود بوده و بسياري از بيماران در پي درمان هستند.

متغيرهاي تعديل کننده

مدتهاست که آماردانان دريافته اند چه چيزهايي براي آنها به عنوان نوعي عوامل ظاهراً دلفريب و درست عمل مي کنند. يکي از اين عوامل در جداول تايلر- راسل نهفته است و همان طوري که قبلاً توصيف شد براي افزايش اعتبار پيش بين در مواردي به کار مي رود که يک نسبت گزينش مناسب وجود داشته باشد. استفاده از متغيرهاي تعديل کننده روش ديگري براي به دست آوردن اعتبارهاي پيش بين بالا تحت اين شرايط خاص است.
مفهوم متغيرهاي تعديل کننده در اصل توسط گيزلي (1956، 1963) و ساندرز (1956) معرفي شد. تعديل کننده نوعي اطلاعات است که مي توان از آن براي پيش بيني دقت متغير پيش بيني کننده ديگر جهت يک آزمودني يا مجموعه آزمودنيها استفاده کرد. براي مثال، چنانچه بتوان نمره هاي دانشجويان وسواسي دانشگاه را از نمره هاي آزمون استعداد آنها پيش بيني کرد، ولي نتوان اين کار را در مورد نمره هاي دانشجويان غيروسواسي انجام داد، در نتيجه مي توان از يک مقياس وسواس براي تعديل پيش بيني اين نمره ها از نمره هاي آزمون استعداد استفاده کرد؛ يعني، براي شناسايي آن دسته از دانشجوياني که اين پيش بيني براي آنها نسبتاً دقيق خواهد بود و دانشجوياني که اين پيش بيني براي آنها دقيق نخواهد بود.
چنانچه ما علاقه خود را صرفاً به دانشجويان کاملاً وسواسي منحصر نماييم، اعتبار پيش بين نمره هاي دانشگاهي به مراتب بالاتر از نمره هاي ديگر خواهد بود. به عبارت ديگر، ما پيش بيني را به بهاي کار کردن با افرادي که مي دانيم براي آنها از بيشترين اعتبار برخوردار است، بالا برده ايم. متغير تعديل کننده از لحاظ منطقي با نوع خاصي از تعامل در کاربرد تحليل واريانس به منظور بررسي نتايج تحقيق معادل است. وضعيت فوق در شکل 1-7 منعکس شده است که نتايج همين مطالعه فرضي را نشان مي دهد. رابطه آشکار را مي توان بين نمره هاي آزمون استعداد و نمره هاي دانشگاهي دانشجويان وسواسي ديد که البته براي دانشجويان غيروسواسي صادق نيست.
در وهله اول، امکانات افزايش پيش بيني از طريق کاربرد متغيرهاي تعديل کننده در ارزيابي شخصيت مهم و جدي به نظر مي رسند. اين مفهوم بدون شک به طور غيررسمي در بسياري از موقعيتها به کار برده مي شود. براي مثال، چنانچه دکتر جونز در تشخيص ويژگيهاي اختلال شخصيت افرادي که به کلينيک وي مراجعه مي کنند تبحر داشته باشد، احتمال بيشتري وجود دارد که مصاحبه کننده اين مراجعان را به نزد دکتر جونز جهت معاينه تشخيصي بفرستد. چنانچه اين قاعده را تعميم دهيم، اين امکان وجود دارد که يک متغير تعديل کننده را در نظر بگيريم. اين متغير نشان مي دهد که ما بايد تا چه اندازه توجه خود را معطوف پروتکل رورشاخ يک بيمار يا نيمرخ MMPI جهت دستيابي به تشخيص روان پزشکي نماييم. در يک سطح پيچيده تر، امکان آن وجود دارد تعيين کنيم که آيا براي يک بيمار خاص يا گروهي از بيماران بايد بيشترين توجه خود را معطوف پروتکل رورشاخ، آزمون رسم آدمک، نيمرخ MMPI، اطلاعات زيست نگاري يا هر منبع ديگري از داده ها نماييم يا خير.
شکل 1-7: تعامل بين نمره هاي دانشگاه و ابتلا به وسواس که در جهت تعديل پيش بيني نمره ها بر اساس نمره هاي آزمون استعداد عمل مي کند. (توضيح شکل)
امروزه، اکثر پژوهشهايي که در خصوص متغيرهاي تعديل کننده صورت گرفته معطوف پيش بيني موفقيت در زمينه هاي تحصيلي يا استخدامي بوده است. گيزلي (a1960) در کوششي که به منظور افزايش پيش بيني درآمد در بين رانندگان تاکسي انجام داد، دريافت که از يک متغير تعديل کننده که بر اساس سن و تحصيلات است مي توان براي نشان دادن اين موضوع استفاده کرد که کدام يک از اين دو مقياس توانايي (يعني، آزمونهاي توانايي فضايي و حرکتي) پيش بيني کننده بهتري است. در اين مطالعه، آزمون فضايي براي رانندگان مسنتر و با تحصيلات کمتر عامل پيش بيني کننده بهتري بود. گيزلي (b1960) همچنين نشان داد که مي توان با استفاده از رويکرد گروههاي ملاک به طور تجربي متغيرهاي تعديل کننده را به دست آورد. خصوصيتي که از طريق اجراي يک پرسشنامه مورد پيش بيني قرار داشت، اجتماع پذيري بود. عامل پيش بيني کننده که همبستگي اندکي با اجتماع پذيري داشت هوش بود و اين متغير با استفاده از يک سياهه توصيف خود، اندازه گيري گرديد. با توجه به متغير تعديل کننده دو گروه ملاک انتخاب شدند. گروه “قابل پيش بيني” متشکل از افرادي بود که نمره هاي آنها تقريباً حول و حوش توزيع اجتماع پذيري و هوش قرار داشتند. گروه ديگر، گروه “غيرقابل پيش بيني” را تشکيل مي داد. بعد، پاسخهاي موجود به سياهه توصيف خود جهت پيدا کردن ماده هايي که بين دو گروه تمايز قايل مي شدند، مورد بررسي قرار گرفتند و اين ماده ها مقياس تعديل کننده را شکل دادند. نتايج بررسي مربوط به اعتباريابي با يک نمونه جديد نشان داد که از اين مقياس مي توان براي قابل پيش بيني ترين افراد استفاده کرد.
اگرچه زمينه اصلي پژوهش مربوط به متغيرهاي تعديل کننده به افزايش پيش بيني موفقيت تحصيلي يا شغلي ارتباط داشته است، پژوهشهاي مناسب باليني نيز صورت گرفته اند. فالکرسون (1959) نشان داد که اعتبار يک آزمون شخصيت جهت پيش بيني سازگاري کلي به بُعد شخصيت برون گرايي – درون گرايي يا هيستري- پسيکاستني ارتباط پيدا مي کرد، زيرا آزمودنيهاي درون گرا در پاسخهاي خود بسيار دقيقتر بودند. تاملينسون (1967) در يک بررسي مربوط به قضاوت باليني، نشان داد که داوراني با نياز به پيشرفت بالا در مقايسه با ساير داوران (پس از مصاحبه مستقيم با مراجع) پيش بيني هاي دقيقتري را درباره مراجعان به عمل مي آورند، ولي هنگامي که مراجع را از پشت آينه يکطرفه مشاهده مي کردند، از دقت پيش بيني هاي آنها کاسته مي شد. کلوم و هويبرگ (1971) در يکي از بررسيهاي خود که به مشکلات روان پزشکي مردان در يک منطقه جنگي مربوط مي شد، توانستند نرخ تصميمهاي موفقيت آميز حمله آنها را بر اساس بازگشت به جبهه از طريق استفاده از طبقه هاي تشخيصي به عنوان تعديل کننده پيش بيني (که بر اساس متغيرهاي شرح حال نگاري قرار داشت)، افزايش دهند.
اصول زيربنايي و اساسي کاربرد متغيرهاي تعديل کننده کدام اند؟ در دو مثال اول فوق – يعني، پيش بيني نمره هاي دانشجويان و موفقيت در ميان رانندگان تاکسي – مي توان از عقل سليم يا تبيين هاي منطقي براي توجيه اين موضوع استفاده کرد که چرا گروههاي فرعي خاصي در مقايسه با بقيه از قابليت پيش بيني بيشتري برخوردارند. بنابراين، مي توان انتظار داشت که دانشجويان وسواسي احتمالاً در خصوص محدوده تواناييهاي خود تلاش مي کنند و دانشجوياني که از وسواس کمتري برخوردارند به طور انتخابي زمان خود را صرف واحدهايي مي کنند که به آنها علاقه دارند. نکته اي که در اينجا تبيين آن مشکل تر است اين موضوع است که مقياسهاي تعديل کننده تجربي را مي توان بدون داشتن هيچ گونه محتواي متناسبي تهيه کرد. بحث مربوط به تبيين هاي روان سنجي احتمالي که البته فراتر از اين کتاب است، توسط هوبرت و دونت (1967) ارايه شده است. زدک (1971) در اين زمينه کلي يک مرور و بحث جامعي را ارايه کرده است.
در خصوص کاربرد متغيرهاي تعديل کننده در افزايش پيش بيني، محدوديتهاي چندي وجود دارد.
ابتدا امکان آن وجود ندارد که براي تمام پيش بيني ها متغير تعديل کننده داشته باشيم. اسميت و لانيون (1968) از داده هاي شرح حال نگاري براي مشخص کردن آن دسته از مجرماني استفاده کردند که در دوران آزادي مشروط خود مرتکب خلاف شده بودند و بعد کوشيدند تا يک مقياس تعديل کننده تجربي را در اساس ماده هاي MMPI به منظور بالا بردن اين پيش بيني تهيه کنند. ولي در اين خصوص هيچ گونه افزايشي به دست نيامد، زيرا احتمالاً عوامل تعيين کننده اينکه آيا در طي آزادي مشروط خلافي صورت مي گيرد يا خير، ضمني بوده و تا زماني که دوره آزادي مشروط آغاز نشده باشد، قابل تشخيص نيستند. محدوديت بالقوه ديگر، توسط بم و آلن (1974) مشخص شد و ما درباره آنها در فصل دوم بحث کرديم. آنها نشان دادند که افراد از لحاظ ثبات رفتاري در زمينه هاي معين به گونه پايايي تفاوت دارند و اينکه “ثبات” هر صفت را مي توان از طريق درجه بنديهاي شخصي ارزيابي کرد. همان طوري که قابل پيش بيني بود، افرادي با ثبات زياد در مقايسه با افرادي که ثبات پاييني داشتند، قابليت پيش بيني بيشتري را نشان دادند. بنابراين، روشن است که اهميت ندادن به تعديل کننده ممکن است “ثبات” باشد و اينکه بعضي افراد به طور ساده حداقل در بعضي زمينه هاي خاص باثبات تر و قابل پيش بيني تر از ديگران هستند. چنانچه بتوان نشان داد که اين حالت يک خصوصيت شخصيت کلي است، آن گاه قابليت باليني تعديل کننده ها تا اندازه زيادي محدود خواهد بود، زيرا همان فردي که براي مثال در آزمون MMPI نمره بالايي در يک متغير تعديل کننده به دست مي آورد، در تمام منابع اطلاعاتي شخصيت در خصوص تعديل کننده ها نمره بالايي را کسب مي کند.
اگرچه کارکرد اوليه متغيرهاي تعديل کننده به عنوان يک عامل مهم در افزايش دقت در زمينه ارزيابي شخصيت برآورده نشده است (براي مثال، آناستازي، 1988)، هنوز پژوهشهاي ديگري در اين زمينه مورد توجه هستند. براي مثال، کوششهايي به منظور شناخت تعديل کننده هاي روابط بين وقايع زندگي استرس زا و اختلالهاي رواني در بزرگسالي (جانسون و ساراسون، 1979) و کودکان (ساندلر، 1980) صورت گرفته اند. در اين زمينه منصفانه است بگوييم که بررسي متغيرهاي تعديل کننده پيشرفتي را در تکنولوژي ارزيابي شخصيت نشان مي دهد، زيرا اين امر فراتر از بررسيهاي کلي مربوط به اعتبار قرار مي گيرد و پرسش ميزانهاي مختلف اعتبار را براي انواع مختلف افراد تحت شرايط متفاوت مد نظر قرار مي دهد.

پي نوشت:

822- Forer
823- O’Dell
824- Ghiselli
825- Sechrest

منبع:تالیف:آی . لانیون،ریچارد و دی فلئونارد ، ترجمه:نقشبندی،سیامک و …. «ارزيابي شخصيت» ، نشر روان ،1385