مرکز منطقه ای اطلاع رسانی علوم و فناوری فصلنامه مهندسی برق و مهندسی کامپيوتر ايران 16823745 13 2 2015 9 21 Using Context Dependent Information for Discriminative Spoken Term Detection استفاده از مدل‌های وابسته به محتوا در واژه‌ياب گفتار متمايزساز 25 36 fa شیما طبیبیان احمد اکبری بابک ناصرشريف 2015 11 30 Spoken Term Detection (STD) approaches can be divided into two main groups: Hidden Markov Model (HMM)-based and Discriminative STD (DSTD) approaches. One of the important advantages of HMM-based methods is that they can use context dependent (diphone or triphones) information to improve the whole STD system performance. On the other hand, lack of triphones information is one of the significant drawbacks of DSTD methods. In this paper, we propose a solution to overcome this drawback of DSTD systems. To this end, we modify the feature extraction part of an Evolutionary DSTD (EDSTD) system to consider triphones information. At first, we propose a monophone-based feature extraction part for the EDSTD system. Then, we propose an approach for exploiting triphones information in the EDSTD system. The results on TIMIT database indicate that the true detection rate of the triphone-based EDSTD (Tph-EDSTD) system, in false alarm per keyword per hour greater than two, is about 3% higher than that of the monophone-based EDSTD (Mph-SDSTD) system. This improvement costs about 36% degradation of the system response speed which is neglected. رويكردهاي واژه‌يابي گفتار به دو گروه تقسيم می‌شوند: رويكردهاي مبتني بر مدل مخفي ماركف و رويكردهاي متمايزساز. يكي از فوايد رويكردهاي مبتني بر مدل مخفي ماركف، قابليت استفاده از اطلاعات وابسته به محتوا (سه واج) در جهت بهبود كارايي سيستم واژه‌ياب گفتار مي‌باشد. از طرفی، عدم امكان استفاده از اطلاعات وابسته به محتوا يكي از معایب رويكردهاي واژه‌يابي گفتار متمايزساز محسوب مي‌شود. در اين مقاله، راهكاري براي رفع اين عیب ارائه شده که به اين منظور، بخش استخراج ويژگي يك سيستم واژه‌ياب گفتار متمايزساز مبتنی بر الگوریتم تکاملی (EDSTD)- كه در كارهاي قبلي ما ارائه شده است- به گونه‌اي تغيير یافته كه اطلاعات وابسته به محتوا را در نظر بگيرد. در مرحله نخست،‌ يك رويكرد استخراج ويژگي مستقل از محتوا پيشنهاد شده و سپس رويكردي براي به كارگيري اطلاعات وابسته به محتوا در بخش استخراج ويژگي ارائه شده است. نتايج ارزيابي‌ها روی دادگان TIMIT حاكي از آن است كه نرخ بازشناسي سيستم EDSTD وابسته به محتوا (CD-EDSTD) در اخطار اشتباه بر كلمه كليدي بر ساعت بزرگ‌تر از دو، حدود 3% از نرخ بازشناسي درست سيستم EDSTD مستقل از محتوا (CI-EDSTD) بالاتر است. هزينه اين بهبود دقت، حدود 36/0 افت سرعت پاسخ‌گويي است كه قابل چشم‌پوشي مي‌باشد.

http://ijece.org/ar/Article/Download/28119