Computational Linguistics, Sharif University of Technology

زبان‌شناسی رایانشی دانشگاه صنعتی شریف

Computational Linguistics, Sharif University of Technology

زبان‌شناسی رایانشی دانشگاه صنعتی شریف

پردازش زبان طبیعی - کلاس آن‌لاین رایگان

علاقه‌مندان به مبحث پردازش زبان‌های طبیعی می‌توانند جهت ثبت نام در کلاس رایگانی که با این موضوع توسط دانشگاه استنفورد به صورت آن‌لاین ارائه می‌شود به لینک زیر مراجعه کنند:


www.nlp-class.org

آشنایی با فارس‌دات(اولین پایگاه دادگان گفتار فارسی)

فارس‌دات (FarsDat)

دادگان گفتاری استاندارد برای زبان فارسی


1-هدف:


یکی از مهم‌ترین ابزارها برای طراحی و ساخت سیستم‌های هوشمند شناسایی گفتار، تهیه دادگان گفتاری برای آموزش مدل‌های آکوستیکی صداها و آواهای تشکیل‌دهنده یک زبان است. برای تعلیم صداها و آواهای تشکیل‌دهنده یک زبان، تعداد بسیاری زیادی نمونه از این آواها که توسط گویندگان مختلف ادا شده است، باید توسط انسان و بصورت دستی و با دقت میلی‌ثانیه از گفتار آنها استخراج شود.


2- چکیده:


دادگان فارس‌دات (FarsDat)، مجموعه‌ای از عبارات و جملات است که توسط گویندگان فارسی‌زبان از مناطق مختلف کشور بیان شده است. این دادگان در سطح واج (آوا) با دقت میلی‌ثانیه تقطیع و برچسب‌دهی شده و بصورت فایل‌های مجزا ذخیره گردیده است. بدون تهیه این دادگان، شروع تحقیقات وسیع و گسترده در زمینه بازشناسی گفتار پیوسته فارسی با دایره لغات بزرگ (LVCSR) در دانشگاه‌های تراز اول و مراکز تحقیقاتی کشور میسر نبوده است. این دادگان، به عنوان دادگان استاندارد گفتاری زبان فارسی در داخل و خارج کشور شناخته شده و برای آموزش سیستم‌های هوشمند تشخیص گفتار استفاده می‌شود. اهمیت طراحی و ساخت این دادگان در زبان فارسی، همانند اهمیت دادگان TIMIT در زبان انگلیسی است. در زبان فارسی، دادگانی با تنوع، وسعت و کیفیت برچسب‌زنیِ دادگان فارس‌دات وجود ندارد. البته این مهم با تلاش و کوشش مجموعه‌ای از محققین دانشگاه‌های برتر کشور میسر گردیده که اولین و مهم‌ترین گام را در شناسایی گفتار پیوسته در زبان فارسی برداشته‌اند.


3- قابلیت‌ها:


دادگان فارس‌دات دارای ویژگیها و قابلیت‌های زیر است:

1- استخراج پرکاربردترین کلمات زبان فارسی از روزنامه‌ها

2-طراحی 386 جمله با استفاده از 1000 کلمه شامل کلیه دنباله‌های دوآوایی در زبان فارسی

3-متوازن بودن 386 جمله مذکور از لحاظ آوایی (Phonetically-Balanced)

4- انتخاب 304 گوینده بر حسب جنسیت، سن، میزان تحصیلات و لهجه از نقاط مختلف کشور

5-پوشش 10 لهجه رایج فارسی در کشور (تهرانی، ترکی، اصفهانی، جنوبی، شمالی، خراسانی، بلوچی، کردی، لری و یزدی)

6- تولید 20 جمله در 2 جلسه توسط هر گوینده با کیفیت صوتی بسیار بالا در اتاقک ضد صدا

7- تقطیع دستی جملات به آواهای تشکیل‌دهنده آنها و تهیه برچسب‌های واجی و آوایی برای آن

8- ضبط جملات با فرکانس 22050 Hz و با کیفیت بسیار بالا (نسبت سیگنال به نویز 34 دسی‌بل)

9- تهیه نرم‌افزار مخصوص استفاده از دادگان فارس‌دات به منظور استفاده آسان‌تر توسط کاربران

10-استفاده از نشانه‌گذاری بین‌المللی IPA برای برچسب‌زنی آواها و واج‌های زبان فارسی

11- تأیید کیفیت دادگان توسط مؤسسه بین‌المللی ELRA

12-برطرف کردن نقاط ابهام در برچسب‌زنی توسط دستگاه Sona-Graph

13-دارا بودن ساختاری شبیه به ساختار دادگان انگلیسی TIMIT (استاندارد ترین و معتبرترین دادگان گفتاری در زبان انگلیسی).

14-دارای مقاله مرجع چاپ شده در کنفرانس SST’1994 و قابل ارجاع برای پژوهشگران.

15-اولین و تنها دادگان برچسب‌دار در سطح آوا برای بازشناسی گفتار پیوسته فارسی در کشور


4- مشخصات فنی:


- سازگاری برنامه استفاده از فارس‌دات با سیستم عامل windows

5- کاربردها:


1- استفاده در طراحی و ساخت سیستم‌های هوشمند تشخیص گفتار (تبدیل گفتار به متن فارسی) و تعیین هویت گوینده

2- استفاده برای کاربردهای پژوهشی و دانشگاهی در تمامی مراکز و دانشگاه‌های فعال در زمینه پردازش گفتار

3- استفاده در دانشکده‌های فنی-مهندسی و نیز دانشکده‌های زبان‌شناسی به عنوان دادگان استاندارد


6- افتخارات:

- رتبه سوم تحقیقات کاربردی جشنواره بین ­المللی خوارزمی در سال 1374.



منبع: سایت گروه پردازش صوت پژوهشکده پردازش هوشمند علائم 

«تشخیص گفتار» و «تبدیل گفتار به متن» در گوشی های جدید APPLE

در سال های اخیر پیشرفت های زیادی تو زمینه ی "تشخیص گفتار" و "تبدیل گفتار به متن" صورت گرفته.
حالا شرکت Apple اومده با معرفی "دستیار شخصی یا siri" برای سری iphone 4S  از تکنولوژی تشخیص گفتار و تبدیل گفتار به متن برای ارسال sms, یافتن اطلاعات مورد نیاز, یادآوری کارها و ... استفاده کرده.   
 


پیشنهاد می کنم دو تا لینک زیرو حتما ببینید:

http://www.apple.com/iphone/#video-4s


http://www.apple.com/iphone/features/siri.html


مراکز فعال در زمینه‌های مرتبط با زبان‌شناسی رایانشی – قسمت 1

سلام به تمامی دوستان علاقه‌مند به زبان‌شناسی رایانشی.

تو این سری از پست‌ها می‌خوام شما رو با مراکز، موسسات، شرکت‌ها و سازمان‌هایی که در زمینه‌هایی که به نحوی با زبان‌شناسی رایانشی مرتبط هستند آشنا کنم. آشنایی با این مراکز و فعالیت‌های اون‌ها می‌تونه از طرفی شما رو با کاربردهای عملی علم زبان‌شناسی رایانشی آشنا کنه و از طرف دیگه فرصت‌های شغلی موجود برای این رشته رو به شما معرفی کنه. از اونجایی که من فرصت نمی‌کنم اطلاعات کاملی رو دربارۀ این مراکز براتون بنویسم، لینک اون‌ها رو براتون میذارم که خودتون اطلاعات کامل‌تر رو توی وب‌سایت‌هاشون پیدا کنید.


و اما اولین شرکتی که می‌خوام معرفی کنم:


شرکت عصر گویش پرداز – (فعال در زمینۀ فناوری پردازش گفتار)

www.asr-gooyesh.com


در مورد این شرکت فقط این رو بگم که مدیرش آقای دکتر حسین صامتی، استاد دانشکدۀ کامپیوتر دانشگاه صنعتی شریف و مدیر گروه هوش مصنوعی این دانشکده است. اصولاً این شرکت هم از دل آزمایشگاه پردازش گفتار دکتر صامتی در دانشگاه شریف در اومده.


منتظر اضافه شدن قسمت‌های دیگه با همین عنوان باشید...

تدوین فرهنگ زبان شناسی رایانشی

مقداری خبر داد:
تدوین فرهنگ زبان شناسی رایانشی در دانشگاه شریف
رئیس مرکز زبانها و زبان شناسی دانشگاه صنعتی شریف از تولید فرهنگ توصیفی دو زبانه زبان شناسی رایانشی در این دانشگاه خبر داد و گفت: فرهنگ کامل دوزبانه زبان شناسی رایانشی تا پایان سال جاری آماده چاپ می شود.

به گزارش خبرگزاری مهر، دکتر علی مقداری، عرضه فرهنگ توصیفی دو زبانه زبان شناسی رایانشی را از اقدامات مرکز زبانهای دانشگاه شریف نام برد و افزود: عرضه این فرهنگ در تهیه بانک اصطلاحات علمی کشور است که تاکنون بخشی از این فرهنگ عرضه شده است.

رئیس مرکز زبانها و زبان شناسی دانشگاه صنعتی شریف ابراز امیدواری کرد که فرهنگ کامل دو زبانه زبان شناسی استفاده ماشین است.
مقداری زبان شناسی رایانشی را حوزه ای میان رشته ای معرفی کرد و اظهار داشت: از جمله این کاربردهای این حوزه می توان به مهندسی زبان، هوش‌ مصنوعی، ترجمه ماشینی متون از زبانی به زبان دیگر، طراحی موتورهای جستجوگر، استخراج اطلاعات از متون با حجم بالا، جستجو در دادگان‌های زبانی بزرگ یا در اینترنت برای یافتن پاسخ‌های لازم به پرسش‌های متفاوت اشاره کرد.
وی پردازش متن و گفتار، دریافت فرمانهای صوتی توسط ماشین و اجرای دقیق آنها و خلاصه سازی متون را از دیگر کاربردهای مدل سازی زبانی ذکر کرد و یادآور شد: درک چگونگی عملکرد زبان و مدل سازی آن برای رایانه محور اصلی پژوهشهای زبان شناسی رایانشی است به گونه ای که رایانه می تواند با برخورداری از دانش زبانی اهل زبان و نیز ویژگی پردازش سریع، داده های زبانی را با دقت و سرعت بسیار بالایی تجزیه و تحلیل کند.
مقداری به بیان دستاوردهای مرکز زبانها و زبانشناسی این دانشگاه پرداخت و یادآور شد: "برچسب زنی معنایی پیکره زبان فارسی" از طرحهای این مرکز است که با هدف یک سیستم رفع ابهام معنایی واژه و پیاده سازی یک بر چسب زن مفهومی خودکار برای زبان فارسی و استفاده از آن برای برچسب زنی یک پیکره اجرایی شد.

مقداری از راه اندازی دو آزمایشگاه زبان شناسی در این مرکز خبر داد و اضافه کرد: گروه زبان شناسی رایانشی مجهز به دو آزمایشگاه پردازش گفتار و زبان و زبان شناسی رایانشی است. این دو آزمایشگاه در زمینه فناوریهای زبان، متن و گفتار فعال هستند. رایانشی تا پایان سال جاری آماده چاپ شود. 
                                                                          منبع:خبرگزاری مهر