Computational Linguistics, Sharif University of Technology

زبان‌شناسی رایانشی دانشگاه صنعتی شریف

Computational Linguistics, Sharif University of Technology

زبان‌شناسی رایانشی دانشگاه صنعتی شریف

تبدیل خط فینگلیش به خط فارسی

در این لینک می توانید:


متن فارسی رو با حروف لاتین ( (Pinglish) بنویسید تا به خط فارسی تبدیل شود. متن نوشته شده رو می توونید مستقیما ایمیل کنید یا بصورت فایل تو کامپیوتر ذخیره کنید یا در برنامه و سایت های دیگه (مثل فیسبوک/یاهو چت/Google Talk و ...) کپی کنید.

 

سمینار "مغز و موسیقی"

دانشگاه صنعتی شریف برگزار می کند:

                                                                       


زنگ پژوهش

زمان: یکشنبه 90/10/4

13:30-14:30

 

سخنران: حسن عشایری


عنوان سخنرانی:Brain & Music


مکان:آمفی تئاتر دانشکده فیزیک

پردازش زبان طبیعی - کلاس آن‌لاین رایگان

علاقه‌مندان به مبحث پردازش زبان‌های طبیعی می‌توانند جهت ثبت نام در کلاس رایگانی که با این موضوع توسط دانشگاه استنفورد به صورت آن‌لاین ارائه می‌شود به لینک زیر مراجعه کنند:


www.nlp-class.org

آشنایی با فارس‌دات(اولین پایگاه دادگان گفتار فارسی)

فارس‌دات (FarsDat)

دادگان گفتاری استاندارد برای زبان فارسی


1-هدف:


یکی از مهم‌ترین ابزارها برای طراحی و ساخت سیستم‌های هوشمند شناسایی گفتار، تهیه دادگان گفتاری برای آموزش مدل‌های آکوستیکی صداها و آواهای تشکیل‌دهنده یک زبان است. برای تعلیم صداها و آواهای تشکیل‌دهنده یک زبان، تعداد بسیاری زیادی نمونه از این آواها که توسط گویندگان مختلف ادا شده است، باید توسط انسان و بصورت دستی و با دقت میلی‌ثانیه از گفتار آنها استخراج شود.


2- چکیده:


دادگان فارس‌دات (FarsDat)، مجموعه‌ای از عبارات و جملات است که توسط گویندگان فارسی‌زبان از مناطق مختلف کشور بیان شده است. این دادگان در سطح واج (آوا) با دقت میلی‌ثانیه تقطیع و برچسب‌دهی شده و بصورت فایل‌های مجزا ذخیره گردیده است. بدون تهیه این دادگان، شروع تحقیقات وسیع و گسترده در زمینه بازشناسی گفتار پیوسته فارسی با دایره لغات بزرگ (LVCSR) در دانشگاه‌های تراز اول و مراکز تحقیقاتی کشور میسر نبوده است. این دادگان، به عنوان دادگان استاندارد گفتاری زبان فارسی در داخل و خارج کشور شناخته شده و برای آموزش سیستم‌های هوشمند تشخیص گفتار استفاده می‌شود. اهمیت طراحی و ساخت این دادگان در زبان فارسی، همانند اهمیت دادگان TIMIT در زبان انگلیسی است. در زبان فارسی، دادگانی با تنوع، وسعت و کیفیت برچسب‌زنیِ دادگان فارس‌دات وجود ندارد. البته این مهم با تلاش و کوشش مجموعه‌ای از محققین دانشگاه‌های برتر کشور میسر گردیده که اولین و مهم‌ترین گام را در شناسایی گفتار پیوسته در زبان فارسی برداشته‌اند.


3- قابلیت‌ها:


دادگان فارس‌دات دارای ویژگیها و قابلیت‌های زیر است:

1- استخراج پرکاربردترین کلمات زبان فارسی از روزنامه‌ها

2-طراحی 386 جمله با استفاده از 1000 کلمه شامل کلیه دنباله‌های دوآوایی در زبان فارسی

3-متوازن بودن 386 جمله مذکور از لحاظ آوایی (Phonetically-Balanced)

4- انتخاب 304 گوینده بر حسب جنسیت، سن، میزان تحصیلات و لهجه از نقاط مختلف کشور

5-پوشش 10 لهجه رایج فارسی در کشور (تهرانی، ترکی، اصفهانی، جنوبی، شمالی، خراسانی، بلوچی، کردی، لری و یزدی)

6- تولید 20 جمله در 2 جلسه توسط هر گوینده با کیفیت صوتی بسیار بالا در اتاقک ضد صدا

7- تقطیع دستی جملات به آواهای تشکیل‌دهنده آنها و تهیه برچسب‌های واجی و آوایی برای آن

8- ضبط جملات با فرکانس 22050 Hz و با کیفیت بسیار بالا (نسبت سیگنال به نویز 34 دسی‌بل)

9- تهیه نرم‌افزار مخصوص استفاده از دادگان فارس‌دات به منظور استفاده آسان‌تر توسط کاربران

10-استفاده از نشانه‌گذاری بین‌المللی IPA برای برچسب‌زنی آواها و واج‌های زبان فارسی

11- تأیید کیفیت دادگان توسط مؤسسه بین‌المللی ELRA

12-برطرف کردن نقاط ابهام در برچسب‌زنی توسط دستگاه Sona-Graph

13-دارا بودن ساختاری شبیه به ساختار دادگان انگلیسی TIMIT (استاندارد ترین و معتبرترین دادگان گفتاری در زبان انگلیسی).

14-دارای مقاله مرجع چاپ شده در کنفرانس SST’1994 و قابل ارجاع برای پژوهشگران.

15-اولین و تنها دادگان برچسب‌دار در سطح آوا برای بازشناسی گفتار پیوسته فارسی در کشور


4- مشخصات فنی:


- سازگاری برنامه استفاده از فارس‌دات با سیستم عامل windows

5- کاربردها:


1- استفاده در طراحی و ساخت سیستم‌های هوشمند تشخیص گفتار (تبدیل گفتار به متن فارسی) و تعیین هویت گوینده

2- استفاده برای کاربردهای پژوهشی و دانشگاهی در تمامی مراکز و دانشگاه‌های فعال در زمینه پردازش گفتار

3- استفاده در دانشکده‌های فنی-مهندسی و نیز دانشکده‌های زبان‌شناسی به عنوان دادگان استاندارد


6- افتخارات:

- رتبه سوم تحقیقات کاربردی جشنواره بین ­المللی خوارزمی در سال 1374.



منبع: سایت گروه پردازش صوت پژوهشکده پردازش هوشمند علائم 

«تشخیص گفتار» و «تبدیل گفتار به متن» در گوشی های جدید APPLE

در سال های اخیر پیشرفت های زیادی تو زمینه ی "تشخیص گفتار" و "تبدیل گفتار به متن" صورت گرفته.
حالا شرکت Apple اومده با معرفی "دستیار شخصی یا siri" برای سری iphone 4S  از تکنولوژی تشخیص گفتار و تبدیل گفتار به متن برای ارسال sms, یافتن اطلاعات مورد نیاز, یادآوری کارها و ... استفاده کرده.   
 


پیشنهاد می کنم دو تا لینک زیرو حتما ببینید:

http://www.apple.com/iphone/#video-4s


http://www.apple.com/iphone/features/siri.html