Computational Linguistics, Sharif University of Technology

زبان‌شناسی رایانشی دانشگاه صنعتی شریف

Computational Linguistics, Sharif University of Technology

زبان‌شناسی رایانشی دانشگاه صنعتی شریف

پیکرۀ وابستگی نحوی زبان فارسی

با سلام؛
نسخۀ 0.1 پیکرۀ وابستگی نحوی زبان فارسی به تازگی برای استفادۀ غیرتجاری عرضه شده است. برای تهیۀ نسخۀ جدید پیکرۀ وابستگی، به صفحۀ دریافت آن مراجعه نمایید. پس از مدت کوتاهی از پر کردن صفحۀ دریافت پیکره برای شما ارسال خواهد شد.

برنامه "Eliza"

سلام دوستان

قصد دارم از این به بعد به معرفی نرم افزارها و محصولاتی که به نوعی با پردازش زبان و متن در ارتباط هستند بپردازم.

در این قسمت می خوام برنامه جالب "Eliza" رو معرفی کنم که در واقع یک روانشناس کامپیوتریه!شما مشکلتون رو از طریق تایپ کردن متن باهاش در میان می زارید و اون شما رو راهنمایی می کنه! در واقع کار این برنامه بر اساس تشخیص کلیدواژه ها (keywords) و جایگزینی رشته های حرفیه.

از Eliza با عنوان "Computer Therapist" یاد میشه. جالب اینکه بدونید این برنامه برای اولین بار در دهه 60 میلادی نوشته شده و در اون زمان خیلی ها Eliza  رو با انسان واقعی اشتباه می گرفتند!!

نسخه اولیه ی این برنامه توسط شخصی بنام Michal Wallace  تحت جاوا نوشته شده ولی بعدها George Dunlop اون رو بهبود بخشیده.

در لینک زیر می تونید خودتون با Eliza صحبت کنید و مشاوره ی رایگان بگیرید!!!!

 

لینک صحبت با Eliza

 

nltk

سلام بچه ها


همون طور که می دونید ما  برای پردازش متن نیاز به  نرم افزار  nltk   داریم. من در این پست قصد دارم طریقه ی نصب آن را توضیح بدم.

اولین نکته این است که شما برای کار با این نرم افزار باید از   python-2.6 استفاده کنید. برای این کار لازم است که نرم افزار nltk-2.0b9 و همین طور PyYAML-3.09  رو دانلود و نصب کنید که من لینکش رو براتون قرار میدم.

http://www.nltk.org/download


بعد از نصب این دو وارد محیط python-2.6 شوید و nltk  ضمیمه کنید ، با این دستور:import nltk


و سپس دستور: ()nltk.download


سپس پنجره ای  ظاهر می شود که شما باید گزینه ی book را انتخاب کرده و بعد روی گزینه download کلیک کنید.


لازم به ذکر است که  شما باید اینترنت با سرعت بالا داشته باشید و از  فیلتر شکن قوی استفاده کنید.مرحله ی آخر خیلی  زمان بر است ، صبر و حوصله رو فراموش نکنید.

من از روش بالا استفاده کردم، اما همون طور که گفتم زمان بر است، شما می تونید فقط پکیج های مورد نظرتون در گوگل جستجو و  دانلود کنید.



کنکور کارشناسی ارشد و زبان‌شناسی رایانشی

دوستان گفتند که برای گرایش زبان‌شناسی رایانشی در کنکور کارشناسی ارشد دروس ریاضی و کامپیوتر هم به مواد آزمون اضافه شده، خوشحال شدم؛ اما دفترچه را که خواندم (لینک به دفترچه)، دیدم نه‌خیر، خبری نیست. اصلاً کما فی‌السابق اسمی از گرایش زبان‌شناسی رایانشی در دفترچه اول آزمون ورودی کارشناسی ارشد نیست، این هم به این معناست که عزیزان باید همان زبان‌شناسی همگانی را امتحان بدهند.

در این وضعیت افراد به دو دسته تقسیم می‌شوند: یک دسته آن‌هایی که قبلاً نام این رشته را شنیده‌اند و تا زمان رسیدن دفترچه دوم باید در بلاتکلیفی بمانند که اصلاً امسال این رشته ورودی دارد یا نه. دستۀ دوم هم عزیزانی که قبلاً نام مبارک "زبان‌شناسی رایانشی" به گوششان نخورده و با دیدن اسم رشته و تنها محل پذیرش آن، با توجه به این که زمان کافی برای تحقیق و پرس و جو هم نیست، بدون هیچ شناختی، به دلایل واهی و خصوصاً به خاطر نام وسوسه‌انگیز "دانشگاه صنعتی شریف"، بر خدا توکل کرده و آن را انتخاب می‌کنند!

مشکل اصلی نبودن دروس ریاضی و کامپیوتر در آزمون ورودی این رشته این است که بعضاً ممکن است دوستانی وارد شوند که تا به حال استفاده‌شان از کامپیوتر نهایتاً در حد رایت کردن سی‌دی بوده است! متاسفانه همین موضوع باعث می‌شود که چنین افرادی خودشان هم در طول تحصیل با مشکلات عدیده‌ای مواجه شوند. 

مشکل اساسی دیگر که در این زمینه وجود دارد، که البته مشکل تمام رشته‌های جدید دیگر هم هست،  عدم اطلاع‌رسانی صحیح در خصوص رشته و آشنا کردن داوطلبان با کاربردهای آن می‌باشد. نبودن نام رشته در دفترچه اول کنکور شاید بارزترین نمود این مسئله باشد.

به هرحال، من مطمئنم که مسئولان مرکز زبان‌ها و زبان‌شناسی دانشگاه صنعتی شریف خود به این مسائل واقف هستند، و احتمال می‌دهم که مورد اول، یعنی نبودن درس‌های ریاضی و کامپیوتر در کنکور، به خاطر مقاومت سازمان سنجش باشد. با این حال توجه بیشتر به این مسائل می‌تواند موجب ارتقای رشته و رسیدن آن به جایگاه واقعی خود باشد. خود دانشجویان هم می‌توانند در معرفی بهتر رشته تأثیر قابل توجهی داشته باشند. (امیدوارم که این وبلاگ هم نقطۀ آغازی در این راه باشد!)

معرفی "پارس مورف"

معرفی "پارس مورف" :

"پارس مورف" سامانه ای مبتنی بر قواعد صرفی زبان فارسی است که ساخت درونی کلمات فارسی را با توجه به نظام تصریف و نظام واژه سازی زبان تجزیه و تحلیل می کند و مقوله دستوری و نقش هر کدام از اجزای سازنده کلمه را مشخص می کند. "پارس مورف" با استفاده از یک واژگان حدودا 45000 واژه ای و نیز در چارچوب قواعد صرفی زبان فارسی که بر یک تحقیق جامع زبانشناختی استوار است و می تواند واژه های پیچیده و نیز صورت های ممکن تصریفی و حتی واژه های خارج از واژگان را تحلیل کند.


دقت نسخه اول پارس مورف حدود 95% است که افزودن اطلاعات نحوی و مسائل مربوط به هم‌نویسه ها و نیز لحاظ کردن خط فارسی می تواند دقت آن را به 100% نزدیک کند.

لازم به ذکراست که برنامه تحلیلگر صرفی Pars Morph موضوع پایان‌نامه کارشناسی ارشد آقای" وحید مواجی" بوده و تحت سرپرستی "دکتر محرم اسلامی" و به مشاوره "دکتر بهرام وزیرنژاد" صورت گرفته است.


این برنامه توسط زبان برنامه نویسی پایتون نوشته شده است و با استفاده از معماری Django تحت وب قرار گرفته‌.

در ضمن سمینار روز چهارشنبه 90.10.14 به همین موضوع(پارس مورف) می پردازد.


در لینک زیر می توانید واژه دلخواه خود را وارد کرده و شکل تقطیع شده و مقوله دستوری آن را ببینید:


http://81.31.191.11