گام های شروع کار در پردازش زبان طبیعی مبتنی بر پایتون

برای فعالیت در این حوزه پایتون یکی از زبان های خوبیست که شامل کتابخانه های متعددی است. در پردازش زبان طبیعی نیز استفاده از پایتون به خاطر جامعیت کاربری و … بیشتر کارشده است. پیشنهاد میشود طبق مراحل ذیل بحث سوال و مسئله را فراگیرید و پیش روید:

 

گام اول : فراگیری زبان پایتون

برای آموختن این زبان به نظر بنده ابتدا با یادداشت خاص قبلی پیش روید (آموزش اولیه سایت فرانش)

سپس که پایه ریزی خوب صورت گرفت اگر خواستید یک خورده دقیقتر در پایتون پیشروید و بیشتر بدانید تا بتوانید بهتر در ادامه پیشروید آموزش های این لینک را دانلود و مشاهده کنید.

سپس شما به سطح مطلوبی رسیدید که قرار است به گام بعدی بروید. مدت زمانی که برای گام اول صرف میشود حداکثر یک هفته مطلوب هست.

 

گام دوم : مفاهیم NLTK و Hazm

پیشنهاد میشود برای شروع به کار و همچنین نصب و کسب اطلاعات یک گذر مروری روی سایت های رسمی NLTK  و هضم داشته باشید.

فیلم ذیل میتوانید در این راستا دید خوبی بدهد و کلیات مسیر را تقریبا مشخص کند

 

گام سوم : فراگیری جزئیات NLTK و نوشتن مثال

پیشنهاد میشود به صورت سلسله وار از روی یک یا چند منبع معتبر پیشروید. برای شروع به نظر بنده کتاب Python 3 Text Processing with NLTK 3 Cookbook خوب هست. برای دانلود کتاب از منبع اول یا منبع دوم استفاده کنید. اگر در دانلود مشکلی بود اطلاع دهید تا لینک جایگزین درج گردد.

 

البته این مسیر پیشنهادیست.

اگر پیشنهاد بهتری دارید حتما در بخش نظرات بفرستید تا بررسی و در صورت صلاحدید اعمال نماییم.

موفق و موید باشید/.

 

6 پاسخ ها
    • پشتیبانی فنی
      پشتیبانی فنی می گوید:

      باسلام وقت بخیر

      به احتمال زیاد مشکل بخاطر بحث فیلترینگ هست. باتوجه به اینکه ارتباط بصورت https با گیت برقرار میشود، گاهی اوقات در برخی اپراتورها و یا مراکز داده ای کشور، امکان برقراری ارتباط وجود ندارد و قضیه شبیه به بحث فیلتر بودن سایت است. لذا از یک ابزاری استفاده نمایید تا از بحث فیلترینگ عبور کنید و مجدد تست کنید. اگر باز هم به مشکل برخوردید اطلاع دهید

      موفق و موید باشید/.

      پاسخ
    • پشتیبانی فنی
      پشتیبانی فنی می گوید:

      سلام
      از ابزارهای عبور از فیلترینگ باید استفاده کنید. البته خیلی از شبکه ها مثل ایرانسل و … تست شده و مشکلی مشاهده نشده است

      پاسخ
  1. *
    * می گوید:

    بسم الله الرحمن الرحیم
    با سلام
    بابت مطالب مفید سایت تشکر می کنم.
    قبل از نصب هضم توکنایزر انگلیسی به خوبی کار می کرد ولی متاسفانه بعد از نصب هضم خطا می دهد.
    گویا ورژن nltk رو تغییر داده است.
    from nltk.tokenize import RegexpTokenizer
    tokenizer = RegexpTokenizer(r’\w+’)
    word_tokenize_list = self.tokenizer.tokenize(sentence)
    و خطایی که می دهد:
    line 238, in sentence2words
    word_tokenize_list = self.tokenizer.tokenize(sentence)
    File “/usr/local/lib/python3.5/dist-packages/nltk/tokenize/regexp.py”, line 126, in tokenize
    self._check_regexp()
    File “/usr/local/lib/python3.5/dist-packages/nltk/tokenize/regexp.py”, line 121, in _check_regexp
    self._regexp = compile_regexp_to_noncapturing(self._pattern, self._flags)
    File “/usr/local/lib/python3.5/dist-packages/nltk/internals.py”, line 56, in compile_regexp_to_noncapturing
    return sre_compile.compile(convert_regexp_to_noncapturing_parsed(sre_parse.parse(pattern)), flags=flags)
    File “/usr/local/lib/python3.5/dist-packages/nltk/internals.py”, line 52, in convert_regexp_to_noncapturing_parsed
    parsed_pattern.pattern.groups = 1
    AttributeError: can’t set attribute
    با سپاس فراوان

    پاسخ
    • *
      * می گوید:

      بسم الله الرحمن الرحیم
      با سلام
      الحمدلله مسئله حل شد، هضم ورژن ۳٫۰٫۵ nltk رو نصب می کند. در ترمینال sudo pip3 install -U nltk را نوشتم.
      بدین ترتیب ورژن ۳٫۰٫۵ رو حذف و ۳٫۲٫۵ رو مجددا نصب کرد.

      پاسخ

دیدگاه خود را ثبت کنید

آیا می خواهید به بحث بپیوندید؟
در صورت تمایل از راهنمایی رایگان ما استفاده کنید!!

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *