Žodžių išrinkimas iš teksto

Reiktų pradėti nuo to, kad ši problema nėra lengvai išspręndžiama, nėra jokio tikslaus algoritmo kuris tai atliktų. Tačiau yra gan neblogų bandymų :)

Pirmas žingsnis - skaldyti tekstą per tarpus

def get_words(raw):
    return raw.split(" ")

Duodam "Labas rytas", rezultatas => ['labas', 'rytas']. Puiku! Atrodo, kad nieko daugiau daryti nebereikia :) Bet pabandome kiek įdomesnį variantą: "Labas rytas, gerbiamas prof.!" ir gauname => ['labas', 'rytas,', 'gerbiamas', 'prof.!'].

Pašalinti šiems pertekliniams simboliams naudojamas metodas strip (kitose kalbose dažnai vadinamas ...

pradmenys python nlp