Учебники

Python – обработка неструктурированных данных

Данные, которые уже присутствуют в формате строк и столбцов или которые могут быть легко преобразованы в строки и столбцы, чтобы впоследствии они могли хорошо вписаться в базу данных, называются структурированными данными. Примерами являются файлы CSV, TXT, XLS и т. Д. Эти файлы имеют разделитель и либо фиксированной, либо переменной ширины, где пропущенные значения представлены в виде пробелов между разделителями. Но иногда мы получаем данные, где строки не имеют фиксированной ширины, или это просто HTML, изображения или PDF-файлы. Такие данные известны как неструктурированные данные. В то время как файл HTML можно обрабатывать путем обработки тегов HTML, канал из твиттера или простой текстовый документ из канала новостей без разделителя не может обрабатывать теги. В таком сценарии мы используем разные встроенные функции из разных библиотек python для обработки файла.

Чтение данных

В приведенном ниже примере мы берем текстовый файл и читаем файл, разделяющий каждую из строк в нем. Далее мы можем разделить вывод на следующие строки и слова. Исходный файл представляет собой текстовый файл, содержащий несколько абзацев, описывающих язык Python.

 filename = 'path \ input.txt'  

 с открытым (имя файла) как fn:  

 # Читайте каждую строку
    ln = fn.readline ()

 # Держите счетчик строк
    lncnt = 1
    пока ln:
        print ("Line {}: {}". format (lncnt, ln.strip ()))
        ln = fn.readline ()
        lncnt + = 1

Когда мы выполняем приведенный выше код, он дает следующий результат.

Line 1: Python is an interpreted high-level programming language for general-purpose programming. Created by Guido van Rossum and first released in 1991, Python has a design philosophy that emphasizes code readability, notably using significant whitespace. It provides constructs that enable clear programming on both small and large scales.
Line 2: Python features a dynamic type system and automatic memory management. It supports multiple programming paradigms, including object-oriented, imperative, functional and procedural, and has a large and comprehensive standard library.
Line 3: Python interpreters are available for many operating systems. CPython, the reference implementation of Python, is open source software and has a community-based development model, as do nearly all of its variant implementations. CPython is managed by the non-profit Python Software Foundation.

Подсчет частоты слов

Мы можем посчитать частоту слов в файле, используя функцию счетчика следующим образом.

 из коллекции импорт счетчик

 с открытым (r'pathinput2.txt ') как f:
                p = Счетчик (f.read (). split ())
                печать (р)

Когда мы выполняем приведенный выше код, он дает следующий результат.