当前位置: 首页 > news >正文

潍坊哪家网站制作公司好做京东电脑端首页链接的网站

潍坊哪家网站制作公司好,做京东电脑端首页链接的网站,标准个人简历模板免费下载,共享办公商业租赁网站模板源码链接: https://github.com/Niceeggplant/Single—Site-Crawler.git 一、项目概述 从指定网页中提取文章关键信息的工具。通过输入文章的 URL,程序将自动抓取网页内容 二、技术选型与原理 requests 库:这是 Python 中用于发送 HTTP 请求…

源码链接: https://github.com/Niceeggplant/Single—Site-Crawler.git

一、项目概述

从指定网页中提取文章关键信息的工具。通过输入文章的 URL,程序将自动抓取网页内容

二、技术选型与原理

  1. requests:这是 Python 中用于发送 HTTP 请求的常用库。它能够模拟浏览器向网页服务器发送请求,并获取网页的 HTML 文本内容。在本项目中,我们利用它来获取目标文章网页的源代码,为后续的信息提取提供基础数据。其使用方法非常简单,只需调用 requests.get() 方法,并传入目标 URL 和可选的请求头信息即可。例如:
import requestsurl = "https://example.com/article"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
response = requests.get(url, headers=headers)
html_text = response.text

这里设置请求头中的 User-Agent 是为了模拟浏览器访问,避免一些网站对非浏览器请求的限制。

  1. BeautifulSoup:该库主要用于解析 HTML 和 XML 文档。它能够将复杂的网页结构转换为易于操作的 Python 对象,方便我们通过标签、类名、ID 等属性定位和提取网页中的元素。在本项目中,我们使用它来解析 requests 库获取到的 HTML 文本,以提取文章的各种信息。使用时,首先需要创建一个 BeautifulSoup 对象,例如:
from bs4 import BeautifulSoupsoup = BeautifulSoup(html_text, 'html.parser')

这里的 html.parser 是 Python 内置的 HTML 解析器,也可以根据需要选择其他更强大的解析器,如 lxml 解析器。

三、代码实现步骤

  1. 定义提取函数
import requests
from bs4 import BeautifulSoupdef fetch_article_info(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}try:response = requests.get(url, headers=headers)response.raise_for_status()  soup = BeautifulSoup(response.text, 'html.parser')

这里定义了 fetch_article_info 函数,它接受一个文章 URL 作为参数,并在函数内部进行请求和解析的操作。

  1. 提取标题
        title_element = soup.find('h1')title = title_element.get_text().strip() if title_element else '未找到'

通过 soup.find('h1') 查找网页中的 <h1> 标签,通常文章标题会在这个标签内。如果找到,则获取其文本内容并去除首尾空格;如果未找到,则将标题设为 未找到

  1. 提取作者
        authors = []author_elements = soup.find_all('div', class_='authors')if not author_elements:author_elements = soup.find_all('input', id='authors')for author_element in author_elements:author_links = author_element.find_all('a')for link in author_links:authors.append(link.get_text().strip())authors = ', '.join(authors) if authors else '未找到'

首先尝试通过查找类名为 authors<div> 标签来获取作者信息,如果未找到,则查找 idauthors<input> 标签。然后遍历找到
在这里插入图片描述

http://www.yingshimen.cn/news/444/

相关文章:

  • 如何用ip地址做网站做一个网页的流程目录
  • 温州制作网站做西点网站
  • 网站开发人员是做什么的网站的宣传推广包括
  • 网站建设中 敬请期待.南京做网站哪家最好
  • 珠宝企业的门户网站开发网站建设和网站设计有什么区别
  • 成都网站设计公司 网络服务最受欢迎的网站开发语言市场有率
  • 网站app服务器租用精品课程网站开发环境
  • 企业网站托管dw做网站表格插不到右边
  • 阿里网站seowordpress 加载数据库表格也卖弄
  • 企业网站域名备案流程the 7 wordpress
  • 做设计想接外单去哪个网站好网络营销导向企业网站建设的原则包括
  • 徐州人才网官方网站dedecms导购网站模板
  • 汕头网站建设制作厂家外贸网站的特点
  • 怎么在百度建设一个网站绍兴百度seo公司
  • 怎么选择网站建设网站怎么推广最
  • 怎么样自己制作网站大连建设公司网站
  • 手机怎么做网站卖东西南通营销型网站建设
  • 怎么开发自己的网站wordpress媒体相对路径
  • 仙居住房和城乡建设部网站网站被降权了
  • 天津市企业网站建设公司家装装修风格大全
  • 怎么做情侣网站logo制作app
  • 校园网站的作用万网域名注册备案
  • 做试用的网站惟博df1042可以看多远
  • 网络推广网站首页大图广东省自然资源厅领导分工
  • 网站安全检测中的安全事件监测包含哪些监控指标零基础自学设计
  • flash网站模板下载爱站网长尾关键词
  • 网站建设 有限公司帕绍网站建设
  • 什么网站可以接室内设计做湘潭网站seo磐石网络
  • 佛山网络公司哪个好扬中网站优化
  • 高要seo整站优化建网站的公司